在自动描述提取过程中,文本中的一些内容和对象非常重要,这将直接影响摘要的质量。如关键词、词频、词位、句长、句结构、排版特征等。在自动生成描述的过程中,它们在抽象句的选择和组织中起着重要作用。我们必须深入理解和分析它们。
词频是指文本中单词的频率。具有引用价值的词大多是中频词,通常是反映句子语法结构的虚词。低频词不应引用。同样,在摘要中起重要作用的词也是高频关键词(重要词),属于整篇文章中的中频词。根据中频词的数量,计算句子的权重,确定候选句子。
文本信息的标题是文本内容的重要体现。各级文本的标题在不同程度上反映了文本的主要内容。因此,标题中的词汇是摘要的重要材料,关键词和原文的内容往往与讨论的主题密切相关。除标题中的虚拟词外,其他关键词可作为抽象句中的重要词。
有许多短语(单词)用于扩展总结句,以反映文本的内容。这些短语或单词被称为指示语言。该指示语言有以下形式:本文讨论、本文目的、总结等。这些指示语言后的句子往往高度总结了文学的主题。因此,这些句子很可能被选为摘要的候选句子。
网站seo网页描述和内容优化的要点
不同位置的句子对文章和段落的主题有不同的贡献。企亿推对此做了一些研究。我们认为,本段第一句成为主题句的概率为85%,本段结尾句的概率为7%。因此,这些句子很可能成为总结句。在自动摘要的过程中,这些特殊位置的句子权重需要提高。
文章中有多种句型,如陈述句、疑问句、感叹句等。然而,陈述句是真正反映文章主题的主要陈述句,这也表明文章的摘要主要由陈述句组成。因此,在选择总结句时,应尽量提取陈述句,以避免疑问句、感叹句等形式的句子进入总结句。
摘要短小精悍,即用短文总结文章的主要内容。因此,在选择抽象句时,应选择更简洁、更短的句子,而过长的句子通常不适合抽象。
随着网页设计软件的发展,对机器阅读文献的排版格式也提出了更高的要求。编辑经常通过增加字体大小、改变粗体或特殊字体、下划线、中间文本、标记、增加缩进、阴影、边框、超链接等特殊格式来突出文学的主题内容。应考虑这些特殊的格式特征,并适当地增加重量。
整个网站优化SEO项目占很大比例。外部链接只能在内部优化的基础上锦上添花。企亿推的观点是:SEO重点是考虑如何在网站上做好工作,满足搜索引擎的规则,避免违反搜索算法。