贵阳小蚊子网络科技有限公司

 /uploads/allimg/190116/1-1Z1161KP30-L.jpg
 /uploads/allimg/190116/1-1Z1161JH20-L.jpg

SEO网站优化:网站优化内容处理牵引(一)

Time:2019-01-11 Author:焦文
网站优化内容处理牵引(一)

搜索引擎蜘蛛对网站进行了爬行和抓取后,接下来的一步就是对的内容进行预处理,也称“索引”。索引主要包括提取文字、中文分词,去除停止词、消除噪声、去重、 正向索引, 倒排索引、链接关系计算和特殊文件处方面。搜索引擎在进行抓取时候,页面数量都在亿万级以上,在用户通过搜索关键词后,机会对于这些关键词进行分析,由于计算量较大,不可能在几秒钟的时间进行收录处理,因此我们要进行页面的优化处理。

主要的方法如下:

1)提取文字

搜索引擎主要是依靠文字内容为基础,在搜索引擎抓取页面HTML代码中,除了可以看到文字外,还进行HTML格式、标签JavaScript程序进行识别。这里我们要做的就是进行HTML格式、标签JavaScript进行优化处理。

2)中文分词

中文分词是搜索引擎中特别的一种方法,词与间之间没有任何分隔符,一个句子中的所有文字与词语都是连在一起的,所以搜索引擎实现必须方便是哪几个字组成了一个词语,以及那些词本身就是一个词语。中文分词主要有两种方法,一种是基于词典匹配,另一种是基于统计。

3

在网站中,网站内容都会出现一些频率比较高的词语,对于页面没有任何帮助。例如,“的”、 “地”、 “得”之类的助词,“啊”、 “哈”、 “呀”之类的感叹同,“从而”、“以”、之类的副词或介词,这些词被称为停止词。因为它们对页面的主要意思没有影响。搜索引擎直索引页面之前会去掉这些停止词,使索引数据的主题更为突出,减少无谓的计算量,从而增加页面的收录。

4)消除噪声

而是指页面上对页面主题没有贡献的内容,如版权声明文字,导航条,广告等,这些内容对页面主题只会起到分散作用。因此搜表引擎需要识别并清除这些噪声,在计算排名时避免使用噪声内容。

消除噪声的基本方法是根据HTML标签对页面分块,区分页头、导航条、正文,页聊、广告等区城,在网站中多次重复出现的区块往往属于噪声。消除页面噪声后,剩下的才是页面主体内容。