东营网站建设之网页结构化的过程 即有价值信息被保留的过程
2013-12-17 05:24:14 3619人浏览
作者:sysmaster  本文来源:黄河口网络

向大家介绍过网页结构化的目标,结构化的过程就是网站有价值信息被保留的过程,今天之所以又用这样的标题来写一篇文章,其实是有目的的,是想再次的提醒网站seo优化人员,搜索引擎工作原理是做好网站优化工作的基础。

现在不比前几年,一说网站优化一说SEO优化,改改title,discription,keyword,发发外链,网页的排名效果就会有。但现在仅仅指望这点已经不起作用了,人人都会的东西,你再拿出来作为自己的优势,实际上是落伍了,再加上黑帽seo优化的猖獗,针对百度的优化,针对google的优化层出不穷,搜索引擎也在不断的调整着算法。要做SEO优化的前锋战士,根据互联网的发展变化,时时保持清醒的头脑,吸收新的知识,只有这样网站的优化效果才可能在你的控制之中。

话回正题,来简单解释一下,网页结构化的过程即有价值信息被保留的过程。明白了网页结构化的目标后,就应该明白,体现网页本身价值和内容的5个属性被抽取出来,即,标题(title)、锚文本(anchor text)、正文标题(content title)、正文(content)和正向链接(link)。对搜索引擎来说,这5个属性就是有价值的信息(当然,也是对用户有价值的内容)。

我们来具体看一下网页结构化是如何进行的?

网页结构化的过程首先通过标签树进行分析得到文本对应的标签,然后通过投票算法确定正文及配图等仅从HTML标签无法判断的网页数据。以下是专业人士总结的两步走:

HTML标签树

一、 建立html标签树(tag-tree)。

万维网上大多数的静态网页都以HTML网页形式存在,HTML是一种标识语言(Markup Language),它把其描述的全部内容都按照HTML语法存放在标签之中。为了更清楚地描述网页内容的组织结构,将网页中的标签按照出现顺序依次整理出来并用适当的结构记录。由于标签之间的嵌套关系,因此整理结果自然是一个树状结构,我们把整理一个网页中的标签得到的树状结构称为该网页的“标签树”。

很显然,查看该网页的用户看到的是相当友好的信息。而实际源文件中的那些HTML标记,如和(可以理解为用来帮助IE浏览器理解网页)等都不会实际地展示给用户。因此搜索引擎的分析系统需要学习IE浏览器理解网页的方式来理解网页,在理解过程中需要建立一个HTML标签树的树形结构。通过建立标签树,并且识别标签所描述的文字,网页结构化进程就走出了重要的一步,能够顺利提取出了网页的标题。但实际的网页,同一个标签所描述的文字内容不是唯一确定的,比如广告内容也可能放在标签里,而这不是真正的正文,是会影响用户的搜索体验,所以就有了下面投票法得正文。

二、通过投票方法识别正文的文本块,并按照深度优先遍历的规则组织为正文。

判断哪个文本块是正文采用称为“投票算法”的计算方法,这种方法在搜索引擎中特别常用。在日常生活中几乎所有人都会有投票或选举的经历,如选举干部和通过决议需要投票,以及运动员的一套动作需要裁判员打分等。其基本原理在于认为大多数人的意见往往是正确的。大多数人的统一主观意见就会变得较为客观。虽然每个人的给出的分数是主观产生的,但是这种评判的方法和结果被认为是相对客观和可信的。正文抽取的投票算法的过程如何呢?首先搜索引擎会定义一系列的规则,然后通过这些规则为每个文本块打分。得分最高的被认为是正文的可能性足够大,并且可以接受。搜索引擎定的规则,也是需要通过足够多的网页进行反馈,之后才能得到一个公正客观的打分。由于HTML标签的相互嵌套的特性,决定了深度优先遍历的顺序恰好能够组织成一个完整的正文。

Copyright 2011 All rights reserved. 黄河口科技 东营网站建设 免费咨询热线:400-655-0546 电话:0546-8234788 传真:0546-8511766  网址:www.hhko.cn  Email:ccs@hhkkj.com 
《中华人民共和国电信与信息服务业务经营许可证》编号:鲁ICP备14031412号 法律顾问:恪诺律师所陈盼律师