seo实战密码第三版：为什么要做SEO？

从今天开始，叽里咕噜将在三天内读完《seo实战密码》第三版这一本众人皆知的书，尽量提炼出书中最精华的文字，帮助自己学习提高

为什么要做SEO暨SEO基础

seo是什么？

SEO是指在了解搜索引擎自然排名机制的基础上，对网站进行内部及外部的调整优化，改进网站在搜索引擎中的关键词自然排名，获得更多流量，从而达成网站销售及品牌建设的目标。

获得和提高关键词自然排名是SEO效果的表现之一，但最终目的是获得搜索流量，没有流量的排名是没有意义的。

SEOer的职责

SEO人员优化网站就是尽量减少搜索引擎的工作量、降低搜索引擎的工作难度，使搜索引擎能更轻松、快速地抓取网站页面，更准确地提取页面内容。

搜索引擎工作过程

搜索引擎的工作过程大体上可以分成三个阶段：

（1）爬行和抓取：搜索引擎蜘蛛通过跟踪链接发现和访问网页，读取页面HTML代码，存入数据库。

（2）预处理：索引程序对抓取来的页面数据进行文字提取、中文分词、索引、倒排索引等处理，以备排名程序调用。

（3）排名：用户输入查询词后，排名程序调用索引库数据，计算相关性，然后按一定格式生成搜索结果页面。

蜘蛛爬行基本原理解释

为了抓取网上尽量多的页面，搜索引擎蜘蛛会跟踪页面上的链接，从一个页面爬到下一个页面，就好像蜘蛛在蜘蛛网上爬行那样，这也就是搜索引擎蜘蛛这个名称的由来。
整个互联网是由相互链接的网站及页面组成的。从理论上说，蜘蛛从任何一个页面出发，顺着链接都可以爬行到网上的所有页面。

当然，由于网站及页面链接结构异常复杂，蜘蛛需要采取一定的爬行策略才能遍历网上所有页面。

最简单的爬行遍历策略分为两种，一种是深度优先，另一种是广度优先。从我们的实际情况观测，对于新站/新内容，一般遵循广度优先原则，老站/老内容则为深度优先原则。

蜘蛛爬行原则

因为各个搜索引擎的蜘蛛带宽资源、时间都不是无限的，所以不可能按照理想情况下的广度优先\深度优先原则，逐级爬完一个网站的页面。

SEO人员要想让自己的更多页面被收录，就要想方设法吸引蜘蛛来抓取。既然不能抓取所有页面，蜘蛛所要做的就是尽量抓取重要页面。哪些页面被认为比较重要呢？有几方面影响因素：

1.网站和页面权重：质量高、资格老的网站被认为权重比较高，这种网站上的页面被爬行的深度也会比较高，所以会有更多内页被收录。

2.页面更新度：蜘蛛每次爬行都会把页面数据存储起来。如果第二次爬行发现页面与第一次收录的完全一样，说明页面没有更新，多次抓取后蜘蛛会对页面更新频率有所了解，不常更新的页面，蜘蛛也就没有必要经常抓取。如果页面内容经常更新，蜘蛛就会更加频繁地访问这种页面，页面上出现的新链接，也自然会被蜘蛛更快地跟踪，抓取新页面。

3.导入链接：无论是外部链接还是同一个网站的内部链接，要被蜘蛛抓取，就必须有导入链接进入页面，否则蜘蛛根本没有机会知道页面的存在。高质量的导入链接也经常使页面上的导出链接被爬行深度增加。

4.与首页点击距离：一般来说网站上权重最高的是首页，大部分外部链接是指向首页的，蜘蛛访问最频繁的也是首页。离首页点击距离越近，页面权重越高，被蜘蛛爬行的机会也越大。

5.URL结构：页面权重是在收录并进行迭代计算后才知道的，那么前面说的页面权重高有利于被抓取，搜索引擎蜘蛛在抓取前怎么知道这个页面的权重呢？所以蜘蛛要进行预判，除了链接、与首页距离、历史数据等因素外，短的、层次浅的URL也可能被直观认为在网站上的权重相对较高。

去重原理

停止词：无论是英文还是中文，页面内容中都会有一些出现频率很高，却对内容没有任何影响的词，如“的”、“地”、“得”之类的助词，“啊”、“哈”、“呀”之类的感叹词，“从而”、“以”、“却”之类的副词或介词。这些词被称为停止词，因为它们对页面的主要意思没什么影响。英文中的常见停止词有the，a，an，to，of等。搜索引擎在索引页面之前会去掉这些停止词，使索引数据主题更为突出，减少无谓的计算量。

去重：“去重”的基本方法是对页面特征关键词计算指纹，也就是说从页面主体内容中选取最有代表性的一部分关键词（经常是出现频率最高的关键词），然后计算这些关键词的数字指纹。这里的关键词选取是在分词、去停止词、消噪之后。实验表明，通常选取10个特征关键词就可以达到比较高的计算准确性，再选取更多词对去重准确性提高的贡献也就不大了。典型的指纹计算方法如MD5算法（信息摘要算法第五版）。这类指纹算法的特点是，输入（特征关键词及其顺序）有任何微小的变化，都会导致计算出的指纹有很大差距。了解了搜索引擎的去重算法，SEO人员就应该知道简单地增加“的”、“地”、“得”、调换段落顺序这种所谓伪原创，并不能逃过搜索引擎的去重算法，因为这样的操作无法改变文章的特征关键词，也就无法改变指纹。而且搜索引擎的去重算法很可能不止于页面级别，而是进行到段落级别，混合不同文章、交叉调换段落顺序也不能使转载和抄袭变成原创。

特征关键词（核心关键词）是去重的关键点之一，从这一点上来看，目前的伪原创工具，5118之类的通过手动/自动挑选与特征关键词最密切的同义词，还是有概率做到骗过搜索引擎的。

索引

正向索引也可以简称为索引。经过文字提取、分词、消噪、去重后，搜索引擎得到的就是独特的、能反映页面主体内容的、以词为单位的字符串。接下来搜索引擎索引程序就可以提取关键词，按照分词程序划分好的词，把页面转换为一个关键词组成的集合，同时记录每一个关键词在页面上的出现频率、出现次数、格式（如出现在标题标签、黑体、H标签、锚文字等）、位置等信息。这样，每一个页面都可以记录为一串关键词集合，其中每个关键词的词频、格式、位置等权重信息也都记录在案。搜索引擎索引程序将页面及关键词形成词表结构存储进索引库。

每个文件都对应一个文件ID，文件内容被表示为一串关键词的集合。实际上在搜索引擎索引库中，关键词也已经转换为关键词ID。这样的数据结构就称为正向索引。

倒排索引

正向索引还不能直接用于排名。假设用户搜索关键词2，如果只存在正向索引，排名程序需要扫描所有索引库中的文件，找出包含关键词2的文件，再进行相关性计算。这样的计算量无法满足实时返回排名结果的要求。所以搜索引擎会将正向索引数据库重新构造为倒排索引，把文件对应到关键词的映射转换为关键词到文件的映射，如表22所示。表22倒排索引结构在倒排索引中关键词是主键，每个关键词都对应着一系列文件，这些文件中都出现了这个关键词。这样当用户搜索某个关键词时，排序程序在倒排索引中定位到这个关键词，就可以马上找出所有包含这个关键词的文件。

[content_hide]小结

可以看出，在关键词排序之前搜索引擎需要依次在后台处理以下步骤：蜘蛛爬行网页>文字提取>中文分词（分词）>停止词处理（消噪）>特征词提取（去重）>索引>倒排索引，由于分词、消噪在一定程度上人工能干预的程度极低，所以seo基本上就是三大关：一是吸引蜘蛛爬行，二是特征词管理，三是让目标关键词所在的文件，处于前位。而蜘蛛是一切优化的源头，如何吸引蜘蛛？除了正常的外链，保证整个网站的重点只有一个，是更加好的方式，也就是如果整个网站的所有文章都围绕着一个词去优化，就算是网站权重为0，页面权重也会比多点突破高出一倍不止。

[/content_hide]

扩展阅读

《如何快速获得搜索引擎排名之黑帽seo》

《怎么发布高质量文章，达到搜索引擎收录的目的？》

seo实战密码第三版：为什么要做SEO？

为什么要做SEO暨SEO基础

SEOer的职责

搜索引擎工作过程

蜘蛛爬行基本原理解释

蜘蛛爬行原则

去重原理

索引

倒排索引

[content_hide]小结

扩展阅读

如何在一周之内让SEO优化出效果？

外链（单向链接）是怎么影响一个网站的排名的？

xdaza

Comments | NOTHING

取消回复