这一篇文章主要是收集归纳了网上关于最初级的搜索引擎定义,以及比较深层次的TF-IDF模型知识,希望大家能从头至尾的了解搜索引擎,并加以应用


 

搜索引擎的定义

搜索引擎是指根据一定的策略、运用特定的计算机程序从互联网上采集信息,在对信息进行组织和处理后,为用户提供检索服务,将检索的相关信息展示给用户的系统。搜索引擎是工作于互联网上的一门检索技术,它旨在提高人们获取搜集信息的速度,为人们提供更好的网络使用环境。从功能和原理上搜索引擎大致被分为全文搜索引擎、元搜索引擎、垂直搜索引擎和目录搜索引擎等四大类。


搜索引擎发展到今天,基础架构和算法在技术上都已经基本成型和成熟。搜索引擎已经发展成为根据一定的策略、运用特定的计算机程序从互联网上搜集信息,在对信息进行组织和处理后,为用户提供检索服务,将用户检索相关的信息展示给用户的系统。


搜索引擎search engine是一种信息检索系统,旨在协助搜索存储在计算机系统中的信息。搜索结果一般被称为“hits”,通常会以表单的形式列出。网络搜索引擎是最常见、公开的一种搜索引擎,其功能为搜索万维网上储存的信息。

 



本质
https://www.zhihu.com/question/19937429


从表象上来说


搜索引擎的本质是索引工具、信息获取方式,协助用户找东西/快速准确地找东西
搜索引擎主要经历了:分类目录、相关性搜索、高质量搜索、个性化搜索四个阶段


从深层次上来说


初级形态(从1994年第一代真正基于互联网的搜索引擎Lycos诞生 至 现在):搜索引擎是互联网内容的组织者(用关键词匹配组织全互联网的内容)
中级形态(现在):搜索引擎是互联网内容的过滤器(有价值的内容被排在前面,垃圾信息被过滤掉)
高级形态(现在):搜索引擎是互联网内容的推动者(搜索引擎不是内容创造者,确能让内容获得更多的曝光以及流量,倒逼内容创造者创作出更多更好的内容)
终极形态(未来):搜索引擎是决策引擎+需求预测的集合体,依旧会以关键词作为基础,展开更多更全面的内容



用户的搜索习惯
https://www.52by.com/article/27316


主动式

基于用户一方而言的,由于用户出于某种需求主动进行搜索行为。这里用户的需求,可以是有明确目的性的,直接搜索某一品牌或产品;也可以是无明确目的性的,只是搜索某一类用途通过关键词匹配,呈现某些品牌或产品。


被动式
基于商家一方而言的,正由于用户基于某种需求要进行搜索而非直接购买,就意味着用户还处于了解、比较状态。所以,我们需要将自己的品牌、产品使用关键词匹配到用户需求。


在搜索结果页面首页排名前三的页面得到的关注时间相差不大,尤其是前两位差距很小,但点击次数却有很大差异:排名第一的搜索结果点击次数占据了56.36%;排名第二的搜索结果点击次数仅为13.45%,约为第一的1/4数据;排名第三的搜索结果点击次数与第二相差不大,为9.82%。但是四名以后点击无规律性,但是同一性在于点击率都低。



搜索结果排序

http://www.woshipm.com/pmd/2078742.html


TF-IDF模型
如果一个网页中关键词的出现很多次的话,我们通常会认为这个网页与搜索的关键词更匹配,搜索结果应该更靠前。


TF
我们用词频(Term Frequency, TF)表示关键词在一篇文章中出现的频率,代表网页和关键词的匹配程度。


词频(TF)=某个词在网页中出现的次数\网页总字数


比如:我们在百度等搜索引擎上搜索“产品经理的工作”,关键词为“产品经理”,“工作”,“的”作为停用词,不出现在关键词中。


在某一个网页上,总共有1000个词,其中“产品经理”出现了5次,“工作”出现了10次,“产品经理”的词频就是0.005,“工作”的词频就是0.01,两者相加,0.015就是这个网页和“产品经理的工作”的词频。


IDF
文件频率(Document Frequency)可以理解为关键词在所有网页中出现的频率,如果一个关键词在很多网页中都出现过,那么它的文件频率就很高。反之亦然,比如:“工作”的DF就高于“产品经理”。


文件频率越高,这个词就越通用,有效的信息就越少,重要性应该更低。于是,我们把文件频率取个倒数,就形成了逆文本频率。


二八定律在这里同样适用,20%的常用词占用了80%的篇幅,大多数关键词出现的频率都很低,这就造成了文件频率很小,而逆文本频率很大,不便于处理。于是我们取对数,便于计算(当然,这里也有其他数学和信息论上的考虑)。
逆文档频率(IDF)=log(网页总数\包含该词的网页数)


[content_hide]TF-IDF模型
把词频(TF)、逆文档频率 (IDF)相乘,就是大名鼎鼎的TF-IDF模型了。


TF-IDF=词频(TF) x 逆文档频率(IDF)


一个关键词在一个网页中出现的频率越高,这个关键词越重要,排名越靠前;在所有网页中出现的频率越高,这个关键词告诉我们的信息越少,排名应该更靠后。


商用搜索引擎在TF-IDF的基础上,会进行的一定的改进,比如:出现在文章开头和结尾的关键词更加重要,会根据词出现的位置调整相关度。但还是基于TF-IDF模型的调整。



PageRank

定义
搜索结果排序,仅仅考虑相关性,搜索的结果并不是很好。总有某些网页来回地倒腾某些关键词,使自己的搜索排名靠前(当然,部分原因也来自某些搜索引擎更加喜欢推荐自家的东西,这个就不属于技术问题了)。


引入网页质量,可以解决这个问题。排序的时候,不仅仅考虑相关性,还要考虑网页质量的高低,把质量高的网页放在前面,质量低的放在后面


判断网页质量
如果一个网页有越多的链接指向它,说明这个网页质量越高,PageRank值越高,排名应该越靠前


排名靠前的网页应该有更大的表决权,当一个网页被排名靠前的网页链接时,PageRank值也越高,排名也更靠前


计算PageRank问题

“当一个网页被排名靠前的网页链接时,其排名也应靠前”,一个网页的排名的过程需要用到排名的结果,这就变成了“先有鸡还是先有蛋”的问题了。


解决PageRank问题
假设搜索的网页具有相同的PageRank值;根据初始值,开始第一轮的计算,按照链接数量和每个网页的PageRank值重新计算每一个网页的PageRank值;按照上一轮的结果,按照链接数量和每个网页的PageRank值重新计算每一个网页的PageRank值……这样计算下去,直至每个网页的PageRank值基本稳定。


对网络中的3.22亿个链接进行递归计算,发现进行52次计算后可获得收敛稳定的PageRank值。


如何理解搜索者的目的,以提高搜索引擎优化的排名
http://cn.hostease.com/blog/seo/721.html


什么是搜索目的?

搜索者的目的就是人们搜索的原因。了解用户和潜在客户的意图,意味着可以提前计划,选择让他们更有可能在网上搜索时找到网站的关键字。


两种搜索目的


广泛搜索

用户搜索seo,他有可能是想搜索"seo是什么意思、"seo软件"、"seo是什么职业"之类的
总之,提供的信息越多,抓住广泛搜索的用户概率就越大


具体搜索
用户搜索seo和sem的区别是什么?,那么此时的他只想要知道这两者的区别而已

总体流量低,但转化率高
让网站获取更好的排名



什么是搜索引擎?

搜索引擎的本质是索引工具或者信息获取方式,协助用户找东西/快速准确地找东西。


搜索引擎的作用
作为内容的过滤器和推动者,搜索引擎承担的是呈现或者推荐更多优质内容给用户的工作。


优质内容的定义
优质内容的定义,是通过关键词相关性TF-IDF和类pr值来确定,相同相关性的关键词,网页质量越高,排名越好。


怎么推荐优质内容?
让TF-IDF和类pr值综合最优的结果,出现在点击率60%左右的第一位是最优的结果。


怎么提升TF-IDF关键词相关性?
基于TF-IDF特性:一个关键词在一个网页中出现的频率越高,这个关键词越重要,排名越靠前;在所有网页中出现的频率越高,这个关键词告诉我们的信息越少,排名应该更靠后。


新站
http://www.54cmo.com/sem/81.html


避开行业通用词
基于某一行业类别的关键词(比产品词更加宽泛)。如:鞋、衣服等;不包含品牌,被网民大量使用的搜索词,如“手机、水果、电器”等。这些关键词表明网民有一些模糊的欲望和兴趣,他们中间有一些人是可以争取的潜在目标受众。提供独一无二,用户需求大的内容

怎么提升网站pr值?


高权重单向链接
在百度指数中买品牌词,刷品牌词流量
持续更新[/content_hide]


 

扩展阅读

[b2_insert_post id="975"]

[b2_insert_post id="945"]


叽里咕噜~叽里咕噜~我又要去打杂啦づ ̄3 ̄)づ╭❤~