为什么程序员都推荐Google搜索而不是百度?

2019-11-01  本文已影响0人  简书总裁

很多人,特别是码农,一提起搜索,肯定是谷歌,现在搭梯子也容易了,使用谷歌的人越来越多了,可是你真的知道为什么选择谷歌吗?相信大部分人只是跟风。只是知道用谷歌广告少点,搜索出来的内容准确点。确实如此,使用百度搜索出来的大部分内容其实不是你想要的,而是百度想给你看的,太多广告了,但是除了广告为什么会觉得搜索出来的内容准确些呢?这就涉及到了两家搜索公司的核心搜索引擎技术了。

百度

李彦宏提出的专利,网上有详细内容,太多术语也没必要了解,简单说,就是根据指向同一篇文档的链接数目为文档排序;然后在搜索时返回排序更靠前的。这很容易理解,就好像学术文档一样,越重要越核心的,被引用次数就越多。

你可能会说这不是很好的一种算法么?

很多网站正是利用这点相互“交换链接”

“交换链接“,也称为友情链接、互惠链接、互换链接等,是具有一定资源互补优势的网站之间的简单合作形式,即分别在自己的网站上放置对方网站的LOGO或网站名称,并设置对方网站的超级链接,使得用户可以从合作网站中发现自己的网站,达到互相推广的目的。因此常作为一种网站推广手段。

并且,中国还有句老话叫“曲高和寡”。这句话是什么意思呢?意思就是,绝大多数人都是庸俗的,他们更喜欢“酒色财气”而不是高冷的专业知识……因此,搜“三点透视”,链接最多的往往不是“制图技法”而是三俗……(这可能就是为啥“搜什么度娘都给你看黄图”背后的真相……hahahahh)

那么我们来看看谷歌的

谷歌

PageRank算法:

它的思路是,先给链接数据库里的链接估算“重要度级别”;然后利用链接本身的重要程度,估计它所指向文章的质量——这也很容易理解,被爱因斯坦引用的文章,肯定比被我引用的可靠的太多。同样的,一个网站越可靠、越严肃,它所链接的文章质量就越高:反过来说也对,你尽管和别人交换链接吧,越和垃圾网站交换链接,你的估值就越低。不仅如此。知识的产生,总是从某个点开始、然后星型辐射的。所以,比如像TCP这个词,最权威的网站是RFC;RFC是纯文本,不链任何站外文件;但,全世界所有关于TCP的权威文章,都得引用RFC。类似的,当网上出现了某个热点,这个热点往往也是由一篇或者几篇文章/视频引发的;然后,位于源头的文章/视频被其它人引用、扩散……引用/扩散者很可能就会留下原始来源的链接(所以为什么这么多,“转载须标注来源”正是最基本的互联网道德要求);分析这些链接的引用关系,就能识别出源头。这种“互联网上的分布情况”是极难作弊的——至少,依靠个人或者不够大的组织,是不可能深刻影响互联网的宏观结构的。那么,分析链接的重要度,分析链接之间的引用关系,找出这个“知识中心点”或者“源头”;它的文章,就一定是最权威最符合用户需要的。次一级的,有的转发者知名度高,有的转发者擅长由浅入深的科普,有的转发者能把枯燥的东西变得有趣……他们本身在引用更权威的资料之外,也会成为重要的转发源,使得自己成为“次权威”——就好像某些技术看权威文档,资料很难懂,但是有人写博客把他解释的很生动,令人容易理解:这些作品,当然也应该在搜索结果中排在前列。PageRank正是这么一种“分析互联网链接走向,找出关键节点并为之评分”的算法。

所以这就从根本上解释了为什么用谷歌能搜索出权威度较高,用户认为正确的东西呢?当然我这里指的用户是指我们这些程序员,学术从业者之类的,其实生活方面的搜索百度还是较强与谷歌的,比如搜歌曲,以及国内一些东西的时候,各有所强,所以各取所需。什么时候选择什么搜索引擎心里应该有点(b)数了。

转载自

https://m.toutiaocdn.com/group/6613317841225515527/?app=news_article&timestamp=1572584539&req_id=2019110113021901001404115736006266&group_id=6613317841225515527

上一篇下一篇

猜你喜欢

热点阅读