四年级下册同步作文装死的蜘蛛:为什么今日头条发布的许多文章在知名浏览器上搜不到?

小学,初中,高中生作文范文大全-小白兔作文网 时间:2021-12-20 10:57:30

弄清楚这个问题,需要先了解下其背后的原理四年级下册同步作文装死的蜘蛛

首先更正下这个问题,搜索结果与浏览器无关,而是浏览器上使用的搜索引擎相关的四年级下册同步作文装死的蜘蛛。

什么是浏览器四年级下册同步作文装死的蜘蛛?

浏览器是一个展示网页内容的应用,比如像QQ浏览器,谷歌浏览器,360浏览器,火狐浏览器等供我们浏览网页的软件应用四年级下册同步作文装死的蜘蛛;

什么是搜索引擎四年级下册同步作文装死的蜘蛛?

搜索引擎是供用户搜索内容的软件服务,比如像百度,谷歌,360,bing,搜索等等。

搜索引擎的原理?

可以举个例子理解,比如字典工具,我们只需要知道一个词的拼音,或者笔画就可以快速的找到这个词的详细内容所在的页面。

搜索引擎也是类似的,首先收集网络上大量的内容,然后对这些内容进行处理,建立相应的类似于字典的索引,用户在输入内容搜索时,就可以快速的返回相关内容的地址。

为什么搜不到那?

上面已经说明了搜索引擎的原理,把网络上所有的内容都建立索引,按理是应该可以搜索到的才对呀,但是却搜不到,为什么那?

搜索引擎在爬取内容时,需要遵循一个叫做robots的协议

robots协议也叫robots.txt(统一小写)是一种存放于网站根目录下的ASCII编码的文本文件,它通常告诉网络搜索引擎的漫游器(又称网络蜘蛛),此网站中的哪些内容是不应被搜索引擎的漫游器获取的,哪些是可以获取的。

头条文章的robots协议地址::///robots.txt,内容如下

User-agent: *

Disallow: /

Allow: /complain/

Allow: /media_partners/

Allow: /about/

Allow: /user_agreement/

Allow: /$

User-agent: ByteSpider

Allow: /

User-agent: ToutiaoSpider

Allow: /

表示的时只让头条的网络蜘蛛爬取,而禁止其他搜索引擎爬取,因此这些文章在头条可以搜索到,而其他搜索引擎不可以搜索到。

头条悟空问答的robots协议地址:://wukong.toutiao.com/robots.txt,内容如下,

User-agent: *

Disallow: /static/game*

表示除了一些静态内容,都可以爬取。因此所有搜索引擎都是可以爬取的,然后可以被搜索的。

版权声明:以上文章中所选用的图片及文字来源于网络以及用户投稿,由于未联系到知识产权人或未发现有关知识产权的登记,如有知识产权人并不愿意我们使用,如果有侵权请立即联系:123456789@qq.com,我们立即下架或删除。

热门文章