首页 首页 大数据 查看内容

现有搜索引擎爬虫工作原理(百度,新浪等)

木马童年 2019-4-30 16:20 55 0

下文中列出了服务器上常见爬虫程序的User Agent(黑体字部分)及其特点。 目录Baiduspider+(+http://www.baidu.com/search/spider.htm")百度爬虫高强度爬虫,有时会从多个IP地址启动多个爬虫程序!由于算法问题, ...
下文中列出了服务器上常见爬虫程序的User Agent(黑体字部分)及其特点。

目录

Baiduspider+(+http://www.baidu.com/search/spider.htm")
百度爬虫
高强度爬虫,有时会从多个IP地址启动多个爬虫程序!
由于算法问题,百度爬虫对相同页面会多次发出请求(尤其是首页),令人烦恼。
推广效果好。
Mozilla/5.0 (compatible; Yahoo! Slurp China;http://misc.yahoo.com.cn/help.html")
Mozilla/5.0 (compatible; Yahoo! Slurp;http://help.yahoo.com/help/us/ysearch/slurp")
雅虎爬虫,分别是雅虎中国和美国总部的爬虫
高强度爬虫,有时会从多个IP地址启动多个爬虫程序!
比较规范的爬虫,看参考其网址,设定爬虫访问间隔。(但需要考虑同时出现多个yahoo爬虫)
推广效果尚可。
iaskspider/2.0(+http://iask.com/help/help_index.html")
Mozilla/5.0 (compatible; iaskspider/1.0; MSIE 6.0)
新浪爱问爬虫
算法差,大量扫描无实际意义的页面,对动态链接网站负担很大
推广效果差。
Sogou web spider/3.0(+http://www.sogou.com/docs/help/webmasters.htm#07")
Sogou Push Spider/3.0(+http://www.sogou.com/docs/help/webmasters.htm#07")
【早期用法:“sogou spider”】
搜狗爬虫
算法差,大量扫描无实际意义的页面,对动态链接网站负担很大
推广效果差。

Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html")
Google爬虫
算法优秀,多为访问有实际内容的页面
推广效果好。→ 详情
Mediapartners-Google/2.1
Google AdSense广告内容匹配爬虫,对网页收录有一定辅助作用。→ 详情
Mozilla/5.0 (compatible; YodaoBot/1.0;http://www.yodao.com/help/webmaster/spider/"; )
【早期采用“ OutfoxBot/0.5 (for internet experiments; http://"; outfoxbot@gmail.com)”】
网易爬虫
其搜索算法需要改进
推广效果差。
ia_archiver
Alexa排名爬虫,用于检测网站是否做了alexa排名的作弊。→ 详情
Mozilla/5.0 (Twiceler-0.9http://www.cuill.com/twiceler/robot.html")
美国斯坦福大学的一个学生研究项目。→ 详情

msnbot/1.0 (+http://search.msn.com/msnbot.htm")
MSN爬虫
特点未知
msnbot-media/1.0 (+http://search.msn.com/msnbot.htm")
特点未知
Mozilla/4.0(compatible; MSIE 5.0; Windows 98; DigExt)
DigExt并非一个独立的爬虫程序,而是IE5的“允许脱机阅读”模式标记。→ 详情
Mozilla/3.0 (compatible; Indy Library)
Indy Library本来是个开源程序库,但后来被spam bots冒用。→ 详情
抓取强度:各服务器上不一定
推广效果:无
P.Arthur 1.1
据称为北大天网的搜索引擎爬虫程序
Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; QihooBot 1.0)
名字上看来是Qihoo的
特点未知
Gigabot
Gigabot/2.0 (http://www.gigablast.com/spider.html")
Gigabot搜索引擎爬虫。
eApolloBot/1.0 (eApollo search engine robot;http://www.eapollo.com"; eapollo at global-opto dot com)
lanshanbot/1.0
iearthworm/1.0, iearthworm@yahoo.com.cn
专抓图片的爬虫,据说来源IP是3721或阿里巴巴。→ 详情
TMCrawler
Mozilla/5.0 (compatible; heritrix/1.10.2 +http://i.stanford.edu/")
开源的网络爬虫,一个数字图书馆项目。→ 详情
WebNews http.pl

rss.asp Mozilla/6.0 (MSIE 6.0; Windows NT 5.1;Foxmail/MILOWU)
这是用foxmail6.0订阅了你的rss
rss.asp Feedfetcher-Google; (+http://www.google.com/feedfetcher.html")
google的rss搜索扫描器
rss.asp feedsky_spiderhttp://www.feedsky.com"
一款rss扫描器,有兴趣者进入此网站添加您的rss

在不久的将来,多智时代一定会彻底走入我们的生活,有兴趣入行未来前沿产业的朋友,可以收藏多智时代,及时获取人工智能、大数据、云计算和物联网的前沿资讯和基础知识,让我们一起携手,引领人工智能的未来!

搜索引擎 阿里巴巴 网络爬虫
0
为您推荐
大数据技术改变城市的运作方式,智慧城市呼之欲出

大数据技术改变城市的运作方式,智慧城市呼

纽奥良虽像大多数城市一样有火灾侦测器安装计划,但直到最近还是要由市民主动申装。纽…...

大数据分析面临生死边缘,未来之路怎么走?

大数据分析面临生死边缘,未来之路怎么走?

大数据分析开始朝着营销落地,尤其像数果智能这类服务于企业的大数据分析供应商,不仅…...

什么是工业大数据,要通过3B和3C来理解?

什么是工业大数据,要通过3B和3C来理解?

核心提示:工业视角的转变如果说前三次工业革命分别从机械化、规模化、标准化、和自动…...

大数据普及为什么说肥了芯片厂商?

大数据普及为什么说肥了芯片厂商?

科技界默默无闻的存在,芯片行业年规模增长到了3520亿美元。半导体给无人驾驶汽车带来…...

大数据技术有哪些,为什么说云计算能力是大数据的根本!

大数据技术有哪些,为什么说云计算能力是大

历史规律告诉我们,任何一次大型技术革命,早期人们总是高估它的影响,会有一轮一轮的…...

个人征信牌照推迟落地,大数据 重新定义个人信用!!

个人征信牌照推迟落地,大数据 重新定义个

为金融学的基础正日益坚实。通过互联网大数据精准记录海量个人行为,进而形成分析结论…...