首页 首页 大数据 查看内容

什么是网络爬虫,基本的工作流程是什么?

木马童年 2017-11-28 12:40 136 0

大量的数据散落在互联网中,要分析互联网上的数据,需要先把数据从网络中获取下业,这就需要网络爬虫技术

       大量的数据散落在互联网中,要分析互联网上的数据,需要先把数据从网络中获取下业,这就需要网络爬虫技术。

timg (1).jpg

       网络爬虫是搜索引擎抓取系统的重要组成部分,爬虫的主要目的是将互联网上网页下载到本地,形成一个或联网内容的镜像备份。

      网络爬虫的基本工作流程如下:

      1.首先选取一部分种子URL

      2.将这些URL放入待抓取URL队列

      3.从待抓取URL队列中取出待抓取的URL,解析DNS,得到主机的IP,并将URL对应的网页下载下来,存储到已下载网页库中,此外,将这些URL放入已抓取URL队列。

      4.分析已抓取到的网页内容中的其他URL,并将URL放入待抓取URL队列,从而进入下一个循环。

      

在不久的将来,多智时代一定会彻底走入我们的生活,有兴趣入行未来前沿产业的朋友,可以收藏多智时代,及时获取人工智能、大数据、云计算和物联网的前沿资讯和基础知识,让我们一起携手,引领人工智能的未来!

数据抓取 搜索引擎 网页采集
0

聚焦多智时代,引领智能变革

© 多智时代(www.duozhishidai.com)版权所有 / 工信部备案 豫ICP备15012664号-1