|
|
|
|
移动端

3.8 小结

《精通Python网络爬虫:核心技术、框架与项目实战》第3章网络爬虫实现原理与实现技术,在这一章中,我们将学习网络爬虫的实现原理及其实现技术,并使用metaseeker为大家做一个简单的爬虫案例。本节为本章的小结部分。

作者:韦玮来源:机械工业出版社|2017-05-11 21:03

人工智能+区块链的发展趋势及应用调研报告


3.8 小结

1)聚焦网络爬虫,由于其需要有目的地进行爬取,所以对于通用网络爬虫来说,必须要增加目标的定义和过滤机制,具体来说,此时,其执行原理和过程需要比通用网络爬虫多出3步,即目标的定义、无关链接的过滤、下一步要爬取的URL地址的选取。

2)常见的网页更新策略主要有3种:用户体验策略、历史数据策略、聚类分析策略。

3)聚类分析可以依据商品之间的共性进行相应的处理,将共性较多的商品聚为一类。

4)在爬虫对网页爬取的过程中,爬虫必然需要访问对应的网页,此时,正规的爬虫一般会告诉对应网页的网站站长其爬虫身份。网站的管理员则可以通过爬虫告知的身份信息对爬虫的身份进行识别,我们称这个过程为爬虫的身份识别过程。

5)开发网络爬虫的语言有很多,常见的语言有Python、Java、PHP、Node.JS、C++、Go语言等。

6)metaseeker是一款比较实用的网站数据采集程序,使用该采集程序,可以让大家比较快速、形象地了解爬虫的工作过程。


喜欢的朋友可以添加我们的微信账号:

51CTO读书频道二维码


51CTO读书频道活动讨论群:342347198


【责任编辑:book TEL:(010)68476606】

回书目   上一节   
点赞 0
分享:
大家都在看
猜你喜欢

读 书 +更多

网络服务器配置与应用(第3版)

本书是由长期从事网络管理工作和网络工程人员培训工作的一线网管人员和教学人员精心编写,从现实的技术发展角度和实际应用的角度,通过大量...

订阅51CTO邮刊

点击这里查看样刊

订阅51CTO邮刊