Python网络爬虫从入门到实践

Python网络爬虫从入门到实践
  • ISBN: 9787121371059
  • 出版日期:
  • 出版社: 电子工业出版社
  • 作者: 庄培杰
  • 评分:
  • 类型: 计算机科学
  • 得到图书

内容简介

借着人工智能的浪潮,Python的热度一直持续上涨,训练人工智能依赖于大量的数据,而数据的获取基本靠爬虫。大量的信息通过Web站点进行展示,通过学习编写Python爬虫,编写采集数据的爬虫脚本,对所需的数据进行爬取。本书尝试着由浅入深来剖析Python爬虫,让读者更快更系统的上手Python爬虫的编写。本书包括12章内容,从零开始学习Python爬虫。第1章是Python爬虫概念与Web基础,介绍了Python的一些概念,HTTP协议,简单介绍了网页基本三剑客HTML,CSS和JavaScript的基本语法。第2章介绍Python爬虫库的基本使用,包括Chrome抓包,urllib和lxml库的使用。第3章介绍Python抓包与数据分析,包括HTTPS简介,Charles抓包,Packet Capture抓包,requests库和Beautiful Soup库的使用。第4章介绍使用CSV和Excel存储数据。第5章介绍使用数据库存储数据,包括MySQL,Redis和MongoDB的使用。第6章介绍一些常见的反爬虫策略,代理,ajax,selenium等。第7,8章详细讲解了Python爬虫框架Scrapy的使用。第9章介绍了构建自己的代理ip池。第10章介绍了如何搭建分布式爬虫。第11,12章,利用爬取到的数据进行可视化数据分析。