本书为职业教育国家在线精品课程“网络爬虫技术(Python)”配套教材,同时为高职“人工智能+”专业课系列教材之一。本书配有主编团队搭建的“科苑”系列爬虫实操网页可免费提供给学生,帮助其在学习本书的同时练习技能。
以Python网络爬虫技术为核心,采用“项目导向、任务驱动”的设计理念,围绕真实场景网站“科苑·智汇谷”和“科苑·轻旅网”展开,系统介绍了现代网络爬虫的开发流程、关键技术及实际应用。全书包括6个循序渐进的项目,带领学习者从爬虫基础入门,逐步掌握数据请求、数据解析、数据存储、反爬策略与Scrapy框架等核心知识与实战技能。本书内容涵盖爬虫的基本概念、HTTP、请求模拟(GET、POST、AJAX及异步请求)、多方式数据解析(正则表达式、XPath、BeautifulSoup4)、数据存储(CSV、MySQL、MongoDB),以及高级主题(模拟登录、验证码识别和Scrapy框架)的应用。
本书配有微课视频、电子课件、授课计划、教学大纲和习题答案等丰富的数字化教学资源。授课教师如需获得本书配套教辅资源,请登录“高等教育出版社产品信息检索系统”(xuanshu.hep.com.cn)搜索下载。
本书结构清晰、示例丰富、注重实践,适合作为高等职业院校计算机类爬虫类课程用书,也适合对网络爬虫技术感兴趣的开发者自学使用。通过本书的学习,读者可具备独立设计、实现和优化网络爬虫的能力,为从业数据分析、人工智能应用等领域打下坚实的数据采集基础。