顶部
收藏

AIGC网络爬虫技术(Python)


作者:
主编 许彪 王敏 彭辉
定价:
49.50 元
版面字数:
210.00千字
开本:
16开
装帧形式:
平装
版次:
1
最新版次
印刷时间:
2026-01-08
ISBN:
978-7-04-066932-9
物料号:
66932-00
出版时间:
2026-05-15
读者对象:
高等职业教育
一级分类:
计算机大类
二级分类:
计算机类
三级分类:
网络技术

本书为职业教育国家在线精品课程“网络爬虫技术(Python)”配套教材,同时为高职“人工智能+”专业课系列教材之一。本书配有主编团队搭建的“科苑”系列爬虫实操网页可免费提供给学生,帮助其在学习本书的同时练习技能。

以Python网络爬虫技术为核心,采用“项目导向、任务驱动”的设计理念,围绕真实场景网站“科苑·智汇谷”和“科苑·轻旅网”展开,系统介绍了现代网络爬虫的开发流程、关键技术及实际应用。全书包括6个循序渐进的项目,带领学习者从爬虫基础入门,逐步掌握数据请求、数据解析、数据存储、反爬策略与Scrapy框架等核心知识与实战技能。本书内容涵盖爬虫的基本概念、HTTP、请求模拟(GET、POST、AJAX及异步请求)、多方式数据解析(正则表达式、XPath、BeautifulSoup4)、数据存储(CSV、MySQL、MongoDB),以及高级主题(模拟登录、验证码识别和Scrapy框架)的应用。

本书配有微课视频、电子课件、授课计划、教学大纲和习题答案等丰富的数字化教学资源。授课教师如需获得本书配套教辅资源,请登录“高等教育出版社产品信息检索系统”(xuanshu.hep.com.cn)搜索下载。

本书结构清晰、示例丰富、注重实践,适合作为高等职业院校计算机类爬虫类课程用书,也适合对网络爬虫技术感兴趣的开发者自学使用。通过本书的学习,读者可具备独立设计、实现和优化网络爬虫的能力,为从业数据分析、人工智能应用等领域打下坚实的数据采集基础。

  • 前辅文
  • 项目1 爬取“科苑·智汇谷”之初体验
    • 学习目标
    • 项目背景
    • 思维导图
    • AI助学
    • 任务1.1 爬虫准备
      • 任务描述
      • AI解析
      • 知识储备
        • 1.1.1 爬虫的概念
        • 1.1.2 主要应用场景
        • 1.1.3 常用IDE
      • 任务实施
        • 1.1.4 PyCharm环境搭建
    • 任务1.2 第一个爬虫(爬虫基本流程)
      • 任务描述
      • AI解析
      • 知识储备
        • 1.2.1 爬虫“四步法”
      • 任务实施
        • 1.2.2 爬取“科苑·智汇谷”网站菜单页
    • 任务1.3 第一次伪装爬虫(爬虫伪装技术)
      • 任务描述
      • AI解析
      • 知识储备
        • 1.3.1 反爬虫的常用措施
        • 1.3.2 爬虫策略
      • 任务实施
        • 1.3.3 爬取“科苑·智汇谷”网站
      • 热门帖子
    • 任务1.4 探索“科苑·智汇谷”消息头(爬虫HTTP)
      • 任务描述
      • AI解析
      • 知识储备
        • 1.4.1 HTTP请求过程
        • 1.4.2 HTTP请求方法
        • 1.4.3 HTTP状态码
        • 1.4.4 HTTP消息头
      • 任务实施
        • 1.4.5 浏览器获取“科苑·智汇谷”网站首页HTTP消息头
        • 1.4.6 解析“科苑·智汇谷”网站首页HTTP消息头
    • 任务1.5 体验合法用爬虫(robots协议)
      • 任务描述
      • AI解析
      • 知识储备
        • 1.5.1 robots协议
      • 任务实施
        • 1.5.2 “科苑·智汇谷”robots协议解析
    • 心智拼图——数据之矩
    • 项目小结
    • AI辅助拓展训练
    • AI巩固与拓展
    • 课后习题
  • 项目2 爬取“科苑·智汇谷”之数据请求
    • 学习目标
    • 项目背景
    • 思维导图
    • AI助学
    • 任务2.1 请求“科苑·智汇谷”首页(GET请求)
      • 任务描述
      • AI解析
      • 知识储备
        • 2.1.1 使用Requests库实现GET请求
      • 任务实施
        • 2.1.2 使用Requests库GET请求获取首页数据
        • 2.1.3 使用Requests库GET请求获取搜索关键字页面数据
    • 任务2.2 请求“科苑·智汇谷”查询页(POST请求)
      • 任务描述
      • AI解析
      • 知识储备
        • 2.2.1 使用Requests库实现POST请求
      • 任务实施
        • 2.2.2 确定URL和请求参数
        • 2.2.3 使用Requests库POST请求获取查询页数据
    • 任务2.3 请求“科苑·智汇谷”岗位列表页(AJAX请求)
      • 任务描述
      • AI解析
      • 知识储备
        • 2.3.1 AJAX技术概述
        • 2.3.2 AJAX请求分析
      • 任务实施
        • 2.3.3 确定URL和请求参数
        • 2.3.4 使用Requests库获取岗位列表页数据
    • 任务2.4 请求“科苑·智汇谷”首页课程列表(aiohttp异步请求)
      • 任务描述
      • AI解析
      • 知识储备
        • 2.4.1 协程
        • 2.4.2 异步HTTP框架
      • 任务实施
        • 2.4.3 获取“科苑·智汇谷”首页课程列表数据
        • 2.4.4 异步方式获取“科苑·智汇谷”首页课程封面图片数据
    • 心智拼图——数据之界
    • 项目小结
    • AI辅助拓展训练
    • AI巩固与拓展
    • 课后习题
  • 项目3 爬取“科苑·智汇谷”之数据解析
    • 学习目标
    • 项目背景
    • 思维导图
    • AI助学
    • 任务3.1 解析“科苑·智汇谷”导航菜单页(正则解析)
      • 任务描述
      • AI解析
      • 知识储备
        • 3.1.1 了解正则表达式
        • 3.1.2 re库
      • 任务实施
        • 3.1.3 使用正则表达式解析“科苑·智汇谷”导航菜单页
    • 任务3.2 解析“科苑·智汇谷”导航菜单页(XPath解析)
      • 任务描述
      • AI解析
      • 知识储备
        • 3.2.1 XPath
        • 3.2.2 lxml库的基本使用
      • 任务实施
        • 3.2.3 使用XPath解析“科苑·智汇谷”导航菜单页
    • 任务3.3 解析“科苑·智汇谷”列表页(XPath进阶)
      • 任务描述
      • AI解析
      • 知识储备
        • 3.3.1 Selenium爬取Vue页面
        • 3.3.2 常用XPath插件
      • 任务实施
        • 3.3.3 使用XPath插件辅助解析“科苑·智汇谷”导航菜单页
    • 任务3.4 解析“科苑·智汇谷”列表页(bs4解析)
      • 任务描述
      • AI解析
      • 知识储备
        • 3.4.1 BeautifulSoup4概述
        • 3.4.2 BeautifulSoup4库解析网页
      • 任务实施
        • 3.4.3 使用bs4库解析“科苑·智汇谷”网站课程列表页
    • 任务3.5 解析“科苑·智汇谷”详情页(bs4进阶)
      • 任务描述
      • AI解析
      • 知识储备
        • 3.5.1 CSS选择器
        • 3.5.2 select()函数
      • 任务实施
        • 3.5.3 使用bs4库解析“科苑·智汇谷”详情页
    • 心智拼图——数据之理
    • 项目小结
    • AI辅助拓展训练
    • AI巩固与拓展
    • 课后习题
  • 项目4 爬取“科苑·智汇谷”之数据存储
    • 学习目标
    • 项目背景
    • 思维导图
    • AI助学
    • 任务4.1 存储“科苑·智汇谷”岗位列表数据(CSV存储)
      • 任务描述
      • AI解析
      • 知识储备
        • 4.1.1 CSV格式
        • 4.1.2 csv库操作
      • 任务实施
        • 4.1.3 获取岗位列表数据
        • 4.1.4 使用csv库保存岗位列表数据
        • 4.1.5 使用pandas库保存岗位列表数据
    • 任务4.2 存储“科苑·智汇谷”岗位明细数据(MySQL存储)
      • 任务描述
      • AI解析
      • 知识储备
        • 4.2.1 MySQL数据库
        • 4.2.2 SQL语句
      • 任务实施
        • 4.2.3 获取岗位明细数据
        • 4.2.4 存储岗位明细数据到MySQL数据库
    • 任务4.3 存储“科苑·智汇谷”热门岗位列表数据(NoSQL存储)
      • 任务描述
      • AI解析
      • 知识储备
        • 4.3.1 初识NoSQL
        • 4.3.2 MongoDB简介
      • 任务实施
        • 4.3.3 安装MongoDB
        • 4.3.4 配置MongoDB
        • 4.3.5 MongoDB基本指令测试
        • 4.3.6 获取热门岗位列表数据
        • 4.3.7 使用pymongo库将热门岗位列表数据存入MongoDB
    • 任务4.4 存储“科苑·智汇谷”热门岗位明细(NoSQL进阶)
      • 任务描述
      • AI解析
      • 知识储备
        • 4.4.1 MongoDB数据的增删改查操作
      • 任务实施
        • 4.4.2 获取热门岗位明细
        • 4.4.3 使用pymongo库将热门岗位明细表数据存入MongoDB
    • 心智拼图——数据之法
    • 项目小结
    • AI辅助拓展训练
    • AI巩固与拓展
    • 课后习题
  • 项目5 爬取“科苑·轻旅网”之伪装爬虫
    • 学习目标
    • 项目背景
    • 思维导图
    • AI助学
    • 任务5.1 登录“科苑·轻旅网”(Session模拟登录)
      • 任务描述
      • AI解析
      • 知识储备
        • 5.1.1 Cookie
        • 5.1.2 Session
      • 任务实施
        • 5.1.3 使用Session登录“科苑·轻旅网”
    • 任务5.2 登录“科苑·轻旅网”(OCR验证码识别)
      • 任务描述
      • AI解析
      • 知识储备
        • 5.2.1 OCR(光学字符识别)技术
        • 5.2.2 Base64编码和解码
      • 任务实施
        • 5.2.3 使用OCR识别验证码登录“科苑·轻旅网”
    • 心智拼图——数据之殇
    • 项目小结
    • AI辅助拓展训练
    • AI巩固与拓展
    • 课后习题
  • 项目6 爬取“科苑·轻旅网”之Scrapy框架
    • 学习目标
    • 项目背景
    • 思维导图
    • AI助学
    • 任务6.1 爬取“科苑·轻旅网”游记(Scrapy体验)
      • 任务描述
      • AI解析
      • 知识储备
        • 6.1.1 爬虫框架的定义
        • 6.1.2 常见的爬虫框架
        • 6.1.3 Scrapy爬虫框架的项目结构
        • 6.1.4 Scrapy常用命令
      • 任务实施
        • 6.1.5 使用Scrapy创建一个“科苑·轻旅网”爬虫项目TravelScrapy
    • 任务6.2 通过Scrapy爬取“科苑·轻旅网”文本信息
      • 任务描述
      • AI解析
      • 知识储备
        • 6.2.1 创建Scrapy爬虫项目
        • 6.2.2 修改items/piplines脚本
        • 6.2.3 编写spider脚本
        • 6.2.4 修改settings脚本
      • 任务实施
        • 6.2.5 获取游记页面
        • 6.2.6 获取游记页面游记的标题及文本内容
    • 任务6.3 通过Scrapy批量下载“科苑·轻旅网”图片TravelImage
      • 任务描述
      • AI解析
      • 知识储备
        • 6.3.1 定制下载器中间件
        • 6.3.2 定制Spider中间件
      • 任务实施
        • 6.3.3 获取“科苑·轻旅网”游记页面的所有图片
    • 心智拼图——数据之刃
    • 项目小结
    • AI辅助拓展训练
    • AI巩固与拓展
    • 课后习题

相关图书