顶部
收藏

大数据质量


作者:
主编 王宏志 丁小欧
定价:
43.00 元
版面字数:
350.00千字
开本:
16开
装帧形式:
平装
版次:
1
最新版次
印刷时间:
2026-01-10
ISBN:
978-7-04-065197-3
物料号:
65197-00
出版时间:
2026-04-20
读者对象:
高等教育
一级分类:
计算机/教育技术类
二级分类:
计算机科学与技术专业课程

本书是大数据新兴领域“十四五”高等教育教材。本书紧扣数据要素高质量发展的要求,系统性地介绍了大数据质量管理的知识体系与技术框架,涵盖核心理论体系、关键技术方法、实用工具及行业前沿实践案例。全书共八章,分为三个模块:首先介绍大数据质量管理的基础技术,然后系统性地介绍大数据质量提升技术,最后解析大数据质量特性与前沿技术发展。具体内容如下。

第1章为数据质量概述;第2章介绍数据质量评价技术,包括质量关联关系与质量规则发现等内容;第3章探讨劣质数据分类问题;第4章介绍数据修复理论与技术,包括缺失值填充,以及基于规则和基于学习模型的修复技术;第5章介绍人机结合的数据质量管理;第6章介绍数据清洗系统及工具;第7章介绍多模态大数据质量管理,包括图数据、时空数据等的质量管理问题特点及技术方法;第8章探讨大数据清洗的前沿技术,包括低质量数据高稳健管理、任务驱动的大数据质量提升、可扩展的大数据清洗、人工智能环境下的大数据质量管理等。

本书可作为高等学校计算机相关专业高年级本科生教材,以及软件工程、计算机科学与技术等专业研究生教材,也可作为行业技术人员的参考用书。本科生侧重基础理论与技术实践,推荐重点研读第1~6章;研究生可继续深入研究第7~8章的前沿算法与创新方法论;行业技术人员可将本书作为工程实践指南,结合具体场景查阅工具选型指南与行业解决方案。

  • 前辅文
  • 第1章 数据质量概述
    • 1.1 数据质量基本概念
      • 1.1.1 数据可用性
      • 1.1.2 数据质量管理
      • 1.1.3 数据清洗
    • 1.2 数据质量管理的意义和价值
      • 1.2.1 从数据准备角度看数据质量
      • 1.2.2 从数据治理角度看数据质量
      • 1.2.3 从数据分析角度看数据质量
      • 1.2.4 数据湖与数据中台的数据质量需求
    • 1.3 实际信息系统中的数据质量问题
      • 1.3.1 质量问题的分类
      • 1.3.2 数据质量问题实例
    • 1.4 数据质量管理技术发展历程
      • 1.4.1 数据质量研究发展历程
      • 1.4.2 数据质量评价维度
      • 1.4.3 数据质量管理方法
    • 1.5 本章习题
  • 第2章 数据质量评价技术
    • 2.1 数据质量评价概述
      • 2.1.1 评价的意义及重要性
      • 2.1.2 数据质量评价的挑战
    • 2.2 数据质量关联关系理论
      • 2.2.1 数据质量问题的关联性
      • 2.2.2 数据质量评价维度的关联性
      • 2.2.3 数据质量提升技术的关联性
    • 2.3 数据质量规则发现
      • 2.3.1 数据质量表达机理
      • 2.3.2 数据质量规则推理理论
      • 2.3.3 数据质量规则挖掘技术
      • 2.3.4 其他函数依赖
    • 2.4 本章习题
  • 第3章 劣质数据分类
    • 3.1 劣质数据总览
      • 3.1.1 劣质数据分类维度
      • 3.1.2 重复记录数据
      • 3.1.3 数据缺失
      • 3.1.4 不一致数据
      • 3.1.5 异常值数据
    • 3.2 劣质数据检测方法论
      • 3.2.1 定量检测方法
      • 3.2.2 定性检测方法
    • 3.3 劣质数据定量检测
      • 3.3.1 离群值异常检测的分类
      • 3.3.2 基于统计的离群值异常检测
      • 3.3.3 基于距离的离群值异常检测
      • 3.3.4 基于模型的离群值异常检测
    • 3.4 劣质数据定性检测
      • 3.4.1 重复记录的异常检测
      • 3.4.2 违反规则的异常检测
    • 3.5 本章习题
  • 第4章 数据修复理论与技术
    • 4.1 数据修复概述
      • 4.1.1 数据修复的意义和挑战
      • 4.1.2 数据修复方法概述
    • 4.2 缺失值填充技术
      • 4.2.1 基于统计的填充方法
      • 4.2.2 基于机器学习的填充方法
      • 4.2.3 基于深度学习的填充方法
      • 4.2.4 应用实例
    • 4.3 基于规则的数据修复
      • 4.3.1 修复规则分类介绍
      • 4.3.2 基于规则的数据修复理论
      • 4.3.3 基于规则的数据修复技术
      • 4.3.4 应用实例
    • 4.4 基于学习模型的数据修复
      • 4.4.1 学习模型的类型与选取
      • 4.4.2 使用机器学习的数据修复
      • 4.4.3 使用深度学习的数据修复
    • 4.5 本章习题
  • 第5章 人机结合的数据质量管理
    • 5.1 人机结合的数据质量管理技术概述
    • 5.2 人在数据质量管理过程中的角色
      • 5.2.1 人工角色分类
      • 5.2.2 人工任务成本模型
      • 5.2.3 基于众包的数据清洗
      • 5.2.4 基于专家/知识库的数据清洗
    • 5.3 基于人机结合的数据质量管理流程
      • 5.3.1 人在环路的数据质量管理
      • 5.3.2 人机结合的错误数据检测
      • 5.3.3 人机结合的数据修复
      • 5.3.4 基于人工反馈的迭代式数据清洗
    • 5.4 本章习题
  • 第6章 数据清洗系统及工具
    • 6.1 数据质量评价模型
      • 6.1.1 TDQM框架
      • 6.1.2 TIQM框架
      • 6.1.3 ISTAT框架
      • 6.1.4 COLDQ框架
      • 6.1.5 评价模型对实际信息系统的支持度
    • 6.2 基于规则的数据清洗系统
      • 6.2.1 Nadeef
      • 6.2.2 Holistic
      • 6.2.3 BigDansing
      • 6.2.4 Horizon
    • 6.3 模型驱动的数据清洗系统
      • 6.3.1 Scared
      • 6.3.2 MLNClean
      • 6.3.3 Baran
      • 6.3.4 HoloClean
    • 6.4 交互式的数据管理工具
      • 6.4.1 CoClean
      • 6.4.2 VisClean
      • 6.4.3 CoCo
      • 6.4.4 Easy DR
    • 6.5 面向领域的数据清洗工具
      • 6.5.1 Daisy
      • 6.5.2 CaaTS
      • 6.5.3 ActiveClean
      • 6.5.4 Cleanits
    • 6.6 本章习题
  • 第7章 多模态大数据质量管理
    • 7.1 多模态大数据质量管理概述
      • 7.1.1 多模态大数据的特点
      • 7.1.2 质量管理的重要性及技术特点
    • 7.2 图数据质量管理技术
      • 7.2.1 图数据质量管理的重要性
      • 7.2.2 图数据质量表达机理
      • 7.2.3 图数据清洗技术
    • 7.3 时空数据质量管理技术
      • 7.3.1 时空数据质量管理的重要性
      • 7.3.2 时空数据质量表达机理
      • 7.3.3 时空数据清洗技术
      • 7.3.4 物联网大数据质量管理
    • 7.4 数据湖的数据质量管理
      • 7.4.1 数据湖的数据质量管理需求
      • 7.4.2 数据湖的数据发现
      • 7.4.3 数据湖的实体识别
      • 7.4.4 多源异构数据融合清洗技术
    • 7.5 本章习题
  • 第8章 大数据清洗的前沿技术
    • 8.1 低质量数据高稳健管理
      • 8.1.1 低质数据容忍的数据模型与理论
      • 8.1.2 松弛容忍的数据质量规则发现
    • 8.2 任务驱动的大数据质量提升
      • 8.2.1 综合视角的数据质量评估方法
      • 8.2.2 数据质量问题溯源与分析技术
      • 8.2.3 数据分析驱动的数据清洗方法
    • 8.3 可扩展的大数据清洗
      • 8.3.1 面向大规模数据的高效清洗技术
      • 8.3.2 增量式大数据清洗
      • 8.3.3 多源大数据清洗
      • 8.3.4 其他大数据质量管理技术
    • 8.4 人工智能环境下的大数据质量管理
      • 8.4.1 人工智能赋能的数据质量管理
      • 8.4.2 面向人工智能的数据质量管理
    • 8.5 本章习题
  • 参考文献

相关图书