图书前言

前言

一、 为什么要写这本书

在数字经济时代,数据已成为企业核心竞争力的关键要素。无论是传统行业的数字化转型,还是互联网企业的精细化运营,数据仓库、数据分析与数据挖掘技术的实践能力都直接决定了企业的决策效率与业务价值。然而,在实际工作中,许多从业者面临两大痛点: 一是技术理论与业务场景的割裂,二是工具繁多但缺乏系统性整合。

编者在多年的教学、研究和企业实践中发现,数据团队的成功不仅依赖对算法的深入理解,更需要掌握数据架构的设计、工具的灵活适配及业务痛点的精准洞察。本书的创作初衷正是弥合这一鸿沟——通过系统化的知识体系、贴近实践的案例设计,帮助读者构建“数据基建→分析洞察→智能挖掘”的完整能力闭环。

此外,大数据技术的快速发展使开源工具与商业软件并存,Hive、Python、BI平台与机器学习框架等工具生态的融合应用成为常态。本书希望提供一套方法论,帮助读者深入理解技术原理,快速开展工具实践,最终实现从数据工程师、分析师到数据科学家的能力跃迁。

本书由沈阳职业技术学院和北京博海迪信息科技股份有限公司联合编写,充分发挥校企资源优势,贴近行业实践,培养学生实际技能。其中北京博海迪信息科技股份有限公司提供了宝贵的实践案例和参考材料,孙海鹏老师作为副主编提出了宝贵的建议。

二、 内容特色

本书以“立足实践、贯通链条、深入浅出”为核心理念,具有以下特色。

1. 全链路覆盖,结构清晰

全书分为数据仓库、数据分析与数据挖掘三篇,贯穿企业数据应用的完整生命周期。从数据底层的仓库搭建(如Hive集群管理、SQL优化),到中层的分析工具链(WPS表格处理、Python数据分析、BI可视化),再到顶层的挖掘算法(分类、回归、聚类、关联规则),形成从数据治理到价值挖掘的递进式知识体系。

2. 原理与实践并重

在理论层面,本书摒弃“黑箱式”操作,使读者不仅能“知其然”,还能“知其所以然”。以数据挖掘为例,本书不仅介绍了常见的线性回归、逻辑回归、决策树、随机森林、SVM、XGBoost、KMeans、DBSCAN、协同过滤等算法的原理和基本实现方法,还介绍了每种算法的数学计算和推导过程及每种算法常见超参数的数学意义和优化方法,进一步提升读者的数学认知,从而在实践中提升建模效率,并为日后学习人工智能等学科打下良好的数学基础。

3. 工具生态全景解析

针对企业常用工具,本书提供横向对比与纵向精讲。

(1) 数据仓库篇聚焦Hive的搭建、优化与数据仓库分层设计。

(2) 数据分析篇涵盖WPS高阶函数、Python数据分析三剑客(NumPy、Pandas、Matplotlib),以及帆软BI的敏捷报表开发技巧。

(3) 数据挖掘篇结合Scikitlearn、mlxtend等框架,详解参数调优与模型部署。

4. 开放性习题设计

与传统教材习题设有固定答案不同,本书课后设计开放习题,既包括如“请简述Hive中托管表和外部表的区别,以及它们在实际应用中的适用场景”等用自己方式理解理论知识的习题,又包含如“使用学习曲线+交叉验证,对于SVM的C参数进行调参”等实践题目,还包括“在GitHub上下载一个协同过滤算法代码,尝试在本地运行”等探索性题目,理实结合地引导读者自行探索数据仓库和数据挖掘相关知识。

三、 读者对象

 数据工程师: 学习Hive数据仓库搭建、管理和数据获取。

 业务分析师: 掌握WPS、Python与BI工具,提升数据处理、可视化与报表自动化能力。

 数据科学家: 深入理解算法数学原理,在特定场景下优化模型。

 高校学生与教师: 作为“数据技术”课程的教材,配套案例可作为毕业设计或科研项目启蒙和参考。

 企业技术管理者: 系统性了解数据技术栈,制定合理的团队能力提升与工具落地规划。

四、 致谢

感谢编者在企业和高校工作时的领导和同事,正是和他们一起奋斗的日日夜夜,使我们能更好地了解数据仓库和数据挖掘的整体架构; 感谢编辑团队对全书逻辑结构与表达严谨性的反复打磨。愿本书能成为读者数据职业道路上的一盏灯,照亮从技术到价值的“最后一公里”路程。

数字资源库

 程序代码等资源: 扫描下方“学习资源”二维码下载。

 教学课件、教学大纲等资源: 扫描下方“教学资源”二维码下载,或者到清华大学出版社官方网站本书页面下载。

 微课视频(540分钟,13集): 扫描书中相应章节中的二维码在线学习。

学习资源

教学资源

注: 请先扫描封底刮刮卡中的文泉云盘防盗码进行绑定后再获取配套资源。

郭洪延2026年2月