


定价:49元
印次:1-1
ISBN:9787302715030
出版日期:2026.05.01
印刷日期:2026.04.28
图书责编:刘星
图书分类:教材
"《数据仓库与数据挖掘(微课视频版)》旨在介绍企业实践中数据仓库、数据分析和数据挖掘常见技术,包括如何构建、管理和使用面向大数据的数据仓库,如何使用常见工具对数据进行分析和展示,以及如何使用分类、聚类、回归、关联等算法进行数据挖掘。 全书共分3篇: 第1篇(第1~3章)为数据仓库篇,着重介绍数据仓库的基本概念、Hive的搭建和管理、基于Hive的SQL语言; 第2篇(第4~7章)为数据分析篇,着重讨论了如何使用WPS等工具对常见表格进行处理、如何使用NumPy和Pandas等Python工具包对数据进行分析、如何使用以FineReport为代表的BI软件进行报表开发; 第3篇(第8~13章)为数据挖掘篇,主要涵盖了线性回归、逻辑回归、决策树、随机森林、SVM、XGBoost、KMeans、DBSCAN、协同过滤等常见数据挖掘算法的原理、实现和参数优化方法,并介绍了常见的数据预处理方法和神经网络等人工智能技术。全书提供了大量应用案例,每章后均附有习题。 《数据仓库与数据挖掘(微课视频版)》适合作为高等院校人工智能、大数据、计算机等专业相关课程的教材,也可作为金融、医学、管理学等学科研究人员使用数据挖掘进行科研的参考书。 "
前言 一、 为什么要写这本书 在数字经济时代,数据已成为企业核心竞争力的关键要素。无论是传统行业的数字化转型,还是互联网企业的精细化运营,数据仓库、数据分析与数据挖掘技术的实践能力都直接决定了企业的决策效率与业务价值。然而,在实际工作中,许多从业者面临两大痛点: 一是技术理论与业务场景的割裂,二是工具繁多但缺乏系统性整合。 编者在多年的教学、研究和企业实践中发现,数据团队的成功不仅依赖对算法的深入理解,更需要掌握数据架构的设计、工具的灵活适配及业务痛点的精准洞察。本书的创作初衷正是弥合这一鸿沟——通过系统化的知识体系、贴近实践的案例设计,帮助读者构建“数据基建→分析洞察→智能挖掘”的完整能力闭环。 此外,大数据技术的快速发展使开源工具与商业软件并存,Hive、Python、BI平台与机器学习框架等工具生态的融合应用成为常态。本书希望提供一套方法论,帮助读者深入理解技术原理,快速开展工具实践,最终实现从数据工程师、分析师到数据科学家的能力跃迁。 本书由沈阳职业技术学院和北京博海迪信息科技股份有限公司联合编写,充分发挥校企资源优势,贴近行业实践,培养学生实际技能。其中北京博海迪信息科技股份有限公司提供了宝贵的实践案例和参考材料,孙海鹏老师作为副主编提出了宝贵的建议。 二、 内容特色 本书以“立足实践、贯通链条、深入浅出”为核心理念,具有以下特色。 1. 全链路覆盖,结构清晰 全书分为数据仓库、数据分析与数据挖掘三篇,贯穿企业数据应用的完整生命周期。从数据底层的仓库搭建(如Hive集群管理、SQL优化),到中层的分...
第1篇数据仓库
第1章数据仓库概述
1.1基本概念
1.1.1数据仓库的定义
1.1.2数据仓库与传统数据库
1.2数据仓库的体系结构
1.3数据仓库服务器
1.4多维数据模型
1.5OLAP、OLTP及与数据仓库的关系
1.6OLAP服务器
课后习题
第2章Hive
2.1Hive技术
2.1.1Hive的基本概念
2.1.2Hive的应用场景
2.1.3Hive与传统数据仓库的对比
2.1.4Hive的优缺点
2.2Hive的功能与架构
2.3Hive部署
2.3.1Hive部署方式
2.3.2基础环境安装
2.3.3安装配置Hive
2.4Hive数据存储模型
2.4.1数据存储结构
2.4.2托管表和外部表
课后习题
第3章HiveQL操作
3.1Hive基本操作
3.1.1数据定义语言
3.1.2数据管理语言
3.1.3数据查询语言
3.2HiveQL实例
课后习题
第2篇数据分析
第4章表格处理
4.1针对表格的操作
4.1.1数据分列
4.1.2使用Ctrl+E提取数据
4.1.3大小写数字转换
4.1.4快速定位缺失值
4.1.5冻结窗格
4.2常用函数
4.2.1数值运算函数
4.2.2字符处理函数
4.2.3逻辑运算函数
4.2.4VLOOKUP
4.2.5时间序列函数
... 查看详情
"《数据仓库与数据挖掘(微课视频版)》以“立足实践、贯通链条、深入浅出”为核心理念,全面系统地介绍了企业实践中数据仓库、数据分析和数据挖掘常见技术,贯穿企业数据应用的完整生命周期。《数据仓库与数据挖掘(微课视频版)》提供了一套可复用的方法论,既能深入理解技术原理,又能快速上手工具实践。
全链路覆盖知识 从数据底层的仓库搭建,到中层的分析工具链,再到顶层的挖掘算法,形成从数据治理到价值挖掘的递进式知识体系。
原理与实践并重 在阐述基本原理和实现算法的基础上,介绍每种算法的数学计算和推导过程及每种算法常见超参数的数学意义和优化方法,提升读者的数学认知,从而在实践中提升建模效率。
工具生态全解析 聚焦Hive的搭建、优化与数据仓库分层设计;介绍WPS高阶函数,Python数据分析Numpy、Pandas、Matplotlib及帆软BI的敏捷报表开发技巧;结合Scikit-learn、mlxtend等框架详解参数调优与模型部署。
开放性习题设计 每章设计开放习题,既包括需要用自己方式理解理论知识的习题,又包括实践题目与探索性题目,引导读者自行探索数据仓库和数据挖掘相关知识。
"





