数据科学与工程算法基础
坚持理论与实践并重,精选多个项目案例,采用通俗易懂的表述方式介绍算法在解决实际问题中的重要性,使读者更好地理解和掌握算法的知识及其应用场景。

作者:徐明华、陈志刚、罗俊如、官威、郝亚东

丛书名:高等学校大数据专业系列教材

定价:49元

印次:1-1

ISBN:9787302680161

出版日期:2025.01.01

印刷日期:2025.01.13

图书责编:闫红梅

图书分类:教材

电子书
在线购买
分享
内容简介
作者简介
前言序言
资源下载
查看详情 查看详情 查看详情

"本书对数据科学与工程中的算法基础进行了全面的论述,把读者引入数据科学的大门,为进一步学习和掌握大数据分析算法提供有力的支撑。本书介绍的数据科学与工程中的算法基础包括特征工程、数据表征、数据抽样、随机优化算法和关联性分析等,侧重内容的科学性、实用性和前沿性。本书结构上注重理论与实践并重,各章通过案例引出问题,并深入介绍回答类似问题需要的知识,最后通过实际案例串联本章知识点,可以使读者感受到算法的价值及其在解决实际问题中的实用性。 本书可以作为高等学校大数据、计算机等相关专业的教学用书,对科研机构的研究人员、工程技术人员也有一定的参考价值。 "

徐明华,博士,教授,常州大学计算机与人工智能学院 阿里云大数据学院 软件学院院长,计算数学专业,研究方向为最优化理论和应用、数值代数和数据建模与分析,长期从事数据处理、建模和数值计算的教学与科研工作,发表科研论文 40 余篇,其中 SCI 论文近 20篇,主编教材 3 部。主持江苏省教改项目 2 项,发表教学研究论文 9 篇,核心期刊 5 篇。主编江苏省重点教材 1 部,参编教材 2 部,获江苏省教学成果奖二等奖 1项,校教学成果特等奖 2 项。先后获常州市师德模范、“校最受学生欢迎教师”、常州市高等院校优秀班主任等教学奖或荣誉称号 10 多项。主要参与国家自然科学基金项目 4 项、博士点基金项目 1 项、主持横向项目 5 项。

前言 信息技术的飞速发展使数据的产生、存储和处理能力达到了前所未有的高度。数据的丰富性和复杂性带来了巨大的挑战,同时也蕴藏着巨大的机遇。如何挖掘不同类型数据中蕴藏的丰富信息,已经成为大数据时代面临的重要问题之一。数据科学与工程,作为一门新兴的交叉学科,正是为了应对这一挑战而诞生的。数据科学与工程以数据为研究对象,通过综合运用数学、统计学、计算机技术等方法对数据进行处理和分析,以实现数据的价值。数据科学与工程的核心是算法,它们是处理数据、提取信息、发现模式和预测未来的强大引擎。 本书旨在培养新工科背景下具备数据科学思维,掌握数据科学与工程算法的大数据专业人才。本书系统地介绍了特征工程、多类型数据表征、数据抽样、图计算、随机优化算法、相似性度量、关联性分析等相关知识与方法,涵盖数据表征、数据计算和数据挖掘等多方面的内容。本书从数据科学与工程的基本概念和流程出发,逐步引领读者进入数据科学的核心领域,全面理解和掌握数据科学的精髓,为进一步深入学习机器学习算法打下扎实的基础。 全书共8章,内容包括绪论、特征工程、多类型数据表征、数据抽样、图计算、随机优化算法、相似性度量、关联性分析,不仅覆盖了传统数据科学领域的重要算法,还涉及最新的研究进展,如图计算、因果分析、多模态数据融合等前沿技术,使得本书既具有广度又具有深度。同时,本书内容结构遵循学习规律: 首先通过“问题导入”,建立现实问题与数据科学与工程相关技术的关系,明确学习目标,激发学生学习数据科学与工程相关技术的兴趣; 然后,构建相关的知识体系,介绍算法及其演化,提高学生描述问题的表达能力、解决问题的算法思维能...

目录
荐语
查看详情 查看详情

目录

第1章绪论

1.1概况

1.2数据分析

1.2.1流程

1.2.2算法分类

1.2.3基本原则

1.3算法基础

1.4本章小结

习题

第2章特征工程

2.1问题导入

2.2特征提取

2.3特征探索性分析

2.3.1单变量分析

2.3.2多变量分析

2.4特征预处理

2.4.1缺失值处理

2.4.2异常值处理

2.4.3特征变换

2.5特征选择

2.5.1过滤法

2.5.2封装法

2.5.3嵌入法

2.6案例: 工业设备信号特征工程

2.7本章小结

习题

第3章多类型数据表征

3.1问题导入

3.2时序数据表征

3.2.1频域特征

3.2.2时频域特征

3.3文本数据表征

3.3.1词袋模型

3.3.2TFIDF特征

3.3.3词向量嵌入

3.4图像数据表征

3.4.1图像处理基础

3.4.2SIFT

3.4.3HOG

3.4.4深度特征表示

3.4.5多模态特征融合

3.5案例: 农作物病虫害图像表征

3.6本章小结

习题

第4章数据抽样

4.1问题导入

4.2概率抽样

4.3非均衡抽样

4.3.1样本分布不均衡问题

4.3.2过采样

4.3.3欠采样

4.4数据流抽样

4.4.1数据流抽样问题

4.4.2蓄水池抽样

4.5蒙特卡洛抽样

... 查看详情

本书是新兴领域“十四五”高等教育教材,系统地介绍了特征工程、多类型数据表征、数据抽样、图计算、随机优化算法、相似性度量、关联性分析等相关知识与方法,涵盖数据表征、数据计算和数据挖掘等多方面的内容。本书从数据科学与工程的基本概念和流程出发,逐步引领读者进入数据科学的核心领域,全面理解和掌握数据科学的精髓,为进一步深入学习机器学习算法建立扎实的算法基础。

查看详情