





定价:48元
印次:1-4
ISBN:9787302581321
出版日期:2021.08.01
印刷日期:2025.01.02
图书责编:刘翰鹏
图书分类:教材
本书基于计算机类专业对大数据平台技术和大规模数据处理的实战需求,在阐述数据科学、Hadoop和Spark配置要点和大数据处理周期的基础上,重点阐述大数据采集与存储、预处理、特征工程、数据可视化分析、机器学习基础等大数据处理技术及其Python实现,以及基于Hadoop和Spark平台的Python接口调用和机器学习编程实例分析。本书既强调了大数据处理周期的基本原理和关键技术,又突出机器学习算法及其在分布式系统中的应用编程方法。 本书可作为高等院校计算机、大数据、人工智能、软件工程等专业的教材,也可作为大数据技术研发人员和研究生的学习参考用书。
张晓明,男,教授,博士,北京市教学名师,北京市中青年骨干教师,北京高校继续教育高水平教学团队带头人,计算机和大数据专业负责人。CCF分布式计算与系统专委会委员,全国高校计算机教育研究会理事,北京市高校计算机教育研究会常务理事。主讲《计算机网络》、《大数据技术及应用开发》等课程。出版《计算机网络教程(第2版)》、《C#网络通信程序设计》、《软件系统设计与体系结构》等教材7部,专著1部。荣获2018年北京市高等教育教学成果一等奖。从事网络计算与系统安全、大数据技术分析等研究,发表论文60余篇。
前言 本书的选题来源于专业发展和人工智能技术需求两方面。 首先,人工智能为许多学科专业带来了新的发展机遇,特别是计算机专业,目前其专业方向之一正朝着人工智能技术发展,急需补充大数据技术背景下的智能计算内容。在现有关系型数据库技术基础上,通过扩展补充非结构化数据库,形成大规模数据,增强机器学习的应用范围,为计算机专业带来新的发展潜力。 其次是数据科学与大数据技术本科专业的建设需要。通过学习大数据技术的基本原理和编程示例,从大一开始就设置有大数据导论课程,随后有大数据处理、大数据分析、分布式计算、人工智能、数据可视化和数据挖掘等主干课程。因此,需要培养学生的大数据系统思维和技术兴趣,从而形成完整的大数据生命周期和处理方法。 从机器学习的市场需求及发展趋势看,表现为以下三方面内容。 (1) 针对大数据计算需求,有两种解决途径: ①购置多GPU的系统,能够大幅提高算力,但价格昂贵; ②利用廉价的服务器搭建大规模的分布式集群平台。目前成熟的大数据平台主要是Hadoop和Spark系统,以及实时计算用的Storm。这些离线和实时计算模式共同形成了主流的大数据技术系统架构,在现有商业系统中发挥重要的作用。 (2) 机器学习是大数据应用中的重要研究和应用领域,对数据处理、特征分析、算法应用和模型设计,都是热点内容,需要尽快体现在教学环节和资源之中。 (3) 在编程语言和相关类库方面,Python语言已经占有绝对优势,已经成为大数据和人工智能领域的主流编程语言。其丰富的第三方类库为用户带来了极大便利。目前,急需基于Python语言在这些平台下进行实战开发...
目录
第1章绪论00
1.1大数据技术概述00
1.1.1大数据的特点00
1.1.2大数据与数据科学的关系00
1.1.3大数据的关键技术00
1.1.4大数据的计算模式00
1.2基于Hadoop系统的大数据平台00
1.2.1Hadoop的特点00
1.2.2Hadoop的生态系统00
1.3基于Spark系统的大数据平台00
1.3.1Spark的生态系统00
1.3.2Spark与Hadoop的比较00
1.4面向实时计算的大数据平台0
1.4.1Storm介绍0
1.4.2Storm的核心组件0
1.4.3Storm的特性0
1.5大数据技术的发展趋势0
1.6Windows 10下Spark+Hadoop+Hive+Pyspark配置0
第2章Hadoop系统应用开发基础0
2.1Hadoop YARN应用基础0
2.1.1YARN的设计目标0
2.1.2YARN的组件及架构0
2.1.3YARN的运行流程0
2.2HDFS文件系统及其应用0
2.2.1HDFS体系结构0
2.2.2HDFS的存储原理0
2.2.3HDFS的数据读写过程0
2.2.4HDFS的常用命令0
2.3MapReduce计算模型及其应用0
2.3.1MapReduce编程原理0
2.3.2MapReduce模型的应用0
2.4HBase大数据存储与访问0
2.4.1HBa... 查看详情