图书前言

前    言

Tableau是近期颇为流行的商业智能(BI)解决方案,并以其强大的交互式数据可视化而著称。本书涵盖了业界专家提供的有效案例,以帮助读者学习Tableau 2019.x,并掌握其中的各项技能。

本书包含了丰富的内容,如Tableau数据提取、Tableau Desktop高级计算、创建仪表板、数据处理技术、叙述故事、高级过滤机制、可视化技术以及基于真实案例的预测分析等。

本书将从Tableau的基本功能讲起,一直讲到Linux上的复杂操作。此外,读者还将通过R语言、Python语言和各种API了解Tableau的高级特性。其间,任务的复杂性将会逐渐增加,读者将通过丰富的案例掌握这些高级功能。同时,本书还介绍了用于优化BI任务的故障排除技术。

此外,读者还将学习利用最新的Tableau Prep为数据分析过程准备数据。在阅读完本书后,读者可通过Tableau的各种特性来处理BI任务。

适用读者

本书面向数据分析人员、数据可视化和BI用户,并向他们提供基于Tableau的快速解决方案。

本书内容

第1章主要介绍了Tableau的基础知识,读者将熟悉Tableau的界面和基本任务,如创建简单的图、表和过滤机制,并理解Tableau语义层面的内容。所有这一切都将在市场调查所搜集的真实数据的基础上进行。

第2章将通过人口普查数据讲解Tableau中数据的操控方式,包括添加数据源、连接数据源以及二者间的混合操作。另外,本章还将介绍如何使用Tableau Pivot功能,并设置工作簿的语义层以满足任务的要求,其中包括度量和维度间的转换、连续和离散以及别名编辑等。

第3章讨论如何利用提取提升Tableau仪表板的性能。其中涉及不同的Tableau文件格式类型和提取类型。相应地,本章引入了Tableau的最新内存数据引擎技术,该技术于2017年10月发布且速度惊人。此处将通过详细的步骤讲解如何利用Hyper划分数据集,从而提高分析速度,并通过聚合提取、减少维度、提取过滤器、增加提取刷新和交叉数据连接优化Tableau仪表板的性能。

 第4章讨论Tableau Desktop的其他各项功能,如表计算、计算字段、参数、集合、分组和细节级别表达式,并通过丰富的案例帮助读者掌握Tableau Desktop的各种操作技能,从简单的表计算到相对高级的细节级别表达式,从而提升Tableau开发人员的技术水平。本章将使用真实的市场数据以及与人口数据相关的地理空间用例。

第5章将讲解过滤器,并在第1章的基础上进行扩展。其间将使用源自食品包装工业的数据,其中将涉及数据过滤器、度量过滤器、前N项过滤器、表计算过滤器以及动作过滤器。另外,本章还将讨论如何管理多个过滤器间的关系。

第6章主要讲解仪表板设计技术。本章将引入仪表板这一概念并讨论仪表板的设计过程。通过与互联网应用相关的真实数据,将创建一个基本的仪表板,其中添加了自定义格式和某些高级功能。除此之外,读者还将了解可视化的角色以及正确的布局设计的重要性,进而使用Tableau创建美观的仪表板。最后,本章还将构建一个自服务仪表板。

第7章将探讨利用数据讲述故事,其中将使用来自汽车工业的真实业务数据,学习如何使用Tableau的相关功能,以一种吸引人的、用户可访问的方式讲述故事,同时保证传达信息的准确性。

第8章将利用Tableau Desktop创建高级可视化结果。本章不仅限于Tableau中的Show Me特性,还将深入讨论高级可视化技术,以使仪表板故事更加出众。针对各种可视化效果,本章将通过多个案例和推荐的最佳实践方案对其加以创建。相关案例包括识别具有重要影响的数据元素;针对不同分类创建一段时间内的排名,并通过可视化方式跟踪机构的实现目标;比较多个度量间的性能。针对每种可视化效果,本章将采用多个不同的数据集,如美国足球联盟数据集、医院客户满意度数据集、美国各州大学排名数据集、股票价格数据集、二氧化碳排放量数据集、Y18 PMMR支出和预算数据集,等等。

第9章将在第8章的基础上讨论多个案例,包括比较89%~90%范围内包含较高数值的类别、确定流中的主要因素、创建部分与整体间的关系、从视觉上消除Alaska Effect。本章将针对各种可视化效果采用不同的数据集,涉及足球联盟数据、维基百科点击流数据、ITA市场调研数据、零售销售市场利润和成本数据,以及美国各州人口分布数据。

第10章将考查可视化数据的重要性—无论它的大小、种类和速度怎样。大数据的可视化方案十分重要,数据的存储、准备和查询成本均较为高昂。对此,组织机构需要利用结构化良好的数据源以及最佳实践方案直接对大数据进行查询。本章将着手解决大数据可视化面临的挑战,其间将使用到Hadoop、S3、Athena和Redshift Spectrum,并探讨如何针对大数据部署Tableau。

第11章将使用源自健康调查活动中的真实数据,针对预测机制和R数据包的集成讨论Tableau的内建功能。读者将学习在简单和复杂数据集上执行回归分析,并对统计测试结果予以正确的解释。此外,本章还将介绍如何实现时序模型。在本章结尾,读者将考查基于机器学习的回归示例。

第12章阐述了基于Tableau的高级数据分析并与R语言实现集成。通过来自电信、汽车、银行和快速消费品行业的真实数据,读者将学习如何发现数据的底层结构、判断市场趋势、对相似案例进行分类,以及如何在较大的数据集上推断结果。此外,本章还介绍了如何识别和解释数据中不寻常的情形。

第13章将讨论Tableau Server及其功能,其中涉及Windows和Linux环境下的Tableau Server的部署和下载。另外,读者还将学习如何创建、监视和调度Tableau Server备份。随后,本章讨论了服务器应用过程中的监测机制,以及基于Tabcmd和Tabadmin的Tableau Server自动化机制。整体而言,本章旨在在Tableau Server上实现自动更新,发布Tableau仪表板,并针对受限访问打造适宜的安全措施。

第14章讨论Tableau Desktop和Tableau Server的故障诊断机制,并对遇到的问题提供相应的处理步骤,其中包括性能诊断、技术诊断和日志。

第15章介绍了Tableau的新产品Tableau Prep,该产品旨在快速地对数据进行整合,并构建和清理相关的分析数据。

第16章介绍了Tableau Server和现代ETL工具Matillion间的集成。读者将学习如何针对Linux环境安装ETL工具,并构建ETL管线和Tableau Server活动间的集成方案,如刷新提取和导出PDF。该方案适用于任何ETL工具。

背景知识

在软件方面,读者需要下载Tableau 2019.x。同时,读者还应理解与BI和Tableau相关的一些基本概念。

资源下载

读者可访问http://www.packtpub.com,并通过个人账户下载示例代码文件。另外,购买本书的读者也可访问http://www.packtpub.com/support,注册成功后,我们将以电子邮件的方式将相关文件发给读者。

读者可根据下列步骤下载代码文件:

(1)登录或注册我们的网站www.packtpub.com。

(2)单击SUPPORT选项卡。

(3)单击Code Downloads & Errata。

(4)在Search文本框中输入书名。

当文件下载完毕后,确保使用下列最新版本软件解压文件夹:

? Windows系统下的WinRAR/7-Zip。

? Mac系统下的Zipeg/iZip/UnRarX。

? Linux系统下的7-Zip/PeaZip。

另外,读者还可访问GitHub获取本书的代码包,对应网址为https://github.com/ PacktPublishing/Tableau-2019.x-Cookbook。

此外,读者还可访问https://github.com/PacktPublishing/以了解丰富的代码和视频资源。

读者可访问http://www.packtpub.com/sites/default/files/downloads/9781789533385_ ColorImages.pdf下载包含本书彩色图像的PDF文件。

本书约定

本书通过不同的文本风格区分相应的信息类型。下面通过一些示例对此类风格以及具体含义的解释予以展示。

代码块如下:

install.packages('rpart',repos='http://cran.us.r-project.org')

library(rpart)

cars <- read.table("C:\\!Slaven\\6 KNJIGA\\4 Advanced analytics\\4 decision

tree\\new_or_used_car.csv", header=T, sep=",")

fit <- rpart(FuturePurchase ~ Age + Gender + Education + FamilyStatus +CurrentCar+AgeOfCurrentCar+MunicipalityType,method="class", data=cars)

plot(fit, uniform=TRUE, main="Classification of new cars buyers")

text(fit, all=TRUE, cex=.8)

命令行输入或输出则采用下列方式表达:

set enable_result_cache_for_session to off;

 图标表示较为重要的事项说明。

 图标则表示提示信息和操作技巧。

读者反馈和客户支持

欢迎读者对本书提出建议或意见。

对此,读者可向feedback@packtpub.com发送邮件,并以书名作为邮件标题。若读者对本书有任何疑问,也可发送邮件至questions@packtpub.com,我们将竭诚为您服务。

若读者针对某项技术具有专家级的见解,抑或计划撰写书籍或完善某部著作的出版工作,则可访问www.packtpub.com/authors。

关于书中谬误

尽管我们在最大程度上做到尽善尽美,但错误依然在所难免。如果读者发现谬误之处,无论是文字错误抑或是代码错误,还望不吝赐教。对此,读者可访问http://www.packtpub. com/submit-errata,选取对应书籍,单击Errata Submission Form超链接,并输入相关问题的详细内容。

版权须知

一直以来,互联网上的版权问题从未间断,Packt出版社对此类问题异常重视。若读者在互联网上发现本书任意形式的副本,请告知网络地址或网站名称,我们将对此予以处理。关于盗版问题,读者可发送邮件至copyright@packtpub.com。

问题解答

若读者对本书有任何疑问,均可发送邮件至questions@packtpub.com,我们将竭诚为您服务。