关于本书的赞誉
“学习无监督学习和生成式人工智能(GenAI)的必读之作。”
—Khuram Pervez,EGA
“无论是初学者还是从业者,本书都是一本实用的指南。”
—Amaresh Rajasekharan,IBM
“本书是解答关于无标签数据所有重要问题的终极资源。”
—Arne Peter Raulf,德国航空航天中心
“一本全面且详细的指南,帮助你掌握无监督学习和生成式人工智能。”
—Krishna Chaitanya Anipindi,Hexagon
“简明扼要的指南,既涵盖理论,又注重实践。”
—Deepika Sinha,AI/ML/GenAI的主管
献给Yashi、Pakhi、Rudra和Shiva
序 言
在今天快速发展的人工智能和机器学习领域,从无标签数据中提取有价值的洞察力正在改变各个行业,并推动着创新。作为一名人工智能领域的从业者,我在多个行业积累了丰富经验,目前正执掌某大型制药公司的数据科学与人工智能团队。我亲眼见证了许多创新思维如何彻底改变行业格局。
在肿瘤学和生物制药领域,我们利用人工智能帮助生命科学公司精准地向医疗专业人士提供支持,并且精确地锁定关键利益相关者——确保正确的治疗方法能在正确的时机送到合适的患者手中。在这些对精准性和合规性要求非常高的行业中,能够从原始的无标签数据中提取出实际可用的洞察力,已不再是可有可无,而是至关重要的。
《无标签数据处理:关键算法与模型实现》分为三个部分,系统地介绍了从理论到实践的完整过程,内容详见目录。第Ⅰ部分为读者奠定了基础,讲解了无监督学习的核心技术,包括聚类、降维和异常检测,让读者掌握解读原始数据的基本技能。第Ⅱ部分深入探讨了更复杂的技术,介绍了自监督学习和对比学习方法,这些方法能够突破标签数据稀缺带来的限制。第Ⅲ部分则将理论与实践相结合,讲解深度学习的基本内容——包括神经网络构建模块、激活函数、自编码器,并提供了具体的TensorFlow和Keras代码实现,还介绍了生成对抗网络(GAN)、BERT和像GPT这样的超大语言模型等先进的生成模型。最后,附录A还展示了如何将这些工具应用到实际的挑战中,帮助从业者利用人工智能制定出符合合规要求的最佳策略,取得理想的效果。
我很荣幸能支持并推荐这本出色的著作。希望本书能够激励你们探索人工智能的新领域,并推动创新的解决方案,为患者和整个医疗行业带来更好的未来。
——Ravi Gopalakrishnan
阿斯利康 数据科学与人工智能的副总裁
前 言
数据被誉为新的石油、电力和能源。在过去的10~15年里,数据量激增。基于人工智能的解决方案正利用这些海量数据,因此,人工智能在过去十年取得了前所未有的进展。它改变了我们的生活——从购物、规划、旅行、响应到沟通的方方面面。随着云计算的普及,强大的计算能力变得触手可及。其中,像ChatGPT这样的超大语言模型成为最具革命性的创新,改变了整个生态系统。在各行各业中,包括零售、电信、银行、金融服务、保险、医疗、制造业和航空业——无论是营销、客户关系管理、生产、供应链、定价还是质量等领域——基于数据的人工智能工具都展现了其巨大的价值。预测算法、优化解决方案和分类工具提高了效率,降低了成本,增加了利润,为人类开辟了更多可能性。我们现在可以更快速、更高效地研发新药,打造更安全的制造流程,提高团队的工作效率,并创造出更先进、成熟的商业解决方案。
作为人工智能的热心支持者,我见证了人工智能带来的激动人心的进展,也体会到在这一复杂领域中前行的挑战。这是一个融合了技术、工程、研究和人类兴趣的复杂体系。在写这本书的过程中,我时常被人工智能的复杂性所提醒。解决方案并不简单,坦白说,越是深入研究这一领域,我越能意识到影响我们学习、行动和理解的那些层次和细节。
阅读本书是一次探索之旅——一段充满发现、反思、挑战,也伴随艰辛努力的旅程。这一切始于一个简单的想法:我好奇能否利用深度学习和生成式人工智能解决无监督学习的问题。在这段旅程中,这份好奇心逐渐发展成我希望能够启发、激励,甚至挑战读者的内容。本书是无数次思考、讨论和研究的结晶,结合了我的努力与坚持,旨在为读者提供既实用又有价值的内容。
我有意识地将复杂的理念以既易懂又专业的方式呈现出来。我的目标不仅是帮助读者理解深度学习或生成式人工智能,更希望帮助大家深入理解这些技术的创造过程,它们背后的数学原理,以及如何将这些技术应用于解决各种问题。
作 者 简 介
瓦伊巴夫·韦尔丹(Vaibhav Verdhan)是一位经验丰富的数据科学和人工智能专业人士,拥有跨地域和领域的工作经验。他是行业领导者,并且是各类会议和峰会的常邀演讲嘉宾。他热衷于解决机器学习和人工智能问题,并指导学生和专业人士在数据科学和机器学习解决方案方面的学习与实践。目前,他与家人定居在伦敦。
致 谢
本书的出版得到了曼宁出版社的大力支持,在此向曼宁出版社表示衷心的感谢。我非常感激许多在这本书的创作过程中给予我帮助的个人。感谢我的导师、同事和朋友——感谢你们在这段旅程中的深刻见解、耐心和始终如一的支持。我还要感谢Manning团队让这本书的出版成为可能,特别感谢Andy Waldron,他是本书的策划编辑,最早相信本书的潜力并推动了本书的出版;感谢Ian Hough,他是本书的责任编辑,陪伴本书的编写直至其完成;感谢Ravi Gopalakrishnan,他为本书写下了精彩的序言;感谢Davide Del Vento,他是本书的技术编辑,在本书的整个编写过程中提供了宝贵的技术见解。Davide自2022年起在Quantinuum担任高级物理学家及高性能计算专家,专注于计算物理、高性能计算、并行计算、优化和调试。
同样感谢其他幕后的团队成员,正是你们的努力使本书得以出版。感谢所有审稿人:Alessandro Buggin、Amaresh Rajasekharan、Arne Peter Raulf、Bob Liu、Clifford Thurber、Gary Bake、Joel Holmes、Juan Jimenez、Keith Kim、Krishna Chaitanya Anipindi、Lara Thompson、Leonardo Gomes da Silva、Michael Aydinbas、Monica Guimaraes、Obiamaka Agbaneje、Oliver Korten、Ondřej Krajíček、Paul Adamson、Radhakrishna Maddukuru、Ramakanth Gidijala、Richard Vaughan、Rohit Mishra、Sergio Govoni、Simon Tschoeke、Simone Sguazza、Sruti S.、Stephen Tobayiwa、Subhash Talluri、Todd Cook和Vishwesh Ravi Shrimali,正是你们的建议让本书的质量更加完善。
我还要感谢我的家人——我的妻子Yashi、我的可爱孩子Pakhi和Rudra,感谢你们给予我的包容和支持,让我有时间和空间完成这本书。
最后,我要感谢你,亲爱的读者,感谢你花时间阅读本书。正是你们对人工智能领域的兴趣推动了这一领域的不断发展。我希望本书能在你的学习旅程中给予你帮助。
关于本书封面
本书封面上的图像名为“Paysan des Environs de Berne”或“Peasant from the surroundings of Bern”,出自Jacques Grasset de Saint-Sauveur的一部1788年出版的作品。其中每幅插图都由手工精细绘制并着色。
在那个年代,仅凭衣着便能轻松分辨一个人的居住地、职业及其社会地位。曼宁出版社通过这一系列插图,将数百年前丰富多样的地域文化重新呈现在读者面前,旨在借此颂扬计算机行业所蕴含的创造力与进取精神。
关 于 本 书
在阅读本书时,我鼓励你不仅要理解书中的内容,更要积极动手实践书中介绍的概念和技术。最好的学习方法之一就是亲自去操作;书中有很多实际的练习和挑战,能够帮助你加深对知识的理解。不管你是从头到尾读完整本书,还是只阅读自己感兴趣的部分,我希望你能在这些内容中找到对你有帮助的知识。
本书的目标读者
本书既适合作为无监督学习、深度学习和生成式人工智能的入门书籍,供新手学习参考,也为有经验的专业人士提供了全面的参考资料。本书面向那些对无监督学习的最新趋势、方法论和最佳实践感兴趣的读者,包括希望深入探索无监督学习算法的学生和研究人员。寻找常见问题的解决方案和洞察的数据科学从业者,以及希望与团队和客户有效沟通的管理者,都能从本书受益。此外,对于那些希望通过案例研究学习无监督学习算法并提升Python技能的好奇心强的读者,本书也将提供帮助。
本书假设读者具备基本的软件工程知识,但在需要时会提供基础材料的解释和参考。熟悉面向对象编程语言(如C++、Java和Objective-C)会有帮助,同时本书全程使用Python,因此有Python经验的读者将更容易理解书中的内容。本书中的数学和几何知识有助于可视化结果,而数据相关的使用案例则有助于将知识与实际的商业场景结合起来。同时,保持开放的学习心态至关重要。
本书结构:一条清晰的路线图
本书分为三大部分,每部分涵盖无监督学习的一个关键领域。
在第Ⅰ部分,我们探讨了聚类和降维技术的基本原理、数学基础以及核心算法。
第Ⅱ部分涉及更高级的主题,如文本数据处理、进阶聚类以及高级降维算法。
第Ⅲ部分(可能是最复杂的一部分)聚焦于深度学习和生成式人工智能解决方案。在本书中,我们旨在弥合理论知识与实际应用之间的差距,因此特别强调实际案例、示例和练习。书中还通过Python开发解决方案,并结合AI算法来加以实现。所有的数据集和Python代码都已上传至GitHub。
祝愿你在接下来的学习旅程中一切顺利。我们希望这段经历能给你带来丰富和激动人心的收获。
关于代码
本书包含了许多源代码示例,这些示例有的是以编号的代码清单形式呈现,有的是直接嵌入普通文本中。在这两种情况下,源代码都采用等宽字体格式,以便与普通文本区分开来。有时,为了突出章节中发生变化的代码,代码会以加粗字体呈现,比如当新增功能时,代码行会有所改变。
在许多情况下,原始源代码已被重新格式化;我们添加了换行符并调整了缩进,以适应书中页面的排版空间。在少数情况下,即使这样做仍然不够,代码清单中会包括行续标记(➥)。此外,当代码在文本中被描述时,源代码中的注释通常会从代码清单中移除。许多代码清单还配有注释,强调重要的概念。
书中示例的完整代码可以从Manning网站下载:https://www.manning.com/ books/data-without-labels,也可以在GitHub上找到:https://github.com/vverdhan/ DataWithoutLabels。还可以扫描封底二维码下载。
本书的参考文献请扫描封底二维码下载。
