清华大学出版社--图书详情

+教师申领样书

首页 > 图书 > 图书详情

视觉大模型——从理论到实践

"洞悉视觉智能的深度，探索Transformer的广度以前沿理论为基石，以实践应用为桥梁，为读者提供洞见与指导 "

作者：王书浩、王伟

丛书名：跟我一起学人工智能

定价：59元

印次：1-1

ISBN：9787302710714

出版日期：2026.03.01

印刷日期：2026.03.20

图书责编：赵佳霓

图书分类：教材

电子书

在线购买

京东天猫电子书

内容简介

作者简介

前言序言

资源下载

查看详情查看详情查看详情

"本书全而且系统地呈现视觉大模型的理论基础、应用实践与未来发展趋势。开篇深入剖析视觉大模型内核——视觉Transformer模型，详述其基本原理、架构，涵盖注意力机制、位置编码、编码器-解码器架构等关键要素，同时细致解读自监督学习在视觉大模型中的应用，如对比学习、生成式学习、预测性学习等前沿方法，助力读者迅速把握视觉大模型精髓。在应用实践板块，书中依托丰富案例，详尽展示视觉大模型在图像分类、语义分割、目标检测等计算机视觉核心任务中的实战应用。不仅如此，书中还深入探讨视觉大模型训练与优化的关键考量因素，包括数据增强策略、正则化技术、知识蒸馏、迁移学习等，为读者提供实用的实践经验，助其在实际应用中高效运用视觉大模型。为了提升读者对视觉大模型的理解与实践能力，书中提供了大量代码示例，覆盖从基础模型搭建到复杂模型优化的全流程，读者可通过实践这些代码，深化对视觉大模型理论与应用的认知。本书受众广泛，既适配计算机、自动化、电子、通信、数学、物理等专业背景的研究生及高年级本科生，也契合欲从事或转型至人工智能与计算机视觉领域的专业技术人员。 "

"王书浩清华大学博士，清华大学交叉信息研究院博士后，现为透彻未来联合创始人与首席技术官，曾先后于百度、异构智能（NovuMind）、京东从事数据科学与人工智能研究，拥有国家发明专利20余项，并于Nature Communications、Modern Pathology、ICCV等**期刊/会议发表十余篇学术论文。曾获得2019年乌镇互联网峰会“30位新生代数字经济人才”精英奖、Year 2022 Fall Asia-Pacific Signal and Information Processing Association Industrial Distinguished Leaders、阿里云“看见新力量”2022年度人物。王伟毕业于中国人民大学，拥有概率论与数理统计硕士学位，现为透彻未来算法科学家，曾于清华大学电子工程系、中国科学院半导体研究所、中国石油勘探开发研究院从事深度学习基础理论探索与产业实践研究，并发表多篇学术论文；曾主持北京市自然科学基金1项，申请国家发明专利10余项，荣获“2017中国大数据人工智能创新创业大赛病理切片识别AI挑战赛”冠军。"

前言当手机相册能够精准地捕捉爱犬的每张丑照时，当街角的摄像头学会数清排队买奶茶的人数时，当手术机器人透过内窥镜辨识病灶的边界时——我们正站在一个视觉智能重构世界的临界点。视觉大模型如同数字时代的光学棱镜，将海量像素折射为可解析的语义光谱，而本书就是为你准备的解码手册。在人工智能技术指数级进化的今天，视觉大模型已悄然成为推动产业变革的视觉基建。与传统视觉模型相比，它们不再是被程序设定的“像素会计”，而是进化成了具备认知弹性的“视觉通才”。从视觉Transformer打破卷积神经网络统治的破壁之举，到Swin Transformer在局部与全局视野间的精妙平衡，再到DETR用端到端范式重构目标检测的逻辑，这些突破不仅是算法架构的革新，更是人类对机器视觉认知范式的重新定义。作为专注于视觉大模型的教材，本书以“深度理解—实战进化”为脉络，带你穿透技术迷雾，将从Transformer的注意力革命说起，揭示为何这种源于自然语言处理的机制，竟能让计算机像顶级策展人般理解图像的内在关联；通过剖析位置编码如何为像素矩阵注入空间知觉，逐步构建起视觉大模型的认知图谱。特别值得关注的是，本书独创“技术显微镜”与“产业望远镜”双重视角：前者带你深入模型架构的毛细血管，逐行解析视觉Transformer如何将图像切割为16×16的视觉词汇；后者带你俯瞰在前沿场景中，各种视觉大模型如何通过PyTorch一手掌控。确保你在理解“为什么”之后，能立即动手验证“怎么做”。对于渴望深入技术腹地的开发者，本书是打开视觉大模型黑匣子的密钥；对于寻求人工智能赋能的行业决策者，这...

暂无课件

样章下载

暂无网络资源

版权信息

扫描二维码
下载APP了解更多

荐语

查看详情查看详情

本书源码

第1章开启视觉大模型的大门

1.1深度学习在计算机视觉中的应用

1.2Transformer模型概要

1.3Transformer的发展历程

1.4Transformer在视觉任务中的应用

1.5自监督学习简介

第2章Transformer原理与架构

2.1注意力机制

2.1.1自注意力机制的数学原理

2.1.2QKV与注意力汇聚

2.1.3注意力评分与掩码

2.1.4多头自注意力

2.2位置编码

2.3Transformer架构

2.3.1残差与正则化

2.3.2FFN

2.3.3编码器与解码器

第3章Transformer在自然语言处理中的应用

3.1编码器

3.1.1BERT

3.1.2BERT的改进模型

3.2解码器

3.2.1GPT

3.2.2GPT的演进

3.3编码器与解码器结合

3.4Prompt与Chain of Thought

3.5Scaling Law

第4章Transformer在计算机视觉中的应用

4.1图像分类

4.1.1Vision Transformer

4.1.2Swin Transformer

4.1.3MobileFormer

4.2图像分割

4.2.1SwinUnet

4.2.2SegFormer

4.2.3Mask2Former

4.2.4Segment Anything ... 查看详情

本书以“深度理解-实战进化”为脉络，带你穿透技术迷雾，将从Transformer的注意力革命说起，揭示为何这种源于自然语言处理的机制，竟能让计算机像**策展人般理解图像的内在关联。特别值得关注的是，本书独创“技术显微镜”与“产业望远镜”双重视角：前者带你深入模型架构的毛细血管，逐行解析视觉Transformer如何将图像切割为16×16的视觉词汇；后者带你俯瞰在前沿场景中，各种视觉大模型如何通过PyTorch一手掌控。确保你在理解“为什么”之后，能立即动手验证“怎么做”。

查看详情

同系列产品

查看详情

关于我们

新闻资讯

服务支持

关于我们

新闻资讯

服务支持

同系列产品