目录
本书源码
第1章开启视觉大模型的大门
1.1深度学习在计算机视觉中的应用
1.2Transformer模型概要
1.3Transformer的发展历程
1.4Transformer在视觉任务中的应用
1.5自监督学习简介
第2章Transformer原理与架构
2.1注意力机制
2.1.1自注意力机制的数学原理
2.1.2QKV与注意力汇聚
2.1.3注意力评分与掩码
2.1.4多头自注意力
2.2位置编码
2.3Transformer架构
2.3.1残差与正则化
2.3.2FFN
2.3.3编码器与解码器
第3章Transformer在自然语言处理中的应用
3.1编码器
3.1.1BERT
3.1.2BERT的改进模型
3.2解码器
3.2.1GPT
3.2.2GPT的演进
3.3编码器与解码器结合
3.4Prompt与Chain of Thought
3.5Scaling Law
第4章Transformer在计算机视觉中的应用
4.1图像分类
4.1.1Vision Transformer
4.1.2Swin Transformer
4.1.3MobileFormer
4.2图像分割
4.2.1SwinUnet
4.2.2SegFormer
4.2.3Mask2Former
4.2.4Segment Anything Model
4.3目标检测DETR
4.4基于卷积的视觉大模型
第5章基于视觉Transformer的自监督学习
5.1自监督学习基本概念
5.2对比学习
5.3生成式学习
5.4典型自监督架构
5.4.1SimCLR
5.4.2MoCo
5.4.3BYOL
5.4.4DINO
5.4.5iBOT
5.4.6DINO v2
第6章视觉Transformer的优化与训练技巧
6.1数据增强策略
6.2正则化技术
6.3知识蒸馏
6.4迁移学习
第7章Transformer模型的改进与发展
7.1Transformer的改进
7.1.1FlashAttention
7.1.2Longformer
7.1.3TransformerXL
7.2混合专家模型
7.2.1MoE模型定义
7.2.2MoE模型架构详解
7.2.3图像方面的应用
7.2.4技术挑战和未来发展方向
第8章未来在哪里
8.1Transformer未来发展趋势
8.2Transformer在视觉任务中的局限性
8.3未来研究方向展望
参考文献
