多模态入门之VisionTransformer

奔跑的跳跳 2026-02-12 05:16:14
今天来学ViT,可以看做是现在众多视觉-语言大模型的基石技术。其核心思想就是——把图像当作一串tokens来处理。 本文目录如下: 1️⃣从CNN到ViT 2️⃣ViT的模型架构 3️⃣代码解析 4️⃣模型训练流程及实验结论 视频推荐看up主bryanyzhu的讲解,学术水平很高,讲解深入浅出的同时兼顾论文写作技巧。

0 阅读:0
奔跑的跳跳

奔跑的跳跳

感谢大家的关注