多模态大模型的位置编码:MRoPE

奔跑的跳跳 2026-02-15 00:14:00
从纯文本迈向多模态,最大的挑战之一是如何在 Transformer 的线性序列中,保留图像的二维空间结构与视频的三维时序信息。若简单地沿用 1D 位置编码,图像 Patch 在展平后会丢失关键的空间关联(如垂直相邻关系),视频帧之间的时空逻辑也难以被单一维度捕捉。 为此,Qwen2-VL 提出了 M-RoPE,一种通用的 3D 旋转位置编码方案。它将位置信息拆解为 Time、Height、Width 三个正交维度,让模型能同时感知序列的先后与空间的时空坐标。 本文将以原理演进 + 源码拆解为主线,按以下逻辑展开解析: 先从基础的 1D RoPE 切入,回顾文本位置编码的数学原理; 再拓展至 2D RoPE,说明图像空间结构的编码方法; 随后核心讲解 M-RoPE 如何通过新增时间维度实现多模态统一编码; 而 position_ids 作为贯穿各类 RoPE 编码的关键输入,将在 1D、2D RoPE 原理铺垫后提前拆解,为后续 M-RoPE 的深入理解奠定基础,最终完整呈现这一让 LLM 精准捕捉多模态位置信息的核心机制。

0 阅读:0
奔跑的跳跳

奔跑的跳跳

感谢大家的关注