谷歌第四代模型去编码器化多模态架构重大变革

2026-06-06 上海昱洛电气有限公司上海 1次浏览

当前绝大多数多模态人工智能系统仍沿用“接力赛”式的传统架构。以图像输入为例，数据需先经过视觉编码器（Vision Encoder）转换为语言模型可理解的格式，再传递给主系统；音频处理亦遵循类似路径，需经音频编码器中转。这种设计虽能运行，但本质上是对早期纯文本模型的临时补救，缺乏原生统一性。

去编码器化：从接力到直连的架构跃迁

谷歌近期推出的Gemma 4 12B模型彻底打破了这一惯例。该模型摒弃了传统的编码器模块，构建了一个庞大的统一Transformer主干网络（Backbone），直接处理文本、图像和音频三种输入类型。这一改变看似微小，实则代表了技术范式的重大转移。

在视觉处理方面，谷歌用极简的矩阵乘法、位置嵌入和归一化层取代了复杂的旧式编码器，使大型语言模型（LLM）主干能够自主完成视觉特征提取，这在以往模型中难以想象。而在音频处理上，改进更为激进：完全移除编码器，将原始音频直接投影至与文本Token相同的向量空间。这意味着 spoken words（口语）和 typed words（键入文字）以完全相同的方式进入模型，实现了真正的模态统一。

性能与效率的双重突破

编码技术不仅占用大量内存空间，还引入额外延迟并增加系统资源消耗，极大阻碍了本地部署。移除编码器后，Gemma 4 12B的总内存需求骤降至消费级笔记本电脑水平（16GB显存）。令人瞩目的是，尽管模型规模显著缩小，其性能表现却与参数量更大的260亿参数混合专家模型（MoE）极为接近。

这两款模型在跨模态推理能力（如视觉、听觉等多感官协同）上均展现出接近前沿水平的表现。更重要的是，它们无需依赖云服务，任何拥有普通笔记本电脑的用户均可本地运行。这一突破使得高质量多模态AI从云端走向终端成为可能。

架构 scalability 与未来挑战

Gemma 4的设计哲学基于一个核心假设：若主干网络足够强大以直接解析原始传感器数据，便无需专门的“翻译层”（即编码器）。所有智能均集中于主干层，而非分散于各个模块。这种设计在120亿参数规模下已被验证有效，但行业关注的焦点已转向其可扩展性——该架构能否在更大参数规模下保持优势？

随着模型规模突破120亿参数，这一架构可能带来洞察性的技术突破，也可能暴露出内在局限性。然而，无论底层架构如何演变，Gemma 4所证明的“看、听、推理”一体化能力，已足以引起行业高度关注。其性能表现持续验证了去编码器化路径的可行性，为多模态AI的轻量化部署提供了全新范式。

谷歌第四代模型去编码器化多模态架构重大变革

去编码器化：从接力到直连的架构跃迁

性能与效率的双重突破

架构 scalability 与未来挑战

供应商

公司新闻

相关资讯