谷歌第四代模型去编码器化多模态架构重大变革
当前绝大多数多模态人工智能系统仍沿用“接力赛”式的传统架构。以图像输入为例,数据需先经过视觉编码器(Vision Encoder)转换为语言模型可理解的格式,再传递给主系统;音频处理亦遵循类似路径,需经音频编码器中转。这种设计虽能运行,但本质上是对早期纯文本模型的临时补救,缺乏原生统一性。
去编码器化:从接力到直连的架构跃迁
谷歌近期推出的Gemma 4 12B模型彻底打破了这一惯例。该模型摒弃了传统的编码器模块,构建了一个庞大的统一Transformer主干网络(Backbone),直接处理文本、图像和音频三种输入类型。这一改变看似微小,实则代表了技术范式的重大转移。
在视觉处理方面,谷歌用极简的矩阵乘法、位置嵌入和归一化层取代了复杂的旧式编码器,使大型语言模型(LLM)主干能够自主完成视觉特征提取,这在以往模型中难以想象。而在音频处理上,改进更为激进:完全移除编码器,将原始音频直接投影至与文本Token相同的向量空间。这意味着 spoken words(口语)和 typed words(键入文字)以完全相同的方式进入模型,实现了真正的模态统一。
性能与效率的双重突破
编码技术不仅占用大量内存空间,还引入额外延迟并增加系统资源消耗,极大阻碍了本地部署。移除编码器后,Gemma 4 12B的总内存需求骤降至消费级笔记本电脑水平(16GB显存)。令人瞩目的是,尽管模型规模显著缩小,其性能表现却与参数量更大的260亿参数混合专家模型(MoE)极为接近。
这两款模型在跨模态推理能力(如视觉、听觉等多感官协同)上均展现出接近前沿水平的表现。更重要的是,它们无需依赖云服务,任何拥有普通笔记本电脑的用户均可本地运行。这一突破使得高质量多模态AI从云端走向终端成为可能。
架构 scalability 与未来挑战
Gemma 4的设计哲学基于一个核心假设:若主干网络足够强大以直接解析原始传感器数据,便无需专门的“翻译层”(即编码器)。所有智能均集中于主干层,而非分散于各个模块。这种设计在120亿参数规模下已被验证有效,但行业关注的焦点已转向其可扩展性——该架构能否在更大参数规模下保持优势?
随着模型规模突破120亿参数,这一架构可能带来洞察性的技术突破,也可能暴露出内在局限性。然而,无论底层架构如何演变,Gemma 4所证明的“看、听、推理”一体化能力,已足以引起行业高度关注。其性能表现持续验证了去编码器化路径的可行性,为多模态AI的轻量化部署提供了全新范式。