谷歌这波像开了「大小号双修」:前脚用 Gemini 把大模型战场搅翻,后脚甩出两位端侧「师兄弟」:一个走复古硬核架构回归,一个专职教 AI「别光会聊,赶紧去干活」。手机里的智能体中枢,要开始卷起来了。谷歌是真的底蕴深厚啊~刚刚在「大模型」领域用 Gemini 3 Pro➕Flash 重挫了 OpenAI 锐气后,马不停蹄继续在端侧「小模型」发力!昨天夜里,一口气又放出新的两个技术博客,全是和端侧相关的。一个是 T5Gemma 2,一个专门的底层架构创新,首个多模态长上下文码器-解码器模型开源,最小是 270M–270M。另一个是 FunctionGemma,专为函数调用优化的 270M(2.7 亿参数)模型,可在手机、浏览器及其他设备上运行。
T5Gemma 2 和 FunctionGemma 都来自 Gemma 3 家族,相对于 Gemini 这种「大模型」,Gemma 就是「小模型」。这两个虽然都是小模型,但是他们的关系有点类似同门师兄弟,但专攻方向不同。T5Gemma 2 专注于架构效率与多模态(Encoder-Decoder 架构回归)。而 FunctionGemma 专注于智能体与工具使用(Function Calling 能力)。T5Gemma 2 和现在流行的 LLM 的架构不同,可以理解为 AI 技术领域「另一条路」。
论文地址:https://arxiv.org/ pdf/2512.14856谷歌开源了 T5Gemma 2:270M–270M、1B–1B 以及 4B–4B 三种规模的预训练模型。
开源地址:https://huggingface.co/ collections / google/t5gemma-2FunctionGemma 则是技能变体,它是对模型「技能」的专项训练。有点类似把一个大模型里所有知识类的能力都剥离掉,只保留针对性的函数调用功能。
开源地址:https://blog.google/technology/developers/functiongemma/先看下 T5Gemma 2 这种「新结构」的优势:
与 T5Gemma 类似,T5Gemma 2 在预训练阶段的性能或超过 Gemma 3 对应体量模型,而在后训练阶段则取得了显著更优的表现。
左右滑动查看
想要理解为什么谷歌要搞 T5Gemma,就需要看看目前大模型技术路线演变的核心脉络。T5Gemma 算得上是大模型领域的「古典主义复兴」。在当今 GPT、Llama 等 Decoder-only(仅解码器)架构占主导的时代,T5Gemma 2 是对经典 Transformer 架构中 Encoder-Decoder(编码器-解码器)路线的回归与现代化改造。我们现在熟知的 GPT、Gemini、DeepSeek 都是 Decoder-only(仅解码器)架构。目前叫得上名字的、用来「聊天」的超级模型,几乎清一色全是 Decoder-only。为什么说 T5Gemma 2 是「回归」?这就要说到 Transformer 的分家史。要理解「回归」,得先看它们当初是怎么「分家」的。2017 年谷歌发布《Attention Is All You Need》论文提出 Transformer 时,祖师爷原本是 Encoder-Decoder(编码器-解码器)全套架构。但后来,家族分成了三个流派:流派 A:Encoder-only(只用编码器)代表人物:BERT。特长:只能「读」,不能「写」。它极其擅长做选择题、分类、情感分析,但你让它写作文,它憋不出来。流派 B:Decoder-only(只用解码器)代表人物:GPT。特长:只能「猜下一个字」。虽然它看上文不如 Encoder 那么全面(只能看左边,不能看右边),但它天生会说话,而且人们发现只要把这玩意儿做得足够大,它居然产生了智能(涌现)。也就是「意外的」开启了我们这个 AI 时代(笑。流派 C:Encoder-Decoder(全套保留)代表人物:T5(谷歌),BART。特长:既能读又能写。也就是现在的 T5Gemma 2 所在的流派。T5 的全称是 Text-to-Text Transfer Transformer,连着 5 个 T,所以叫 T5。那为什么 Decoder-only(GPT 流派)后来一统天下了?
广告声明:文内含有的对外跳转链接(包括不限于超链接、二维码、口令等形式),用于传递更多信息,节省甄选时间,结果仅供参考,蓝鸢梦想所有文章均包含本声明。
