小米发布 MiMo-V2.5-TTS / ASR 语音大模型：通过自然语言调度声音表现

IT之家 4 月 24 日消息，小米今日正式发布 MiMo-V2.5-TTS Series 与 MiMo-V2.5-ASR —— 一套面向 Agent 时代的全链路语音模型系列，覆盖识别与合成两大核心能力，让语音的输入与输出都可以被语言自由调度。小米发布 MiMo-V2.5-TTS / ASR 语音大模型：通过自然语言调度声音表现休闲区蓝鸢梦想 - Www.slyday.coM IT之家从官方介绍获悉，MiMo-V2.5-TTS Series 包含三款模型，现已登陆小米 MiMo 开放平台，并且限时免费。三者共享统一的风格指令遵循、音频标签控制与文本理解能力，让声音表现可以被语言精细调度，分别覆盖三种典型创作需求：精准的风格指令遵循能力从简短的单句指令，到一整份导演笔记，模型都能稳定理解并遵循，覆盖情绪、语气、语速、发声方式、语言风格等多个维度。指令不必写成结构化参数 —— 像给演员说戏一样把想要的感觉描述出来，模型就会落到对应的演绎之中。对于一致性要求更高的场景 —— 有声剧、游戏 NPC、角色化对话等 —— 模型还支持导演剧本级的结构化输入：把人物、场景、详细指导分层描述，各层按自己的节奏独立更新、自由组合。这种分层既让角色的音色身份贯穿始终，也让每一句话的表演都能被单独控制。除了段落级的自然语言指令，模型还支持行内音频标签，用于在文本特定位置精准控制情绪、状态或风格。标签支持中英双语和开放文本描述，允许在同一段文本中灵活混用。从简单的情感标注，到多标签叠加、细粒度排布的复杂编排，模型都能稳定表达，在标签的表达力和组合稳定性上均有出色表现。即便没有任何 prompt，也没有任何标签 —— 就是一段最普通的文本 —— 模型也能直接表现出其中的韵律与情感。标点的停顿、句式的起伏，会被自然呈现；文本中暗藏的情感弧线，从平静叙述到激烈转折，模型能主动捕捉；甚至连字里行间透露出的说话人身份（年龄、气质、角色类型），也会自动落到声音里。换句话说：最朴素的纯文本，交给它，也能还你一段有血有肉的演绎。如果说 TTS 是在“输出”端让声音成为创作工具，那么 ASR 就是在“输入”端为这一切打开大门。在真实场景下，语种切换、背景噪声、说话人带着浓重的方言口音，在这样的环境里还能听清、听准，才是真正好用的语音识别。MiMo-V2.5-ASR 作为全链路语音模型系列的听觉基座，在中英双语、中文方言、Code-Switch、强噪音、多说话人、高知识密度等复杂真实场景下均达到业界领先水平。它不只是为了把清晰的语音转成文字，更是让 Agent 在嘈杂的真实声音里，抓住每一个值得被理解的字词。MiMo-V2.5-ASR 在中英文通用、中文方言、Code-Switch 及歌词识别等多个维度上均取得当前最优或极具竞争力的结果，展现出跨场景、跨语种的稳定优势。以下为代表性评测结果：小米发布 MiMo-V2.5-TTS / ASR 语音大模型：通过自然语言调度声音表现休闲区蓝鸢梦想 - Www.slyday.coM MiMo-V2.5-TTS、MiMo-V2.5-TTS-VoiceDesign、MiMo-V2.5-TTS-VoiceClone 均在 Xiaomi MiMo API 开放平台限时免费，同时，用户可以到 Xiaomi MiMo Studio 进行快速体验。MiMo-V2.5-ASR 目前已开源模型权重和代码，支持开发者和研究者直接使用或二次开发。小米发布 MiMo-V2.5-TTS / ASR 语音大模型：通过自然语言调度声音表现休闲区蓝鸢梦想 - Www.slyday.coM 参考
广告声明：文内含有的对外跳转链接（包括不限于超链接、二维码、口令等形式），用于传递更多信息，节省甄选时间，结果仅供参考，蓝鸢梦想所有文章均包含本声明。

相关文章

中国移动“天通 + 北斗”双星通信服务在全国上线，31 款机型已支持

英特尔 2026Q1 营收 136 亿美元，同比增 7%；调整后 EPS 0.29 美元，同比增 123%

相关文章

中国移动“天通 + 北斗”双星通信服务在全国上线，31 款机型已支持

英特尔 2026Q1 营收 136 亿美元，同比增 7%；调整后 EPS 0.29 美元，同比增 123%

相关推荐

微信扫一扫