阿里通义 Fun-ASR1.5 语音识别大模型发布：精通 30 国语言及中文七大方言

IT之家 4 月 20 日消息，4 月 20 日（今天）下午，阿里通义实验室正式推出语音识别大模型 Fun-ASR1.5。其基于统一的大模型架构，单模型即可覆盖 30 种语言、汉语七大方言体系及 20+ 地方口音，古诗词吟诵也能精准转写。目前，Fun-ASR1.5 已在阿里云百炼平台正式上线，面向教育、传媒、金融、科技、文化等各行业客户提供 API 服务。阿里通义 Fun-ASR1.5 语音识别大模型发布：精通 30 国语言及中文七大方言休闲区蓝鸢梦想 - Www.slyday.coM 在一些“高难度”的跨语言切换（Code-Switching）场景下，它也能应对自如。比如，同一段对话里夹杂多种语言，模型也能准确识别，无需提前告诉它接下来要说哪种语言。Fun-ASR1.5 现在可以做到无需预设语种标签，就自动识别并切换，保证转写的准确性。据IT之家了解，该能力源于模型的架构和训练创新。MoE（混合专家）架构让模型内部可以分工协作，听到特定语言时仅激活相关部分进行处理，因而更为灵活高效。同时，在训练阶段分级、分阶段地使用精准数据，也让模型能更好地应对真实世界中的复杂语音情况。阿里通义 Fun-ASR1.5 语音识别大模型发布：精通 30 国语言及中文七大方言休闲区蓝鸢梦想 - Www.slyday.coM 在中文本土化方面，基于数十万小时真实方言语音数据的“喂养”，Fun-ASR1.5 的平均字错误率（CER）相比上一版本下降 56.2%。Fun-ASR1.5 可原汁原味还原方言，如上海话的“侬”、苏州话“倷”（均指“你”），为下游模型处理方言文字提供了准确的基础语料。阿里通义 Fun-ASR1.5 语音识别大模型发布：精通 30 国语言及中文七大方言休闲区蓝鸢梦想 - Www.slyday.coM Fun-ASR1.5 对中文古诗词识别进行专项优化。研究团队构建了先秦至近代的古诗词语音-文本对齐语料库，涵盖《诗经》《楚辞》、李白杜甫诗集、苏轼辛弃疾词作等经典文本的真人诵读录音。在内部评测集中，Fun-ASR1.5 对古诗词的字符级准确率达到 97%，可应用于国学在线课程和有声诗词，助力文化传承。模型还可以基于上下文语义自动插入逗号、句号、问号、感叹号等标点，使转写结果接近书面表达。例如输入语音：“今天天气怎么样啊我想出去走走但又怕下雨”，输出文本就是“今天天气怎么样啊？我想出去走走，但又怕下雨。”其还支持将口语中的非标准表达自动转换为规范格式：这些改进大幅降低了会议纪要、新闻采访整理、法律笔录等场景的后期人工校对和编辑成本。目前，用户可在阿里云百炼平台调用其 API，或在魔搭社区直接体验。
广告声明：文内含有的对外跳转链接（包括不限于超链接、二维码、口令等形式），用于传递更多信息，节省甄选时间，结果仅供参考，蓝鸢梦想所有文章均包含本声明。