通义实验室相关文章列表 - 蓝鸢梦想

阿里通义实验室发布 PrismAudio 视频生成音频框架：声画同频，音效随行

阿里通义实验室推出 PrismAudio 框架，采用强化学习与分解式思维链，解决视频生成环境音（如马蹄声、风雨声）的精准匹配问题。模型通过四位“老师”分别从语义、时序、美学、空间维度打分，确保声音与画面严丝合缝。该模型仅 5.18 亿参数，生成 9 秒音频仅需 0.63 秒，性能超越现有方法。#阿里 PrismAudio# #AI 音效生成#

0 78 0

通义实验室

微信扫一扫