休闲区 阿里通义实验室发布 PrismAudio 视频生成音频框架:声画同频,音效随行 阿里通义实验室推出 PrismAudio 框架,采用强化学习与分解式思维链,解决视频生成环境音(如马蹄声、风雨声)的精准匹配问题。模型通过四位“老师”分别从语义、时序、美学、空间维度打分,确保声音与画面严丝合缝。该模型仅 5.18 亿参数,生成 9 秒音频仅需 0.63 秒,性能超越现有方法。#阿里 PrismAudio# #AI 音效生成# 0 6 0 Share