腾讯混元开源端到端 AI 模型 Hunyuan-Foley：视频 + 文字 =“电影级”音效

IT之家 8 月 28 日消息，腾讯混元今天午间宣布开源端到端视频音效生成模型 Hunyuan-Foley，用户只需输入视频和文字，就能为视频匹配电影级音效。根据官方介绍，HunyuanVideo-Foley 不仅打破了 AI 生成的视频只能“看”不能“听” 的局限，让无声 AI 视频成为历史，更是真正做到了“看懂画面、读懂文字、配准声音”，带来沉浸式视听体验。这款音效生成工具可广泛应用于短视频创作、电影制作、广告创意和游戏开发等场景。文字描述：Engine revving loudly and accelerating. 文本描述：Rustling and crunching of leaves and twigs under the fox kit's paws. 混元团队开发了一个全面的数据处理管道，能够自动化标注和过滤收集的音视频数据，构建了约 10 万小时级的高质量 TV2A 数据集，为模型训练提供了强大支撑，使得模型拥有强大的泛化能力，能够在各种复杂的视频条件下生成音画一致、语义对齐的高质量音频，包括音效与背景音乐。生成的音频能够与无声视频相结合，极大提升了视频的真实感和沉浸感。IT之家附有关链接如下：
广告声明：文内含有的对外跳转链接（包括不限于超链接、二维码、口令等形式），用于传递更多信息，节省甄选时间，结果仅供参考，蓝鸢梦想所有文章均包含本声明。

标签：#人工智能 #腾讯 #腾讯混元 #音效生成模型