新闻

介绍 Sonilo v1.1

我们性能最强的视频转音乐模型

作者
Sonilo 团队
发布于
查看 API 文档

Sonilo v1.0 证明了一个简单的理念:为视频配乐所需的信息本就存在于视频之中。v1.1 延续了这一根基,并为您承担更多的工作。它与您的画面对齐更加紧密,保留视频中已有的人声,并在您需要创意方向时,让您逐场景塑造配乐。您无需再生成一条曲目然后祈祷它合适,而是可以将一段保留了对白与结构的完整剪辑交给 Sonilo,放心地让它交付一首在每个剪辑点都精准落位的配乐。

在与 v1.0 的并排评测中,v1.1 在真实视频创作最具挑战的环节胜出。在我们为视频转音乐标注的四个维度——节奏对齐、情感契合、提示词遵循和音乐性上,评测者在 70 至 78% 的对比 中更偏好 v1.1 或认为两者相当,并且在表达偏好时,选择 v1.1 胜过 v1.0 的频率约为反向的 1.6 倍

70–78%
在全部四个视频转音乐维度上,对比中更偏好 v1.1 或认为其与 v1.0 相当的比例
1.6×
当评测者表达偏好时,选择 v1.1 胜过 v1.0 的频率倍数
50 vs 30
提示词遵循的偏好对比,v1.1 对 v1.0,这是我们测得的最大差距

听听这次升级

同一段素材,两个版本

相同的画面,分别由 v1.0 和 v1.1 配乐。点击播放可让两者同步运行,再点按某一侧即可一次比较一个版本的音乐。

v1.0
v1.1
两侧均以静音开始。取消一侧静音时,另一侧会被静音。

能力 01

更精准的音频对齐

对齐一直是 Sonilo 的核心,而在 v1.1 中它变得明显更加紧密。模型将节拍、铺垫和过渡锁定到您画面的节奏上,比 v1.0 更为精确,沿整条时间轴跟随每一处剪辑和能量变化,使音乐感觉像是为这段剪辑量身谱写,而非生硬叠加其上。它依然以自然的音乐性收尾来结束,而不是硬切或循环。

这些提升直接体现在评测中。上方的演示正是同样的改进——用耳朵听到,而非用数据测量。

在最能决定配乐是否与视频锁定的两个维度上,标注者更偏好 v1.1 或认为其与 v1.0 相当:节奏对齐为 78% 的对比情感契合为 70%

能力 02 · v1.1 全新功能

保留人声的生成

v1.1 全新推出的功能让 Sonilo 能够分离视频中的原始语音,并在全新生成的曲目之上将其完整保留。旁白、对白和镜头前的人声保持清晰、突出,全新的音乐在其下方铺垫,无需手动压低音量、重新录制或清理音频。

它专为那些必须保留原始人声的形式打造:vlog、访谈、广告、教程和短视频社交内容。

启用了"保留语音与人声"选项的 Sonilo 创作面板,可在保留人声的同时移除已有音乐。

能力 03 · v1.1 全新功能

分段级别的控制

对于希望精确把控方向的创作者,v1.1 让您可以切分时间轴,为每个分段指定独立的提示词,逐场景生成音乐。按段落引导风格、情绪和配器,并通过前奏、主歌、副歌、过渡段等标签直接塑造音乐结构。需要速度时使用自动配乐,需要意图时使用精细控制,且始终以视频作为出发点。

这正是 v1.1 提升最大的地方。在 提示词遵循上,标注者在 50% 的对比中更偏好 v1.1,而 v1.0 为 30%,这是我们测得的所有维度中最大的差距,也是全新分段级控制的直接成果。

Sonilo 分段提示词面板,其中 00:00 至 00:30 的前奏分段被提示为"配以刷扫鼓的爵士钢琴"。

正道而建

基于专业授权音乐构建

与 v1.0 一样,v1.1 生成的每一首配乐都是原创、可直接用于制作,并已获得商用许可,无需额外授权,无论用于社交内容、品牌视频、游戏还是广播。

大多数 AI 音乐工具将授权视为事后才考虑的问题,未经许可便在受版权保护的内容上进行训练。Sonilo 的构建方式与众不同。通过与 Shutterstock 等合作伙伴的协议,v1.1 在艺术家已同意并获得报酬的内容上训练,且每一次生成在送达您之前都会经过内容识别和审核检查。我们相信,行业无需在创新与诚信之间二选一,而 v1.1 正是为证明这一点而打造。

Shutterstock
ComfyUI
fal
WaveSpeed
Scenario

可用情况

正在陆续推出

sonilo.com

直接从您的视频生成配乐。

Sonilo API

面向开发者和平台的视频转音乐及文本转音乐接口,支持长达 600 秒的视频。

合作伙伴平台

现已在 Scenario 和 ComfyUI 上提供,并计划在今年余下时间内推出更多集成。

介绍 Sonilo v1.1 | Sonilo