新闻

介绍 Sonilo v1.1

我们性能最强的视频转音乐模型

作者: Sonilo 团队
发布于: 2026年6月18日

Sonilo v1.0 证明了一个简单的理念：为视频配乐所需的信息本就存在于视频之中。v1.1 延续了这一根基，并为您承担更多的工作。它与您的画面对齐更加紧密，保留视频中已有的人声，并在您需要创意方向时，让您逐场景塑造配乐。您无需再生成一条曲目然后祈祷它合适，而是可以将一段保留了对白与结构的完整剪辑交给 Sonilo，放心地让它交付一首在每个剪辑点都精准落位的配乐。

在与 v1.0 的并排评测中，v1.1 在真实视频创作最具挑战的环节胜出。在我们为视频转音乐标注的四个维度——节奏对齐、情感契合、提示词遵循和音乐性上，评测者在 70 至 78% 的对比 中更偏好 v1.1 或认为两者相当，并且在表达偏好时，选择 v1.1 胜过 v1.0 的频率约为反向的 1.6 倍。

70–78%: 在全部四个视频转音乐维度上，对比中更偏好 v1.1 或认为其与 v1.0 相当的比例
1.6×: 当评测者表达偏好时，选择 v1.1 胜过 v1.0 的频率倍数
50 vs 30: 提示词遵循的偏好对比，v1.1 对 v1.0，这是我们测得的最大差距

听听这次升级

同一段素材，两个版本

相同的画面，分别由 v1.0 和 v1.1 配乐。点击播放可让两者同步运行，再点按某一侧即可一次比较一个版本的音乐。

v1.0

v1.1

两侧均以静音开始。取消一侧静音时，另一侧会被静音。

能力 01

更精准的音频对齐

对齐一直是 Sonilo 的核心，而在 v1.1 中它变得明显更加紧密。模型将节拍、铺垫和过渡锁定到您画面的节奏上，比 v1.0 更为精确，沿整条时间轴跟随每一处剪辑和能量变化，使音乐感觉像是为这段剪辑量身谱写，而非生硬叠加其上。它依然以自然的音乐性收尾来结束，而不是硬切或循环。

这些提升直接体现在评测中。上方的演示正是同样的改进——用耳朵听到，而非用数据测量。

在最能决定配乐是否与视频锁定的两个维度上，标注者更偏好 v1.1 或认为其与 v1.0 相当：节奏对齐为 78% 的对比，情感契合为 70%。

能力 02 · v1.1 全新功能

保留人声的生成

v1.1 全新推出的功能让 Sonilo 能够分离视频中的原始语音，并在全新生成的曲目之上将其完整保留。旁白、对白和镜头前的人声保持清晰、突出，全新的音乐在其下方铺垫，无需手动压低音量、重新录制或清理音频。

它专为那些必须保留原始人声的形式打造：vlog、访谈、广告、教程和短视频社交内容。

启用了"保留语音与人声"选项的 Sonilo 创作面板，可在保留人声的同时移除已有音乐。

能力 03 · v1.1 全新功能

分段级别的控制

对于希望精确把控方向的创作者，v1.1 让您可以切分时间轴，为每个分段指定独立的提示词，逐场景生成音乐。按段落引导风格、情绪和配器，并通过前奏、主歌、副歌、过渡段等标签直接塑造音乐结构。需要速度时使用自动配乐，需要意图时使用精细控制，且始终以视频作为出发点。

这正是 v1.1 提升最大的地方。在 提示词遵循上，标注者在 50% 的对比中更偏好 v1.1，而 v1.0 为 30%，这是我们测得的所有维度中最大的差距，也是全新分段级控制的直接成果。

Sonilo 分段提示词面板，其中 00:00 至 00:30 的前奏分段被提示为"配以刷扫鼓的爵士钢琴"。

正道而建

基于专业授权音乐构建

与 v1.0 一样，v1.1 生成的每一首配乐都是原创、可直接用于制作，并已获得商用许可，无需额外授权，无论用于社交内容、品牌视频、游戏还是广播。

大多数 AI 音乐工具将授权视为事后才考虑的问题，未经许可便在受版权保护的内容上进行训练。Sonilo 的构建方式与众不同。通过与 Shutterstock 等合作伙伴的协议，v1.1 在艺术家已同意并获得报酬的内容上训练，且每一次生成在送达您之前都会经过内容识别和审核检查。我们相信，行业无需在创新与诚信之间二选一，而 v1.1 正是为证明这一点而打造。

可用情况

正在陆续推出

sonilo.com

直接从您的视频生成配乐。

Sonilo API

面向开发者和平台的视频转音乐及文本转音乐接口，支持长达 600 秒的视频。

合作伙伴平台

现已在 Scenario 和 ComfyUI 上提供，并计划在今年余下时间内推出更多集成。