suno爆火没一个月，文生音乐(Music)的头把交椅就要换人了？

李子晨 2024-04-17 08:50 585

"suno爆火没一个月，文生音乐的头把交椅就要换人了？,这篇新闻报道详尽，内容丰富，非常值得一读。这篇报道的内容很有深度，让人看了之后有很多的感悟。作者对于这个话题做了深入的调查和研究，呈现了很多有价值的信息。 " 账号设置我的关注我的收藏申请的报道退出登录登录搜索36氪Auto数字时氪将来消费智能涌现将来城市启动Power on36氪出海36氪研究院潮生TIDE36氪企服点评36氪财经(Finance)职场bonus36碳后浪研究所暗涌Waves硬氪媒体品牌企业号企服点评36Kr研究院36Kr创新咨询企业服务核心服务城市之窗行政部门服务创投发布LP源计划VClubVClub投资机构库投资机构职位推介投资人认证投资人服务寻求报道36氪Pro创投氪堂企业入驻创业者服务创投平台首页快讯资讯推荐财经(Finance)科技(Technology)企服城市最新创投汽车(Car)AI创新直播视频专题活动搜索寻求报道我要入驻城市合作Suno爆火没一个月，文生音乐(Music)的头把交椅就要换人了？36氪的朋友(Friend)们·2024-04-12 15:39关注AI文生音乐(Music)吃鸡大赛正式开始

Suno爆火没一个月，文生音乐(Music)的头把交椅就迎来了新的挑战者——Udio。

几天前，知情人士透露说看到了一个比Suno强两倍的AI音乐(Music)产品演示，给了他自Sora之后的最大震撼。他认为靠着这个模型，AI音乐(Music)将席卷全球。

AI音乐(Music)已经席卷全球两次了。

2023年初，AI孙燕姿的出现让孙燕姿本人说出“人类无法超越AI”。

上个月，Suno的出现让音乐(Music)人们集体表示，低端编曲行业已经没有存在的必要了。

比Suno还要强两倍？那AI音乐(Music)的制作水位怕是要淹到知名制作人的脚面上了。

4月10日，这个会“改变音乐(Music)行业”的产品终于正式发布。到底能不能比Suno高两倍？

Udio，把生成式音乐(Music)带向录音棚水平

Udio想要称王靠的绝活就是“还原度”。

在进行(Carry Out)过一轮深入的比对后，Udio在音质还原方面确实完胜Suno的。不论是器乐还是人声，Udio都几乎达到了乱真的水平。

这就是它敢自称强上Suno两倍的底气。

过去的音乐(Music)生成软件也可以生成高达32kHz以上的音乐(Music)，但无论如何，它们(They)离真实音乐(Music)总隔着一点“合成味”，就算是Suno也逃不掉。但Udio基本上跨过了这道音质还原性的坎儿。

比如说，“合成味”经常表现在声音与声音之间的联系中，过去的音乐(Music)生成，音与音之间似乎总有个变化的桥，切割并不干脆。但Udio生成的音乐(Music)声音非常清晰。音与音之间的联系不像之前的音乐(Music)生成软件那么粘，切分清晰。

另一个“合成味”的重灾区在器乐音色上。过去的合成音乐(Music)中器乐带有一种合成未果的擦音，以及有点乌突秃的质感。但在Udio这里器乐上几乎完全没有了合成的音色，还原拟真达到了全新的高度。而且和弦更丰富，混响更饱满。

人声方面Udio的提升就更加明晰哪了。Suno的“合成味”是相当明显的，在一句的结尾可能开头都可能会留下失真的残影。但Udio的人声几乎达到了和11 Lab之类合成音一样的真实度。

除去音质还原这个最容易识别的差一点外，Udio在编曲的丰富度上也完全不输Suno，完全可以生成出多变的音乐(Music)发展部。

但Udio为什么能有这么好的效果，它在模型方面做了什么，我们(We)基本上一无所知。和Suno一样，没开源，没论文，甚至连个技术博客都没有。

作为挑战者的致命短板

Udio在声音特质上确实“遥遥领先”的。

但它也存在的“致命弱点”。这些弱点很可能会让Udio与C端流行无缘。

最要命的就是生成时间问题。

在腾讯科技(Technology)之前分析Suno成功(Success)的原因，将其定位在它能够理解乐曲的长结构上。它过往的产品默认生成片段和理解能力都限制在30s左右，因此根本没法理解到乐曲的结构，也形成不了完整的乐曲。

但Udio的默认生成长度也仅有33秒。这与Suno默认的生成长度就在1分半以上差了三倍。在它自己的产品介绍里，这大概是6句歌词的长度。这能够用？

所以Udio是不是和它的前辈一样，理解不了乐曲的结构？

并不是。Udio提供了延展生成的选项。过去的AI音乐(Music)生成的延展可能只是接着生成，而非按照结构去生成，因为它们(They)理解不了结构。与它们(They)不同，在Udio的延展中，你可以选择延展段落是在结构中的什么部分，可以延展出引子、结尾，从而生成成具有完整结构的乐曲。

这说明Udio其实是可以理解整个乐曲的结构的。

我用《谢天谢帝》做了个尝试，它的延展做的非常完美，保持了曲风的一致性，且理解了乐曲的结构，正确的做出了引子。

然而这个步骤其实相当复杂。想要形成一首完整乐曲，你至少得对同一首乐曲延展2次，加个开头和结尾，每次都需要再单独生成。

更要命的是，它生成的时间相当死板，33秒的默认生成长度，你想延长也是又一个33秒。每次延长都是固定的时长。这对于自定义歌词的模式来讲非常的不友好。歌词长了，放不下，歌词短了，就像上面的例子一样，Udio可能会自动给你用生成的歌词把空填上。而且更糟糕的是，如果你写的歌词是中文的话，因为Udio的中文生成支持有限，它只能生成一些莫名其妙的呢喃。

我其实并不理解Udio如此设置的逻辑，哪怕是按歌词长度适应性生成也远好过目前(Currently)这种方式。

这个短板会让创作被限制到完全不自由的程度。你得按音乐(Music)速度自己算出需要多少句歌词，然后再去填词。

好好的一键生成的快乐(Happiness)游戏(Game)变成写律诗了。

其次是产品。

Udio的产品界面和Suno高度相似。边栏都分为探索广场/ 我的创作 / 喜欢的音乐(Music)库三个部分，在上部直接输入Prompt就可以生成音乐(Music)。

但问题出在创作栏上。

在你生成音乐(Music)的过程中，会出现下拉菜单，有三个比较重点的功能。

最上面有个开关，是“手动模式”，根据其介绍，手动模式下Udio会严格按照你的Prompt去产出乐曲。如果不打开这个选项，模型会自动把你的指使翻译润色一遍后再生成。

中间，你可以选择音乐(Music)的类型，不让它因为对你Prompt的错误理解而跑的太偏。

下面是三种歌词方面的选项，包括“自定义歌词”，“纯器乐”和“自动生成”三种选择，选择自定义歌词的话会有下拉框可以填入歌词。

横置的Prompt窗口，过分压缩的功能界面。这一切都会让用户产生一种堆积感，让你觉得填不了什么东西进去。

而在Suno中，只要你进入了创作界面里，创作信息在左栏，栏目本身也提供了足够上下两行的文字框，压缩感一下就降低了。但在Udio这里，就算进入了创作页面，其创作栏永远在上面，还是一样的缺乏延伸的体验。这会大大打压创作者的输入积极性。

而一个明显定位toC的创意性产品，能不能让用户有创作欲望才是核心的胜负手。

核心团队全部来自谷歌的期货项目

Udio背后的公司是去年十二月才成立的。它的核心成员有David Ding, Conor Durkan, Charlie Nash, Yaroslav Ganin, Andrew Sanchez，全部都是从谷歌Deepmind出来创业的。

这四名研究员并非业界赫赫有名的大腕，但这家公司一经初创就拿到了包括a16z和Instagram CTO Mike Krieger等硅谷大佬的投资。Krieger还说了一段褒扬团队的话：“这些技术型的合伙人是那种可以很务实的人，因为我们(We)的进展一直非常快。”

这是肯定的。因为这个公司创始的三名核心技术人员，包括CEO David Ding在内，在出走谷歌之前，都曾经为谷歌最新的AI音乐(Music)生成软件Lyria做出了重要的研究贡献。

（Lyria项目的声明和致谢部分）

（谷歌lyria项目博客页）

Lyria这个产品在去年11月份谷歌初次发布的时候就引发了相当的轰动。它对音色的还原水平是当时所有其他音乐(Music)生成AI望尘莫及的。尤其是人声还原，水平相当惊艳。就算是与Udio相比，差异也并不太明显。

这时候距离Suno出世还有4个月的时候。大家都觉得这个生成应用的完成度确实足以“改变音乐(Music)的将来”。

谷歌制定了雄心勃勃的计划，打算把它整合进Youtube里，作为短视频(Short Video)免版权配乐生产工具，并给它起名叫Dream Track。

但实际上，到今天(Today)为止，你在Youtube上都用不到它。这款工具只在1-2月份非常少量的开放给了一小群Youtube上的创作者，从来没有批量放开过。

谷歌小心翼翼的试用，不敢放开迎来的后果就是Suno从天而降。自己手上这张本可能被视为音乐(Music)领域的Sora的牌，响不了了。

而且从Udio的表现来看，我们(We)也知道，它本是可以响的。

这不禁让我们(We)想起当年谷歌本来作为行业领先者，Transformer模型的提出者。明明手头都有功能类似ChatGPT 的AI CahtBot，就是担心舆论不敢发布。最终被OpenAI划了时代，自己成了紧追的后来者。

而这个习惯，到了2023年也没怎么改。谷歌的AI部门还是一直发论文，但三四个月后才给产品、放模型。那些让人眼馋的新功能、尖模型最后都是期货。

Udio今天(Today)的发布，又让我们(We)再次确认：谷歌如果会在AI时代被埋葬，那就是因为他天天只发期货。

强的理由，也是Udio的阿喀琉斯之踵

不过，谷歌一直按而不发Lyria，也许也是迫不得已。因为它可能解决不了训练模型的版权问题。

过往OpenAI的成功(Success)，就是一直在证明着Scaling Law的有效性。更多的数据，更大参数的模型=更好的效果。

Suno和Udio突然突破过往AI文生音乐(Music)的各种瓶颈，一方面是依靠着模型上的进步。但能够达成跨越性的突破，海量的数据是跨不过的坎。

在之前文章中分析Suno的技术突破时，我就提到更多的训练素材也许就是这一突破的关键。过往的文生音乐(Music)模型中，谷歌，OpenAI和Meta给出的有版权的训练库集中都只有大概30万小时以内的音乐(Music)，也就是150万首歌左右。

然而可用的音乐(Music)有多少?根据Music Business Worldwide的统计，在2022年年底，Apple Music确认曲库就拥有超过1亿首歌曲。当年，环球音乐(Music)集团首席执行官兼董事长卢西恩·格兰奇（Grainge）在新加坡举行的“Music Matters”论坛上透露，每天大约有10万首新歌曲被上传到音乐(Music)流媒体平台上。150万首，不过是可用音乐(Music)的沧海一粟而已。

Suno虽然现在还没有被抓包，有明确的利用(Use)音乐(Music)家声音的情况。但才发出两天，Udio就已经被发现有相当多的可疑歌声了。

在滚石杂志的相关文章中，他们(They)确认Udio生成的音乐(Music)中有用Tom Petty声音合成的演唱。Twitter上也有网有发现类似约翰·列侬嗓音的生成歌曲。

（一位专注AI音乐(Music)的开发者就质疑其中一首生成歌曲和知名Rapper Common的声线重合度99%）

在这一点上，Udio的CEO也心知肚明。

在接受MusicAlly的采访时，David Ding在回答其数据来源问题时表示“对于语言模型和图像模型，事实已经证明，要获得高质量的输出，您必须对大量高质量的输入进行(Carry Out)训练。“但显然，这里的目标不是复制披头士乐队可能类似的东西。如果我想重现披头士乐队，我可以直接听披头士乐队的歌”。

不是复制但用了是吧？

（OpenAI CTO米拉·穆拉蒂在接受WSJ访谈时，被问及Sora训练内容源时的经典尴尬表情）

看到有点走偏，另一个联创Sanchez赶紧补充说到“这就是为什么我们(We)有非常强大的艺术家过滤器和版权重点，以确保我们(We)不会反刍出任何版权音乐(Music)。”

但是你训练用了也不行啊。最近环球音乐(Music)还有Concord都加入了一项名为”公平训练“的音乐(Music)家项目，就是呼吁在未经允许的情况下，禁止利用(Use)音乐(Music)家的版权内容进行(Carry Out)训练。这在音乐(Music)家群体内部基本上也是共识。

不同于文字可能者视频领域存在着诸多模糊的版权界限。音乐(Music)领域的版权墙一直都是最高的，基本上所有音乐(Music)都有着相应的版权，从编曲到歌手的声音无所不包，而且这些版权都有具体的唱片公司维护。作为以内容为核心资产的公司，他们(They)都有着极强的诉讼能力。

这也是谷歌就算手握Youtube Music的版权库，也不敢用它去训练AI。就算Lyria真的用了，它也不敢放出来的核心原因。

所以也许Udio在登顶文生音乐(Music)之前，就得绊倒在版权上。

本文来自微信公众号“腾讯科技(Technology)”（ID:qqtech），作者：郝博阳，36氪经授权发布。

该文观点仅代表作者本人，36氪平台仅提供信息存储空间服务。

+14

好文章，需要你的鼓励

36氪的朋友(Friend)们特邀作者2收藏+10评论打开微信“扫一扫”，打开网页后点击屏幕右上角分享按钮微博沉浸阅读返回顶部参与评论评论千万条，友善第一条登录后参与讨论(Discuss)提交评论0/1000你可能也喜欢这些文章深访硅谷一个月后，一位投资人发问：大模型持续烧钱最后由谁买单？李彦宏还缺个Sora走进 AI 高薪族：小而美团队成主流，博士生招聘需求飙升 430%给AI当“奶妈”，是天涯们的生路吗？山姆·奥特曼跻身“十亿级”富豪榜：身家超20亿美元，不含OpenAI股份(Stock)谷歌、OpenAI、Mistral 在24小时内打响科技(Technology)界“三强争霸赛”大模型加持后，数字人“更像人”了吗？李彦宏最新内部讲话：开源大模型不如闭源，后者会持续领先刚刚，ChatGPT 大更新， GPT-4 今天(Today)开始又变聪明了最新文章推荐深访硅谷一个月后，一位投资人发问：大模型持续烧钱最后由谁买单？祖国电商巨头在国外市场遭挑刺，是否会影响业务发展？工信部：加快重点行业智能升级李彦宏还缺个Sora走进 AI 高薪族：小而美团队成主流，博士生招聘需求飙升 430%离开百度7年后，吴恩达终于大厂“再就业”：加入亚马逊董事会，帮其达成AI大志遇到不合作的同事，7个方法帮你化解数字化风口里的「中科仙络」，专科生的就业新宠？｜春季招聘报道高管带头降薪，银行也要过“紧日子”院士排队IPO，从夫妻店到二代掌权，他家身价可能超40亿

36氪的朋友(Friend)们特邀作者

作者有点忙，还没写简介

发表文章38640篇最近内容深访硅谷一个月后，一位投资人发问：大模型持续烧钱最后由谁买单？1分钟前工信部：加快重点行业智能升级4分钟前全球最吸金的10位科技(Technology)富豪：扎克伯格身家暴涨1130亿美元18分钟前阅读更多内容，狠戳这里下一篇给AI当“奶妈”，是天涯们的生路吗？

米国同行已经大赚数十亿美元。

21分钟前

热门标签智能投顾理财平台金百万烤鸭邓超全聚德互联网产业联想电脑(Computer)喜剧片博纳影业漫画国庆节松鼠新天津树袋熊供应链彭博数据新闻(News)交易员玛莎百货第二杯bitfinex数字货币货币ios11矿机瑞波币日本(Japan)货币xrp软件关于36氪城市合作寻求报道我要入驻投资者关系商务合作关于我们(We)联系我们(We)加入我们(We)网站谣言信息举报入口热门推荐热门资讯热门产品文章标签快讯标签合作伙伴