国内首款AI音乐大模型封神！核心技术行业首次公开，周杰伦爆改霉效果惊人

新闻公告

国内首款AI音乐大模型封神！核心技术行业首次公开，周杰伦爆改霉效果惊人

发布时间：2024-04-11 15:22:43

声明：本文来源于微信公众号新智元（ID:AI_era），作者：新智元，授权站长之家转载发布。

【新智元导读】国内首个音乐ChatGPT来了！提前试用「天工SkyMusiccicccicccicsicicicky」之后整个编辑部风暴哭泣:改编自周杰伦和凤凰传奇的简直封神。团队选择了一条很少有人走的路，他们赌赢了:Sora架构比OpenAI早，首次技术图在行业内公开。

Suno给出了最近几周的震撼。

重磅升级的Suno V3，不断刷屏全网的「神曲」诞生，让全世界疯狂。

谁能想到音乐的ChatGPT时刻就这样来了？

圈内大家都在讨论:这波音乐产业可能会被AI一锅端。

国内首款音乐AI来了！

不，就在上周，国内，首款AI音乐生成大模型「天工SkyMusiccicccicccicsicicicky」内部测试也正式开启！

各路「大神」已经开始在首页秀创作了。

没有灵感怎么办？产品页面甚至为你配备了灵感话题。

试玩后，小编又体会到了Suno当初给人的惊艳感。

第一次体验：一秒梦回到80年代，人声以假乱真

例如，这首歌《古韵悠长》，清亮的女声一开口，瞬间梦回80年代，就是我妈跳广场舞的感觉。

这首歌《爱是幸福》更容易让小编惊呆。旋律朗朗上口，歌词有意义，回味无穷。听起来像蔡健雅。

除了歌曲的整体音乐质量很高，很有欣赏价值，「天工SkyMusiccicccicccicsicicicky」的最大其中一个亮点是它清晰逼真的人声。

人声合成是人工智能音乐生成中最重要、最能反映生成效果和质量的维度。

而「天工SkyMusiccicccicccicsicicicky」人工智能人声合成可以产生中文水平极高、歌声发音清晰，音质优良，演唱效果逼真，已达到行业SOTA水平！

在这方面，「天工SkyMusiccicccicccicsicicicky」但是爆杀了几个外国大模型。他们的中文发音简直可怕。

比如Suno的《宫保鸡丁》，唱中文歌也是外国人说中文的味道。

可见，要想做中文歌，还得看自己的音乐大模型！

可控性、音乐家的专业指标

接下来，我们将得到一些专业指标。

歌词段落

为什么一首歌能爆红？全网，火遍大江南北

从流行音乐的角度来看，它需要强烈的旋律、鲜明的节奏、丰富多彩的和声和激情。

因此，要想创作出一首抓耳的流行歌曲，不同歌词段落之间微妙的情感变化是一个关键点。

而「天工SkyMusiccicccicccicsicicicky」在这方面，特别擅长——

它可以通过歌词来控制歌曲，反映主歌和合唱、前奏和主歌的段落差异。

比如这首《龙行》，开头悠扬的女声民歌和激昂的男女对唱形成了鲜明的对比，一首壮丽的国风歌曲自然而然。

风格

在风格控制方面，可以参考指定的音频，学习特定的音乐风格。

它创作的《飞鸟》听起来很像学习了许巍的民谣风格。

自动前奏、间奏、尾奏

音乐制作人经常面临的一个问题是，他们有合适的歌曲，但缺乏前奏和尾奏，他们绞尽脑汁找不到合适的歌曲。

这时，就可以找到了「天工SkyMusiccicccicccicsicicicky」帮忙。它补充了这首完整的歌。《Guitar》，慵懒随意的唱腔搭配恰到好处，听起来很治愈。

和声

根据歌词的描述，「天工SkyMusiccicccicccicsicicicky」和声自动添加到这首《水调歌头》中。

几个男声的和声与主唱的音色非常吻合，再加上节奏鲜明的鼓点，一首旋律激昂的国风《水调歌头》诞生了。

歌词技巧

此外，模型还可以参考音频的特点，智能地学习歌唱技巧。

比如这首歌剧版的《我的滑板鞋》，演绎出不同的风味。

王者荣耀，周杰伦，凤凰传奇，你想要的都有

如何将流行icon与流行音乐融为一体？如果你找到了敲击公众心弦的正确点，抖音神曲并不难。

「天工SkyMusiccicccicccicsicicicky」，让这一切都成为可能。

输入有结构的歌词+参考音频，你可以自己玩王者荣耀的经历写了一首歌:「我真的很生气，skr skr~」

我今天打开王者荣耀选赵云
开始后，无论我走到哪里，我都被炸死了
我真的很生气，只能躲在草丛里

或者，我们也可以根据现有的歌词进行二创。

比如输入《彩虹》的歌词，录制一段《最长的电影》主歌和合唱30s的音频作为参考，两首歌「生出」一首新歌诞生了：

听得出来，有些旋律还是值得称赞的。

再用蕾哈娜的《Diamonds》用霉霉维密秀震撼神曲的词，《See You Again》试试?

出来的「混血」女声英文歌是这样的:

AI版Diamonds，新智元，54秒

唱腔控音极好，高低音转换流畅，其中几句的转音相当神奇，值得细品。人类作曲家似乎很少听到这样的声音。「鬼才」旋律组合，这就是人工智能的巧思。

而且很神奇的是，这首歌的歌声突然变得像蕾哈娜，与发霉的声音不相似。

接下来，让我们来改变凤凰传说中最耀眼的民族风格。然而，与刚才不同的是，这次我们输入了原创歌词和原创歌曲，让它自我满足「整改」一下。

是广场舞神曲的另一种感觉。

不仅如此，我们甚至可以在几分钟内把突如其来的热点事件变成爆款潜力股。

说唱版热梗「机械高速运转」了解一下:

那么，「天工SkyMusiccicccicccicsicicicky」怎样才能达到如此惊艳的效果？

为此，我们最近特意找到了创业团队的大佬聊天。

走很少有人走的路

MIDI or 音频破釜沉舟

我相信每个人心里都有一个问题：为什么以前没有好的音乐人工智能，最近才聚在一起？

当然是因为它很难！

好的AI音乐很难做，一个原因之一是之前主流的符号派（MIDI）技术效果太差；另一个原因是，过去的音乐人工智能基本上是在无声的BGM领域。有声音的Song要么做不到，要么效果很差。

不言而喻，一首歌有人声和无人声的吸引力有多大的不同。

具体来说，人工智能音乐生成有符号派和大模型派两个主要技术路径。

MIDI是符号派的主流。MIDI全称Musicall。 Instrument Digital Interface，它本身不包含音频文件，而是记录音乐演奏的指令，如播放哪个音符、音量、音符持续时间等。

因为歌曲不能直接生成，所以后期需要添加乐器、旋律、音色和人声。

第二条大型音乐音频生成路线可以直接学习和生成音频波形。乐器、声音、旋律、音量和音符是一体化的端到端生成。

符号（MIDI）学术界有很多研究方向，但效果很差；大模型音频方向极其困难，很少。

面对两条路线，选哪一条？

项目成立之初，公司内部就面临着这种艰难的选择。前者效果不好，后者很可能做不到，整个项目鸡飞蛋打。

最后，「天工SkyMusiccicccicccicsicicicky」经过投票，R&D团队一致决定选择音频方案。公认的是，我们宁愿冒巨大的风险，也不愿做出真正好的AI音乐。

幸运的是，他们成功了。

注意，下面你看到的这张图，可谓价值连城。

SkyMusic核心技术架构

因为目前市场上还没有可用的AI音乐大型企业公开了自己的技术路径，包括Suno。

ChatGPT出来后，LLM百花齐放，因为有无数的开源项目可供参考。

然而，没有公共信息可以参考音频路线+人声Song路线。天宫投入了无数的研发资源和算力算法投资，探索了上述极其宝贵的路径图。

该踩的坑，团队已经提前踩过了，现在这个可复制的方案，也是他们慷慨贡献的。

巧合的是，尽管最终的框架与Sora相似，但Sora在研发过程中还没有诞生。

只能说英雄所见略同。

谈一谈音乐

类Sora架构中，Large-scale Transformer负责谱曲，通过学习Musicc Patches的上下文依靠关系来控制音乐结构和风格。

这样，对风格的控制就完全实现了。

Diffusion Transformer负责演唱，即声音的生成和渲染，通过LDM技术，Musicc 由于Patches转换为高质量的音频输出，音乐具有清晰的风格特征和音质性能。

当AI开始学习情感时

而且如果我们仔细听上面的作品，就会感觉到：「SkyMusic」对音乐情感的捕捉非常细腻。

它产生的音乐似乎有丰富的情感背景和动态变化。

正是这种情感表达的强化，使其作品能够根据歌词和音乐元素，产生不同的情感氛围。

与过去专注于智力提升的AGI模型相比，它的AGI模型「情感AGI」路线，显得特别珍贵和珍贵。

因为它不仅是一个聪明的人工智能，也是一个人工智能，试图理解和模拟人类的情感，用音乐来表达情感。

与市场上关注旋律创作、学习大量乐段的旋律或深入和弦、节奏和编排的人工智能相比，「天工SkyMusiccicccicccicsicicicky」情感维度也成为其行业差异化的亮点。

Suno和Stable Audio2.0强在哪儿

与市场上的Suno等人工智能音乐工具相比，人工智能音乐生成了一个大模型「天工SkyMusiccicccicccicsicicicky」它有独特的优势。

它的背后是基于MoE架构的4000亿参数多模态超级大模型「天工3.0」。

加上行业领先的逻辑推理、语义理解和泛化能力，「天工SkyMusiccicccicccicsicicicky」训练推理的响应速度和效率也有了很大的提高。

首先是中文，「SkyMusic」AI人声合成极佳，发音清晰，无异响。

特别是由于中文语境的深度优化，其中文演唱效果更符合中国市场的需求。

其次，在音乐风格上，「天工SkyMusiccicccicccicsicicicky」略胜一筹。

它可以通过歌词控制情绪变化，实现各种歌唱技巧，如颤音、歌剧、歌唱等，使音乐作品更加丰富，更适合情境。

此外，「天工SkyMusiccicccicccicsicicicky」还支持创作说唱、民歌、放克、古风、电子等音乐风格，用户可根据个人喜好定制音乐风格。

但是，不仅仅是「天工SkyMusiccicccicccicsicicicky」，包括Suno和其他人工智能工具在内的专家音乐水平相对较远。

因此，这也是昆仑万维决定公开其技术结构，希望行业共同推动这一领域发展的原因。

人工智能不会取代音乐家

「天工SkyMusiccicccicccicsicicicky」、除了Suno，最近几天还有一个可以称之为「Sora版」神秘音乐模型Udio也引发了全网关注。

获得考试资格的网友表示，Udio音乐的生成要强得多，甚至让人感受到AGI的力量。

人工智能真的到了取代人类音乐歌手的地步吗？

原创真的不再重要了

显然不是。

人工智能音乐生成技术的快速迭代无疑正在改变音乐创作的方式和体验。

然而，这并不意味着人工智能将完全取代音乐家，或者使原创不再重要。

相反，人工智能音乐生成技术可以与音乐创作者相辅相成。

一方面，强大的AI可以降低音乐创作的门槛。

即使是非专业人士也有机会接触音乐，创作出一定水平的音乐作品。

这将极大地扩大音乐创作者群体，激发多样化的音乐形式和跨境合作。

另一方面，比如「天工SkyMusiccicccicccicsicicicky」这样的工具可以赋予音乐创作者权力。

它们可以简化旋律原型的生成，提供创造性的灵感，帮助制作高质量的伴奏，帮助音乐家提高创作效率。

昆仑万维董事长兼CEO方汉在采访中曾说过这样一句话：

在内容制作行业，有一条规则：如果内容制作门槛降低1倍，内容创作者的创作量将增加10倍。

因此，当音乐创作的门槛降低时，会有更多的人成为「原创音乐人」。

总之，如果我们从静态的角度看待这个行业，很多人会认为人工智能音乐的出现「音乐行业的蛋糕被切掉了」。

然而，从动态的角度来看，技术的进步可以使音乐市场越来越大，行业蓬勃发展，培育新的内容生态和音乐形式。

例如，定制音乐服务、在线音乐创作工具订阅等新的商业模式，可以为音乐产业带来新的消费增长。

目前国内很多音乐平台都是Suno AI做了一个专栏，直接解锁了一个新的流量密码。

面对教育，人工智能音乐创作可以帮助我们快速感知音乐创作的原则，尝试各种音乐风格的创作，培养音乐产业孵化新一代人才。

让每个人都更好地表达自己

更宏观地说，除了图片、视频和人工智能音乐，它们也是情感人工智能道路的重要组成部分。

音乐不仅是一种艺术形式，也是一种情感交流和表达方式。

而且，音乐更能触及人的情感深处，是情感表达的重要媒介。

在AGI的研究中，很多团队都把重点放在模型智力的扩展和增强上。

而真正的AGI终极目标是-更像人，具有感性理性、推理逻辑思维、情感理解等能力。

昆仑万维意识到这一点，一直以情感AGI为重要方向，希望克服音乐AI的技术问题。

在研发「天工SkyMusiccicccicccicsicicicky」在此过程中，研究团队积极探索音频内容，特别是音乐在情感理解和表达方面的独特优势。

他们不仅注重音乐作品的谱曲、编排、演唱等技术层面，还强调模型对音乐情感色彩的感知和再现能力。

「天工SkyMusiccicccicccicsicicicky」对歌词段落情感变化的准确性、多样性和敏感捕捉，证实了昆仑万维在情感AGI上的实质性进步。

昆仑万维除了AI音乐生成、AI写作、绘画、动画等领域外，还在探索其在创作工具中的应用。

他们希望通过自主研发的技术，帮助创作者通过人工智能技术更好地表达和传达情感内涵，这是情感AGI的主线。

未来30年，越来越多的人会表达自己，人类社会的自我表达将翻1000倍。

昆仑万维接下来所做的就是让人工智能降低人类创作的门槛，让我们每个人都加入人工智能音乐的浪潮。

关于我们

新闻公告