Stephen Phillips谈AI音乐创作

本期简介

这是我们与Stephen Phillips访谈的第二部分，他是Mawson的CEO，这是一家将机器学习和生成网络应用于解决创意产业核心问题的人工智能实验室。如果您错过了与Stephen的第一部分对话，可以点击此处收听。

本期节目中，我们将聊到Mawson当前的项目进展、音频领域的生成网络、人工智能将如何改变音乐产业，以及"艺人"这个词对未来世代意味着什么。

话题与精彩片段

00:42 — 关于音乐推荐与发现算法的难题

Stephen Phillips：我们在Hunted一直研究却始终未能解决的问题之一，就是[音乐相似性]。[……]这两首歌有多相似？我听过之后可以告诉你。[……]但计算机做不到——实际的音频本身就是一个黑盒。[……]Pandora的人工打标方法，或者Spotify的做法——给[一首歌]添加元数据——其实是一种变通手段，因为[计算机]根本听不懂那首歌听起来是什么感觉。[……]我们在2011/2012年的Hunted尝试了很多不同的方法。回头看，那很愚蠢，因为那时技术根本不存在，但我们当时不知道。[……]2013/14年前后，我在Twitter看到了[机器学习]团队……然后，大约2016年前后，Google开始在语音合成方面做了大量工作，我当时就想："哦，他们要解决这个问题了，到时候就热闹了。"我们将能做到诸如"给我所有带女声、口琴和邦戈鼓的歌曲"这样的发现功能。我不知道是否有人真的需要这个，但我一直幻想那会有多酷。[……]但目前推荐领域的最高水平就是Discovery Weekly这类产品，他们提出了一个绝妙的思路："如果人类认为两首歌属于一起，那它们就属于一起，而这种表达方式就是把它们放进同一个播放列表"。这是迄今为止有人能为"我们不知道这是什么、如何为此建立一个替代指标"这个问题想出的最好答案。他们的算法引擎在这方面堪称天才。

03:46 — 关于 Popgun 与AI音乐创作

Stephen Phillips：我当时唯一的想法是[AI]将改变我们发现音乐的方式。2016年，我与最初的投资人共同创立了Mawson，我们想做AI——但根本招不到人。懂这块的人都去Google了。[……]我花了整整九个月才找到Adam Hibble，他带着一个四五人的小团队[……]在做深度学习项目。[……]我基本上是花钱请他和他的团队，基于纯粹的原始音频数据构建一个音乐发现网站，他们大概花了六周就做出来了。[……]他们有一个想法——深度学习领域里大家都有这个想法——你通过能够生成某样东西来理解它。在生成的过程中，你为它创造了一份"配方"，而比较两个事物的配方就能告诉你它们有多相似。因此，为了解决相似性和发现的问题，他们必须生成原始音频，然后我意识到：如果他们能生成原始音频，音乐发现不过是你能用这项技术做的最不令人兴奋的事情。我们要创作歌曲，我们要改变音乐产业——这就是Popgun最初的使命。[……]我把Adam和另外五位年轻人召集过来，专攻AI音乐创作。我们的目标是：进入Billboard单曲榜前40名！这是我们的目标，也是公司至今的目标。公司现在有二十几个人，[……]他们一直在低调地认真钻研AI音乐创作。

David Weiszfeld：我知道有两段视频：一段是几年前的，一段是去年的，都是公开的。那是你们目前发布的最新演示吗？

Stephen Phillips：不是。2017年那整整一年，我们都在学习如何弹钢琴。怎样教神经网络弹钢琴？

David Weiszfeld：就是那个有人开始弹琴，然后电脑接着完成旋律的演示？

Stephen Phillips：不是。那只是那一年的头三分之一。[……]那是我们的多声部预测演示。[……]这是个非常基础的问题：如何在一个序列中预测最可能出现的下一个元素？之后我们做了即兴演奏，[……]到2017年底，在十个人专注研究了整整一年之后，我们达到了能够创作原创钢琴曲的水平——然后我们去了旧金山。我们基本上就是说：来看看这个！你以前听过AI创作的音乐？他们会说：哦那种，那总是很烂。好，那来听听这个！然后我们播放了一段令人惊叹的钢琴曲，他们问："这是怎么做到的？"[……]大家都被它在钢琴上的表现震撼了。我们展示了一个愿景：我们要教它演奏每一种乐器，然后教它们合奏，然后看看会发生什么。然后我们要把它交到所有人手中，看看人们能用它做什么。

2018年，我们开始继续推进：做了贝斯、鼓、吉他。我们开始混音、母带处理，制作完整的流行歌曲，为歌手伴奏。[……]那是我们最后一次演示的时间节点——2018年6月。[……]我们感到某种紧迫感，但我们相信总会有人来把这件事做好、做扎实。[……]你可以半途而废地把这些东西推向市场，然后听起来像电梯音乐。总会有人花时间和金钱去做好它……我们有一个非常清晰的愿景——它必须达到艺人自己能做到的水平。[……]我们看到其他人仓促地推出AI音乐产品，我们知道那不过是一些启发式算法，或者别的什么——因为这件事很难：难在做对，也难在做好。我们只是觉得，它能实现以前完全不可能实现的事情。

17:07 — 关于 Mawson实验室 的项目

Stephen Phillips：我们在[Popgun]第一年学到的一件事是：受到这项技术冲击的不仅仅是音乐。我们实际上在做的是模仿人类的创意技能：弹钢琴、弹贝斯——这些都是人类可以做好的事，如果你给它足够的信息，它就能学会模拟这种创意技能。[……]未来五年，我们创造和消费娱乐的方式将会彻底改变。我们在实验室里有一份清单——列出了所有人类创意技能，思考如何模拟它们，哪些最有价值，哪些最普遍。其中最突出的是配音表演。[……]能够模拟这种技能，把演员的能力交到独立电影制作人、游戏开发商、广告商手中。掌握所有可能的声音以及喜悦、欢乐、悲伤的表情连续空间，并能够在技术的控制下运用它，这是娱乐领域的一件利器。[……]于是我们创立了Replica，[……]我们想到：Google和Amazon会在Siri类语音助手和家庭设备上投入大量精力。但他们会做哭泣、大笑的孩子的声音吗？会做驴子嘶鸣声吗？他们会把声音的表达力推到什么程度？我们认为总会有人把这推向极限，真正从说话升级到表演，能够入戏，让一个海盗说话像个海盗。[……]我们在2018年初创立了Replica。他们花了一年时间研究语音技术，现在正在Techstars项目中。他们在获取名人声音、为游戏创建角色——正在探索这些想法。

但从本质上说，这项技术与我们在[Popgun]所做的非常相似。我们各个团队有各自的代码库，各自是独立的公司，但我们工作所使用的这类网络叫做生成网络——我们基本上是消化大量内容，创建所有可能变体的分布。然后，[……]通过探索这个多维空间的不同部分，你可以从中生成新的东西。

[我们读过的那篇论文的]那些人能把一张黑白照片放大成高分辨率彩色照片。[……]他们的方法是：把高分辨率彩色照片降质成粗糙的黑白版本，然后学习如何来回转换。这样，当给定一张糟糕的图片时，就能生成一张超分辨率版本。我们对在音频领域实现这一点非常感兴趣[这就是SUPERRES项目]，原因有两个。[……]我们能让Skype的音质变好吗？这是一种非常有趣的压缩方式：我不需要发送高清版本——我可以发送一个非常糟糕的版本，让网络去想象原来的内容，从而获得高质量的版本。[第二个原因是]如何把媒体内容转换成另一种形式去想象它应该是什么样子。从把一部老黑白电影想象成高清彩色版本，到把今天制作的内容转换成VR就绪格式。用AI网络去"想象"事物是非常酷的事，我们非常喜欢这个想法——因为所有团队本质上都在做这件事。

[但]所有这些团队面临的真正挑战——也是Popgun正在攻克的挑战——是：仅仅能够生成内容是不够的。你必须构建一个界面，将其转化为人们可以使用的工具。没有人想按一个按钮就得到一首歌——他们想要能够调用那种智能，去创作他们想要的东西。

26:10 — 关于创意产业的未来

Stephen Phillips：[所有这些]技术将在未来几年内变得司空见惯。就像语音版的Photoshop，能够像处理图像一样处理声音，你可以编辑它、改变它、移动它、让它说各种话、让它说其他语言、完全改变声音身份、从男声变成女声，等等——这一切都将成为可能。[……]我们非常喜欢这样一个想法：这一切不过是顺应一个更宏观的趋势，那就是创作的民主化，以及从大众消费向大众创作的转变。在Minecraft中长大的这代孩子正在成长，他们现在靠玩Fortnite和Roblox娱乐自己，他们是通过"创造"来娱乐的。他们通过创意行为来获得乐趣。[……]AI将带来[……]全新的创意工具，让这些孩子能够创造出他们所能想象的一切。

当[我们]与音乐厂牌谈论这些事情时，他们还挺接受的。起初，人们会感到威胁，这我们理解——这是新技术，它将大幅降低制作出好听内容所需的技术门槛。但它真正揭示的是：谁是明星，什么是明星，什么是天赋。这远不止是会演奏一种乐器。人们被人吸引，是因为对方漂亮、有趣或有魅力。在音乐领域，Billboard没有15岁以下排行榜：作为孩子，你必须在技术上与成人竞争——这非常困难。如果我们消除这个障碍，我估计会涌现出一批年轻流行巨星，[而]其他年轻人会真正与他们产生共鸣。AI将让他们更早被发现，让他们能够精确地表达彼此之间的感受与心声。我认为这将催生一个全新的流行音乐产业，对于厂牌[……]来说——这些人仍然需要曝光和职业规划管理。我把厂牌看作音乐产业的风险投资机构，他们仍然需要投资人才，我认为他们只是会比以前更早、看到更多的人才，我觉得这对他们来说将是一次巨大的繁荣。他们将发现所有这些非常年轻的新星。

收听播客版本

提及的公司（按字母顺序）

更多Insiders节目

完整文字稿

David Weiszfeld [00:00]： 您现在在运营Mawson。我们之前开玩笑说我发音有困难，所以：M.A.W.S.O.N.。这是一家澳大利亚的AI实验室，你们在从零孵化和构建项目。我所知道的三个——也许还有其他目前不太为人知的——是Popgun、Replica和SUPERRES。我们会在博客下方附上那些公开的Popgun演示链接，可以简单介绍一下这三个项目以及它们各自的特别之处吗？

Stephen Phillips [00:44]： 我们在Hunted一直研究却始终未能解决的问题，是……音乐推荐的核心是相似度指标。这两首歌有多相似？我听过之后可以告诉你——但计算机做不到。实际的音频本身就是一个黑盒。我们能做的最好方案，就是给它附加标签、文字标签。社交媒体、Pandora的人工打标方法，或者Spotify的做法——给音乐添加元数据——这些都是变通手段，因为我们根本无法用计算机理解那首歌听起来是什么感觉。我一直很好奇为什么我们无法直接处理音频？为什么我要等待人群来告诉我这两首歌相似？于是我们在2011/2012年的Hunted尝试了各种各样不同的方法。回头看，那是愚蠢的，因为技术根本不存在，但我们当时不知道。我们基本上就是不断地撞墙。

然后，2013/14年前后，我在Twitter看到了那里的机器学习团队，开始接触深度学习……我想：哦，这会成为一件大事，他们将能够……如果他们能用图像识别和图像处理做到这些——肯定会有人把这用在音频上。然后，大约2016年前后，Google开始从DeepMind团队做大量语音合成相关的工作，当时我就觉得：哦，他们要解决这个问题了，到时候就热闹了。我们将能做到真正的发现，比如——给我所有带女声、口琴和邦戈鼓的歌曲——这样的发现。我不知道是否有人真的需要这个，但我一直幻想那会有多酷。

David Weiszfeld [02:27]： 也许有其他标准，但当然，完全可以！

Stephen Phillips [02:30]： 没错。比如听起来像Whitney Houston，用木吉他演唱3/4拍的曲子，不需要任何标签，横跨海量曲库。

David Weiszfeld [02:45]： 仅仅基于音频本身？

Stephen Phillips [02:48]： 解决流媒体服务面临的冷启动问题。但目前推荐领域的最高水平就是Discovery Weekly这类产品，他们提出了一个绝妙的思路：如果人类认为两首歌属于一起，那它们就属于一起，而这种表达方式就是把它们放进同一个播放列表。所以他们整个系统由播放列表的交叉驱动，这是迄今为止任何人能为"我们不知道这是什么、如何为此建立替代指标"这个问题想出的最好答案。他们的引擎在这方面堪称天才。围绕类似想法，我们自己也做了很多东西——但他们把它做到了规模。所以它能跨越个性化和流派发挥作用；因为他们拥有这个巨大规模的播放列表引擎，效果非常好。我看到了这些深度学习的东西，开始深入研究。到那时，我自己在机器学习领域已经有十年经验，感觉我必须进入这个领域，这将会彻底改变一切。我当时唯一的想法是：这将改变我们发现音乐的方式。这将成为新的音乐发现方式。

于是，整个2016年，我与最初的投资人共同创立了Mawson，我们想做AI相关的事情——但根本招不到人。这几乎是不可能的。懂这块的人已经离开了，去了Google，或者去了美国。在澳大利亚，我就是找不到……所有人都在做自动驾驶汽车，或者在大学里攻读博士，我就是找不到……而且根据我自己的经验，我无法仅仅找网页开发者然后教他们做这个。这所需的数学超出了我自己的能力范围，也超出了大多数网页开发者、甚至普通软件工程师的能力。我花了整整九个月才遇到一个叫做Adam Hibble的人，他带着四五个人的小团队，当时在布里斯班做深度学习项目。我们一拍即合，我邀请他来做音乐相关的工作，他觉得这很疯狂。就像：谁在乎这个？如果你能掌握这项技术，这是你能做的最没意思的事情。但我了解Adam这类人——他那时大概24、25岁，让我很想起年轻时的自己——我知道如果我能让他做一段时间，他就会像我当年一样爱上这件事。于是我基本上是花钱请他和他的团队，基于纯粹的原始音频数据构建一个音乐发现网站，他们大概六周就做出来了。

他们的做法是这样的：他们有一个想法——深度学习领域里大家都有这个想法——你通过能够生成某样东西来理解它。在生成的过程中，你为它创造了一份"配方"。比较两个事物的配方就能告诉你它们有多相似。所以，为了解决相似性和发现的问题，他们必须生成原始音频，然后我意识到：如果他们能生成原始音频，音乐发现是你能用这项技术做的最不令人兴奋的事情。我们要创作歌曲，我们要改变音乐产业，这就是Popgun最初的使命。然后还有Bob Moz。那时还不叫Popgun。我只是在和Adam合作，我们有那种"啊哈"时刻：哦，我们将能在这里创作歌曲。我们实际上将能够扫描单曲榜前40名，然后创作出听起来像那样的音乐。

于是，最初我们叫做Fake Records，打算成立一家唱片公司，发行音乐。后来特朗普来了，把"fake"这个词搞臭了，我们就不能再这样叫自己了。然后Bob Moz——我在Twitter时的老朋友，我们在Twitter共事过，是在我在Twitter最后阶段——他后来创立了Techstars Music，正在招募团队，他建议Adam和我以Popgun的名义参加这个项目。于是我们就在2016年12月这样做了。我们参加了2017年的首届班次。我带着Adam和另外四五位二十出头的年轻人，去做AI音乐创作。我们的目标是：进入Billboard单曲榜前40名！这是我们的目标，也是公司至今的目标。两年多过去了。公司现在有二十几个人，加上来来去去的外包人员。他们一直在低调地认真攻关AI音乐创作。这就是第一支进来的团队。

David Weiszfeld [07:22]： 我知道有两段视频：一段是几年前的，一段是去年的，都是公开的。那是你们目前发布的最新演示吗？

Stephen Phillips [07:30]： 不是。2017年那整整一年，我们都在学习弹钢琴。就这一件事。怎样教神经网络弹钢琴？

David Weiszfeld [07:41]： 就是那个有人开始弹琴，然后电脑接着完成旋律的演示？

Stephen Phillips [07:48]： 不是。那只是那一年的头三分之一。那个演示——有人弹琴然后完成旋律——是我们为TechStars做的演示。那是我们的多声部预测：我能弹一段钢琴，它就能预测我接下来要弹什么。做完那个之后，我们做了即兴演奏——也就是"给定一段音乐，我们能否在其上即兴演奏，同时还保持旋律上的合理性？"我们能探索所有其他可能的弹奏方式吗？又能让对音乐有了解的人识别出这仍然是同一首曲子？我们在即兴创作，但还保留着它的音乐性。一旦能做到这一点，我们就准备好进行真正的创作了。所以，到2017年底，在十个人专注于这一个问题整整一年之后，我们达到了能够创作原创钢琴曲的水平，然后我们去了旧金山。

我们基本上就是说：来看看这个。你以前听过AI创作的音乐吗？他们会说：哦，那种，总是挺烂的。好，那来听听这个！然后我们播放了一段令人惊叹的钢琴曲，他们问："这是什么做的？"到那时，如果AI能开车，那当然也能弹钢琴！你会期待它能做到这一点。大家都被它在钢琴上的表现震撼了。我们展示了一个愿景：我们要教它演奏每一种乐器，然后教它们合奏，然后看看会发生什么。然后我们要把它交到所有人手中，看看人们能用它做什么。我们很幸运……我们在旧金山待的那个月里遇到了一些很棒的投资人。我们最终选择了Khosla Ventures，因为他们在AI领域下了很多注——我想我们是第28个或类似的——而且他们团队里有非常资深、备受尊敬的AI专家，我们觉得他们有很大的价值。

其他机构各有所长，我们见了Greylock，他们有一些很厉害的人，来自Facebook、LinkedIn和Twitter的增长团队。但那对我们来说太早了，因为我们当时没有什么可以放大的，而他们似乎是做那件事的完美团队。我们那时根本不知道这件事会有多难。我们知道弹会钢琴花了我们整整一年！这要花多长时间？KV非常耐心。他们的大多数投资集中在材料和医疗领域。所以他们说："是，这是硬核技术，会需要一段时间。我们对这类事情必须保持耐心。"所以2018年，我们继续推进：做了贝斯、鼓、吉他。我们开始混音、母带处理。开始制作完整的流行歌曲。开始为歌手伴奏，那大概就是……那是我们最后一次演示的时间节点。2018年6月。

从那以后我们一直在做其他事情——如果有人在家里跟着做，就能猜到一家发展到那个程度的公司下一步自然而然会做什么。我们还没有公布是什么，这真的很难！我们觉得快要做出来了，但我们感到某种紧迫感，同时我们相信总会有一支真正有实力的团队把这件事做好、做扎实。你可以把某些东西半途而废地推向市场，听起来像电梯音乐之类的。总会有人花时间和金钱……幸运的是我们在澳大利亚，在世界的另一端，我们有一支从一开始就在一起的优秀团队。我们在澳大利亚有和我们合作的制作人，我们能够埋头苦干，而且我们有一个非常清晰的愿景——它必须达到艺人自己能做到的水平。如果AI能做到这一点，它会做成什么样？必须达到那个水平。

David Weiszfeld [11:49]： 你提到了自动驾驶汽车，每个人都期待自动驾驶汽车能比人类效率高一千倍，因为如果人类出了车祸，你会说——好吧，这是人为失误。但如果机器出了事故，就好像整个车队都有问题一样。这是一个严重的优先级问题。有两起波音事故，他们把全球所有737停飞了，因为是机器出了问题，不是飞行员的错误。我猜当你开始自动化事物、让AI代替你做事的时候也是一样的道理。你需要它比人类好一千倍、一百万倍。你需要它无懈可击。所有人在面对这项技术时都必须有那种"哇"的感觉。一首差强人意的歌实际上就是一首烂歌。没有"差强人意"这回事。要么平平无奇，要么你想让所有人面对这首歌时都发出"哇"的惊叹。这个问题必定极其困难。

事实上，汽车是可以记录数据的：当你在开特斯拉时，它会把驾驶信息发送回去，这就是他们构建自动驾驶的方式。所以你在听几百万首歌，提取规律。任何不懂技术的人，可能都能理解自动驾驶汽车，但那更像是一个已知的课题，从本质上来说起步阶段是一样的，只不过终点不同：一个是非常理性的驾驶，另一个是非常有创意的歌曲。这就是创意难度最终体现的地方。输入所有信息可能不是最难的，但让它产生真正新颖的创意内容，才是真正的难点——这与自动驾驶汽车恰恰相反，你希望后者不做任何新的事情，完全按照它应该做的来做。

对于汽车，你可以预测它应该做什么；但对你来说，你无法真正预测歌曲应该是什么。歌曲会在你听的时候给你惊喜。我能想象这个项目一定非常迷人。所以我们会链接到2017年TechStars的第一个演示，以及2018年的演示，我猜在今年内的某个时间点，你们会发布新的演示，这次应该更完整，包含你刚才说的一些内容：不同的乐器，也许更具流行风格。我非常期待看到你们会做出什么！

Stephen Phillips [14:17]： 我感觉我们在Hunted所做的一切都是为了让人们给予我们信任和耐心，从而给我们把事情做对的自由。我们有这种感觉——这很自然，因为已经两年了，这是一个漫长的项目，有时感觉像原地踏步。但在这个过程中，有太多次我们会想："这真的很酷。这真的太酷了。"我们必须继续，因为我们做到了这一步。我们甚至还没有真正触及表面呢。你明白我的意思？我们看到其他人仓促地推出AI音乐产品，我们知道那一定只是一些启发式规则或算法，因为这件事很难：难在做对，也难在做好。我们只是觉得，它能实现以前完全不可能实现的事情。我们必须继续，直到我们捕捉到那些可能性。我不知道，我只是觉得非常幸运，能够有缘走到这一步，让我有机会接近这一切，与这样一群人在这件事发生时一起并肩作战。我真的太幸运了，所以我必须把握住它。我能做到不写代码，只是作为这些年轻人的啦啦队长，看着他们攻克极其困难的事情，知道这将为人们带来巨大的快乐——创作音乐和分享它的那种感觉——这仍然是一件精英化的事情，不是所有人都能做的！把这种能力交到更多人手中，让他们也能做到，将为人们带来如此巨大的愉悦。

从外面看，人们会以为音乐只是音乐——音乐无处不在。但对我来说，这是文化：它在电影里，它……无论我转向哪里，我都听到音乐，而音乐对人的影响是其他任何东西都无法替代的。能够在技术领域围绕这个做事，是一种特权。我很乐意用余生做这件事，庆幸自己误打误撞闯进了这个领域。我觉得自己真的太幸运了。这个团队，这些年轻人，他们如此投入，也同样爱上了这个问题。我们走着瞧吧。但这在过去两年里一直是件非常有趣的事，而且我知道这就像Hunted发生的事情一样。不管结果如何，不管我们是否做出产品，他们是今天音乐产业里最优秀的技术团队。我没有见过所有人，但如果世界上任何地方还有一支比这些人更厉害的团队，我会非常惊讶。就是因为这件事发生的特殊情境——他们本不应该在音乐领域工作，只是因为他们认识我，因为我们在世界的另一端，他们才不会立刻去Google做汽车或医疗相关的事情。我在这里能挑选到真正有天赋的工程师，而且他们对这个问题着迷——我真的觉得自己很幸运。

我们在第一年学到的一件事是：受到这项技术冲击的不仅仅是音乐。我们实际上在做的是模仿人类的创意技能：弹钢琴、弹贝斯。这些都是人类可以做好的事，如果你给它足够的信息，它就能学会模拟这种创意技能。它将在每一个创意领域做同样的事。所以对我来说，未来五年，我们创造和消费娱乐的方式将会彻底改变。于是我们就从……我们非常早地看到了那会是什么样子，我们需要在这方面投入——所以Replica就此诞生了。我们在实验室里有一份清单——列出了所有人类创意技能，思考如何模拟它们，哪些最有价值，或者哪些最普遍。其中最突出的是配音表演——说话不是表演，表演比说话要复杂得多。能够模拟这种技能，把演员的能力交到独立电影制作人、游戏开发商、广告商手中。掌握所有可能的声音以及喜悦、欢乐、悲伤的表情连续空间，并能够在技术的控制下运用它，这是娱乐领域的一件利器。这将改变我们创作每一种娱乐内容的方式。于是，Replica成为了第二支进入的团队，那时候Google发布了WaveNet，就像一声发令枪，宣告了那个领域竞赛的开始。

我们想到：Google和Amazon会在Siri类语音助手和家庭设备这类事情上投入大量精力。但他们会做哭泣、大笑的孩子的声音吗？会做驴子嘶鸣声吗？他们会把声音的表达力推到什么程度？我们认为总会有人把这推向极限，真正从说话升级到表演，能够入戏，让一个海盗说话像个海盗，让一个骑士说话带着那种特定的腔调。这就是探索那些可能性。于是我们在2018年初创立了Replica。他们花了一年时间研究语音技术，现在在Techstars项目里。他们在克隆名人声音，在为游戏创建角色——正在探索很多这样的想法。

但从本质上说，这项技术与我们内部所做的非常相似。所以，虽然我们各个团队有各自的代码库，各自是独立的公司，我是他们的投资人，但他们在"我们如何解决这些问题"方面有着非常相近的开放文化。他们有各自的知识产权，不共享代码，其实彼此之间还有点竞争关系。但他们确实受益于共同处于一个实验室环境，能够坐下来和其他人交流——这里有35个人。他们能坐下来讨论问题，我们刻意让他们的工作方向高度并行。所以有一种共同的经历。不是一个做AI汽车，另一个做音乐。一个做音乐，另一个做语音，Super Res是第三个加入的公司。这纯粹是一个自然发生的过程。我们在Popgun的一个项目中看到了一篇有人在做超分辨率图像的论文，我们非常喜欢这个想法。我们工作的这类网络，这类叫做生成网络的网络，基本上是消化大量内容，创建所有可能变体的分布。然后你可以通过探索这个多维空间的不同部分，生成新的东西。

这些人能把一张黑白照片放大成高分辨率彩色照片，我们就想：这怎么做到的？他们的方法是：把高分辨率彩色照片降质成粗糙的黑白版本，然后学习如何来回转换。这样，当给定一张糟糕的图片时，就能生成一张超分辨率版本。我们对在音频领域实现这一点非常感兴趣，原因有两个。Skype音质能做多差？——我是说，我们能让Skype音质变好吗？这是一种非常有趣的压缩方式。我不需要发送高清版本——我可以发送一个非常糟糕的版本，让一个新网络去想象那原来是什么，然后得到一个非常高质量的东西。这个做法在处理内容方面很有效——先做音频，但也扩展到了图像——把内容带回高质量状态。这类网络的核心理念是：我们如何把媒体内容想象成另一种形式的样子。这能做到：把一部老黑白电影变成看起来像高清彩色的样子。然后，放眼未来，把今天制作的内容转换成VR就绪格式，通过拆分成双眼各自看到的内容来实现。用AI网络去"想象"事物是非常酷的事，我们非常喜欢这个想法——因为所有团队本质上都在做这件事。

Replica在想象海盗的声音是什么样的。一旦见过足够多的海盗——它从没见过一只鹦鹉说"大家好，我叫Stephen"，但它能想象一个海盗会怎么说。这就是这类网络的本质。我们的新团队在研究文字，在研究图像，我们认为这类网络以及这个想法——AI能够想象新事物——将改变我们制作电影、视频、内容和音乐的方式。所有这些团队面临的真正挑战——也是Popgun正在攻克的挑战——是：仅仅能够生成内容是不够的。你必须构建一个界面，将其转化为人们可以使用的工具。因为这才是重点所在。没有人想按一个按钮就得到一首歌。他们想要能够调用那种智能，去创作他们想要的东西。如何控制这些网络是一个巨大的挑战。\_

David Weiszfeld [23:16]： 如果我们把你所有项目串起来一条线：Hunted是后端数据抓取、排名、榜单……那是99%的工作量。然后，显然，你还需要做设计决策，横向滚动、小插图之类的东西。但如果没有那个用户体验，网站可能不会获得那么大的影响力。但如果你是唱片公司的A&R，或者MTV在纽约的某个人联系了你，他们喜欢这种体验和音乐，以及它实际上是怎么运作的——这不重要，只要它就是有效——引用苹果的那句话："只要它能用"，大多数人不会去深究底层原理。如果明天你能有一个好看的前端，有人正在玩Popgun做一首流行曲——知道并完全理解网络如何运作、数据如何输入、它如何创造出创意内容——整个这个过程对普通人来说并没有任何意义。

当一个孩子在PlayStation上玩FIFA，他们根本不理解球是怎么被计算出来的，球员的动作是怎么实现的，等等。他们只是在玩游戏。这就是"就是好用"的魔力所在。这也是产品与市场契合的魔力：不是要去想用户群体和数据，而是有一天你就是知道了。把非常非常硬核的技术——因为你做的不是功能，而是硬核技术创新——放到一个普通人、非技术人员的手中，然后获得成功——那才是你们最终的考验。Replica可以被每个YouTube频道使用，任何做内容想要翻译的人，任何做动画想要给角色配音的人。你选了一个土豆头，我该给他什么声音？你选了一个海盗，我该给他什么声音？我有这个童话故事，我需要角色和动物开口说话。一只会说话的猪的声音应该是什么？

皮克斯的人在给声音做选角，他们要进行长达一周的试镜来找到那个声音——你提到了驴子，或者猪，或者别的动物。那整个过程有可能被内化，比如——一个学图形设计和3D动画的学生，制作他的第一部20秒3D短片，在那20秒里，鸟对猪说了话——你给它配什么声音？想象一下，有人能够仅用一台笔记本电脑就能做到这一切，就像音乐人一样：三十年前，你需要一间录音棚，而今天他们基本上只需要一台笔记本。把这个推进到语音创作领域——这简直太神奇了。单是翻译问题就是一个巨大的挑战。能够实时翻译成50种语言将会是疯狂的事情。

Stephen Phillips [26:09]： 这项技术将在未来几年内变得司空见惯。就像语音版的Photoshop，能够像处理图像一样处理声音，你可以编辑它、改变它、移动它、让它说各种话、让它说其他语言、完全改变声音身份、从男声变成女声，等等——这一切都将成为可能。构建这些的竞赛已经开始。技术还没有完全到位：有很多例子，有十家或更多公司在这个领域，做起来仍然相当困难，在情感和捕捉情感方面仍然有一堆问题。对创意人才来说好消息是，这些工具将在未来一年左右陆续推出。我们非常喜欢这样一个想法：这一切不过是顺应这个更宏观的趋势，那就是创作的民主化，以及从大众消费向大众创作的转变。在Minecraft中长大的这代孩子正在成长，他们现在靠玩Fortnite和Roblox娱乐自己，他们是通过"创造"来娱乐的。他们通过创意行为来获得乐趣。我以前和我妻子开玩笑说，看着他们对Minecraft的痴迷，十年后的建筑设计肯定会百花齐放。它就这样流淌进了他们表达自己的方式，对我来说AI将带来一整套全新的创意工具，让那些孩子能够创造出他们所能想象的一切。

我认为我们将会发现——我们在Popgun内部也经常讨论这个——我们将进入一个时代，而且……当我们与音乐厂牌谈论这些时，他们还挺接受的。起初，人们会感到威胁，我们理解这一点——这是新技术，因为它将大幅降低制作出好听内容所需的技术门槛。但它真正揭示的是：谁是明星，什么是明星，什么是天赋。这远不止是会演奏一种乐器。人们被人吸引，是因为对方漂亮、有趣或有魅力。在音乐领域，Billboard没有15岁以下排行榜。作为孩子，你必须在技术上与成人竞争——这真的很难。如果我们消除这个障碍，我估计会有一些年轻的流行明星，其他年轻人会真正与他们产生共鸣。这个AI将让他们更早被发现，让他们能够精确地表达彼此之间的感受与心声。我认为这将催生一个全新的流行音乐产业，对于厂牌来说，围绕这一切——这些人仍然需要曝光和职业规划管理，我把厂牌看作音乐产业的风险投资机构，他们仍然需要投资人才，我认为他们只是会比以前更早、看到更多的人才，我觉得这对他们来说将是一次巨大的繁荣。他们将发现所有这些非常年轻的新星。

David Weiszfeld [29:10]： 可能正如你所看到的：不仅仅是更年轻的人，人们也在用AI的帮助创作艺术、与它协作——或者你甚至不会知道，因为AI将被内置到DAW、Pro Tools里，作为一个VST插件。所以当他们给你发来一首歌，那就只是一首歌，谁知道这首歌是怎么做出来的。但我认为这还会更进一步，Replica和Popgun都是这方面的信号。孩子们比以前更容易制作动画视频，那些做YouTube内容的孩子现在也在做音乐——艺人、音乐人、演员、做视频的、平面设计师之间的界限正在消融。今天的孩子可以自己制作MV——也许拍不出David LaChappelle那种水平的视频，但他们能做出一个视频，能做出一件艺术品。他们能与世界另一端的人完全协作。就像你在澳大利亚，我现在在巴黎。这些事我们都不再觉得特别了。我的押注是，五年后"什么是音乐人"的定义，以及那种在自己房间里练了九年乐器才能向世界展示自己技术水平的成长路径，这些观念也许不会100%消失——二十年后你仍然会有吉他英雄，仍然有人在飞快地扫弦。但这种模式会逐渐消退，艺人将把不同的艺术形式融合成一种创作。

你在那些为游戏主播和青少年美妆YouTube频道做内容变现的公司里能看到这一点，那些人开始做音乐。他们的经纪人竟然是YouTube内容变现公司，最后管理起了歌手的事业。通常他们最终会与一家音乐公司合作，因为这根本不是他们本来应该做的事——他们本来是做YouTube内容变现的。然后他们得到了一首热门单曲。我想Republia最近刚发布了这么一个YouTube大博主的第一首单曲，他不是音乐人，大概一个月前也不是歌手。突然之间他就有了这个惊人的推广平台，因为他在其他领域积累的粉丝，他可能是个17岁的孩子。是的，这会以指数级的速度发展。已经聊了一个半小时，占用了你太多时间——所以我想以三个标准问题来结尾，这些问题我们会问每个人。第一个，我无法想象你现在和19岁的自己相遇会是什么情景。19岁时你刚大学毕业，或者还在读大学。你要去工作，在一家类似咨询的公司，接触25个不同的科技项目。Hunted那时甚至还不在你的考虑范围内。新闻网站也许是你很快就会开始思考的事情。你会对19岁的Stephen Phillips说什么？

Stephen Phillips [32:11]： 我不知道。我的20多岁其实过得很好。我做过很多不同的工作，从来没在任何地方待超过两年。我会攒够钱，然后想做什么就做什么，过上一年。我画过一年画，做过一年音乐。等到没钱了就再回去工作。我觉得我需要这样。我只是觉得我从未……我应该去找一位导师，或者一个我尊敬的人，能帮我找到一条路。我可能会告诉自己去创业。我不知道为什么我等到35岁才做这件事。这件事在当时并不像……我不是在硅谷长大的。在澳大利亚，人们不会去创办科技公司。我直到二十多岁才真正听说过这件事，而那时我就是不知道该怎么做。所以我的建议大概就是去创业。这也是我现在给年轻人的建议，尤其是这些人，他们才华横溢，学校想让他们去读博士，我觉得这很疯狂。去创办一家公司，现在是最好的时机：你没有家庭，没有牵挂。你随时都可以回去找一份无聊的工作。所以我可能会说：是，去创办一家公司。不要等20年才创业。

David Weiszfeld [33:31]： Techstars的Bob Moz，我记得他说过——他们的理论是才华在全球是完全均匀分布的。在墨尔本、悉尼、堪培拉、巴黎和柏林——无论哪里，都有有才华的人。但机遇不是均匀分布的。而正因为机遇不均匀，我认为我们这些也许不是加州人、不是纽约人的人，不太相信自己……比如，我真的会去创业吗？我真的会做一个音乐产品，然后去纽约被Twitter收购，或者把公司独立经营一段时间吗？所以是啊，尽管才华完全均匀分布，机遇却不，而且——因为那是加州人基因里就有的东西，相信自己能改变世界——这不在澳大利亚人的基因里，肯定也不在法国人的基因里。所以，是的，去创业，相信你的项目，如果你有一个想法——就去做，去测试！

Stephen Phillips [34:25]： 我最大的收获是，当我到了美国，发现他们就是普通人，不比我们强。他们只是对什么是可能的抱有完全不同的期待，而这正是我花很多时间跟这里的年轻人讲的。我知道那些人看起来像超人，因为他们做出了那么多酷的东西，但他们就是普通人，我们可以打败他们，可以与他们竞争。他们并不比我们聪明，只是人数更多。有更多的钱，有更多的后盾，有更多的自信——这些是我们没有的——但我们会获得这些资金，我们会建立自信。我在招募新人时做的第一件事之一就是——把他们送过去，回来之后再聊：他们就是普通人！是吧，我早告诉你了。

David Weiszfeld [35:09]： 你甚至没有语言障碍。所以你能把人送过去，他们会意识到，就是这样。那里的人只是想得更多，更相信自己。我想在美国，孩子们从小就要做很多课堂展示，所以你习惯了在很多人面前发言，为自己的项目辩护，几乎就是在做pitch——不是pitch，但几乎就是了。在法国，他们教你很多自我批评，教你如何看论点的正反两面。你必须一直自我矛盾。这让你很难有那种"我相信，然后我就去做"的劲头。更多是我相信，但我也怀疑。然后我还会尝试相信别的，然后再怀疑。我们热爱这种辩论。有没有什么特别的书或播客是你想推荐的，或者你最近在读的书？

Stephen Phillips [36:03]： 说来惭愧——没有。我在20多岁时读书读得很猛，而现在我尽可能多地消化音乐和媒体内容。我真的感觉没有时间读书了。我觉得我的责任在于我的团队和员工，除了陪伴家人的时间，其他时间我都在为他们工作。我想等我15/20年后退休，我会把所有错过的书都补上。

David Weiszfeld [36:38]： 这次采访结束后你打算做什么？我猜现在是晚上8点40分，大概要去吃晚饭？

Stephen Phillips [36:41]： 我要回家陪家人，然后明天一早有一班飞往悉尼的早班机。去见音乐界的人。很好。谢谢你！

David Weiszfeld [36:58]： 太精彩了。我现在真想再把它听一遍。非常感谢你在这么晚的时间抽空接受采访。我们很快再聊。万分感谢。

EP03（第二部分）：Stephen Phillips 访谈

本期简介

话题与精彩片段

收听播客版本

相关链接

提及的公司（按字母顺序）

完整文字稿