Sobre Este Episódio
A segunda parte da nossa entrevista com Stephen Phillips, CEO do Mawson, um laboratório de IA que aplica machine learning e redes generativas para resolver problemas fundamentais nas indústrias criativas. Caso você tenha perdido a primeira parte da nossa conversa com Stephen, você pode acessá-la aqui.
Caso contrário, vamos direto ao ponto. Neste episódio, falamos sobre os projetos atuais do Mawson, redes generativas aplicadas ao áudio, como a IA vai transformar a indústria musical e o que a palavra "artista" significará para as gerações futuras.
Tópicos e Destaques
00:42 — Sobre o problema dos algoritmos de recomendação e descoberta musical
Stephen Phillips: Um dos problemas em que trabalhávamos no Hunted [e] que nunca resolvemos foi [a similaridade musical]. [...] Essas duas músicas são similares — o quanto são similares? Posso ouvi-las e te dizer o quanto são similares. [...] Mas os computadores não conseguem fazer isso — o próprio áudio bruto era uma caixa preta. [...] A abordagem de rotulagem humana da Pandora ou o que o Spotify faz — [quando] adicionam metadados a [uma música] — é um substituto para o fato de que [os computadores] não entendem como aquilo soa. [...] Tentamos muitas coisas diferentes no Hunted em 2011/2012. Com o tempo, foi tolice porque a tecnologia não existia, mas não sabíamos disso. [...] Por volta de 2013/14, no Twitter, eu via as equipes de [machine learning] e [...] depois, por volta de 2016, o Google começou a fazer um monte de coisas em torno de síntese de voz, e foi como: "Ah, eles vão resolver isso e vai mudar tudo." Vamos conseguir fazer coisas como "me dê todas as músicas com voz feminina, gaita e bongô", descoberta assim. Não sei se alguém quer isso, mas sempre fantaseio sobre o quanto seria incrível. [...] Mas o estado da arte em recomendações agora é algo como o Discover Weekly, e eles tiveram uma ideia muito bacana de "as coisas pertencem juntas se um humano diz que pertencem, e a expressão disso é colocá-las em uma playlist". É a melhor coisa que alguém já imaginou para "não sabemos o que é isso, como desenvolvemos um substituto?". E o mecanismo deles é genial nisso.
03:46 — Sobre Popgun e Composição Musical com IA
Stephen Phillips: Minha única ideia na época era [que a IA] mudaria a forma como fazemos descoberta musical. Em 2016, fundei o Mawson com meu investidor original, e queríamos fazer IA — mas simplesmente não conseguíamos recrutar ninguém. Qualquer pessoa que soubesse o que estava fazendo tinha ido para o Google. [...] Levei nove meses para encontrar Adam Hibble, que tinha uma equipe de quatro ou cinco caras [...] fazendo projetos de deep learning. [...] Basicamente paguei a ele e sua equipe para construir um site de descoberta musical baseado em áudio bruto puro, e eles fizeram isso em cerca de seis semanas. [...] Eles tinham essa ideia — que todo mundo tinha em deep learning — [de que] você entende algo sendo capaz de gerá-lo. No processo de gerá-lo, você cria uma receita para isso, e comparar receitas de duas coisas te diz o quanto elas são similares. Então, para resolver similaridade e descoberta, eles precisavam gerar áudio bruto e então percebi: se eles vão gerar áudio bruto, a descoberta é a coisa menos empolgante que você poderia fazer com isso. Vamos escrever músicas, vamos mudar a indústria musical — e foi isso que o Popgun se propôs a fazer. [...] Trouxe Adam e mais cinco jovens para fazer Composição Musical com IA. Nosso pitch era: vamos ter um hit no Top 40! Esse era nosso objetivo, e ainda é o objetivo da empresa. A empresa agora tem mais de vinte pessoas, [...] e têm feito, principalmente em modo stealth, competição musical séria com IA.
David Weiszfeld: Então sei que há dois vídeos: um de alguns anos atrás e um do ano passado, eles são públicos. Essa é a última demo que vocês lançaram?
Stephen Phillips: Não. Passamos o primeiro ano em 2017 aprendendo a tocar piano. Como ensinamos uma rede neural a tocar piano?
David Weiszfeld: É essa a demo onde alguém começa a tocar e o computador termina a melodia?
Stephen Phillips: Não. Isso foi o primeiro terço daquele ano. [...] Era nossa predição polifônica. [...] É um problema muito simples: como prever numa sequência de coisas o que mais provavelmente viria a seguir? Depois fizemos improvisação, [...] e ao final de 2017, após um ano de dez pessoas trabalhando nesse único problema, chegamos ao ponto de compor peças originais de piano — e fomos a San Francisco. Dissemos basicamente: olha isso! Você já ouviu uma IA fazer música? Eles respondiam: é-é, sempre é meio ruim. Então, olha isso! E tocamos um piano incrível e eles perguntaram: "O que fez isso?" [...] As pessoas ficaram de queixo caído com o que ele conseguia fazer num piano. E expusemos uma visão: vamos ensiná-lo a tocar cada instrumento, depois vamos ensiná-los a tocar juntos, e então vamos ver o que acontece. E depois vamos dar para todo mundo e ver o que as pessoas fazem com isso.
Em 2018, começamos a trabalhar: fizemos baixo, bateria, guitarras. Começamos a mixar, masterizar, produzir músicas pop completas, acompanhar cantores. [...] Esse foi o fim da nossa última demo — junho de 2018. [...] Sentimos um certo senso de urgência, mas sentimos que alguém vai fazer isso e vai fazer direito. [...] Você pode fazer mal feito e correr para o mercado — e soar como música de elevador. Alguém vai gastar o tempo e o dinheiro [...], e temos uma visão muito clara — tem que ser tão bom quanto o que um artista poderia fazer. [...] Vemos outras pessoas lançando coisas de música IA às pressas, e sabemos que devem ser só heurísticas, ou algoritmos, ou — porque isso é difícil: difícil de fazer direito e difícil de fazer bem. Simplesmente sentimos que isso permite fazer coisas que antes não eram possíveis de jeito nenhum.
17:07 — Sobre os projetos do Mawson lab
Stephen Phillips: Uma das coisas que aprendemos naquele primeiro ano [no Popgun] foi: não é só a música que vai ser impactada por isso. O que estamos fazendo na verdade é imitar habilidades criativas humanas: tocar piano, tocar baixo — são coisas que os humanos fazem bem, e se você der informações suficientes sobre como fazer isso, consegue aprender a emular essa habilidade criativa. [...] A forma como criamos e consumimos entretenimento nos próximos cinco anos está prestes a ser completamente transformada. Temos uma lista — no nosso laboratório aqui — de todas as habilidades de talento humano, e como emularíamos cada uma, e quais são as mais valiosas ou as mais ubíquas. A que se destacou foi a dublagem. [...] Poder emular essa habilidade e colocar atores nas mãos de cineastas independentes, desenvolvedores de jogos, anunciantes. Ter um espaço contínuo de todas as vozes possíveis e expressões de felicidade, alegria, tristeza, e poder tê-las sob controle tecnológico, é uma arma no entretenimento. [...] Então com a Replica, [...] pensamos: Google e Amazon vão trabalhar muito em coisas de voz como Siri, seus dispositivos para casa e tudo isso. Mas eles terão crianças chorando, rindo? Terão um burro zurando? E até onde vão com a expressividade? Pensamos que alguém vai levar isso ao extremo, e de fato tirar do simples discurso para a atuação, estar em personagem, e você poderia ter um pirata falando como pirata. [...] Então lançamos a Replica no início de 2018. Eles trabalharam em tecnologia de voz o ano inteiro, e agora estão na Techstars. Estão clonando vozes de celebridades, criando personagens para jogos — brincando muito com essas ideias.
Mas, essencialmente, a tecnologia é muito similar ao que fazemos [no Popgun]. Então, embora nossas equipes tenham sua própria base de código, suas próprias empresas, [a] classe de redes com que trabalhamos é chamada de Redes Generativas, onde basicamente consumimos um grande volume de conteúdo, e criamos essa distribuição de todas as variantes possíveis disso. E então, [...] ao explorar diferentes partes desse espaço multidimensional, você pode gerar algo novo a partir disso.
Os caras [cujo artigo lemos] conseguiam pegar uma foto preto e branco e ampliar para alta resolução e colorir. [...] Pegavam fotos coloridas em alta resolução e as degradavam para versões preto e branco de baixa qualidade, e aprenderam a ir para frente e para trás. E assim, quando dada uma ruim, criam uma super-resolução. Estávamos muito interessados na ideia de fazer isso em áudio [na SUPERRES], [por] duas razões. [...] Poderíamos melhorar o som do Skype? Essa é uma forma muito interessante de comprimir: não preciso enviar algo em alta resolução — posso enviar uma versão bem ruim e ter uma rede imaginar o que deve ter sido, e obter uma versão de alta qualidade. [E o segundo é] como pegamos mídia e imaginamos o que ela deve ser em outra forma. De pegar um velho filme preto e branco e fazê-lo parecer que era colorido em HD, [ou] pegar conteúdo feito hoje e torná-lo pronto para VR. Usar redes de IA para imaginar coisas é muito legal, e realmente adoramos essa ideia — porque todas as equipes estão efetivamente fazendo isso.
[Mas] o verdadeiro desafio para todas essas equipes — e o desafio do Popgun em que trabalhamos — é que não basta ser capaz de gerar essas coisas. Você precisa construir uma interface e transformar isso em uma ferramenta que algumas pessoas possam usar. Ninguém quer apertar um botão e receber a música — elas querem ter acesso a essa inteligência para fazer o que quiserem.
26:10 — Sobre o futuro das indústrias criativas
Stephen Phillips: [Toda essa] tecnologia vai ser lugar-comum nos próximos dois anos. Como um Photoshop para voz, ser capaz de tratar a voz como uma imagem, para que você possa editá-la, alterá-la, movê-la, fazer com que diga tudo isso, que fale em outros idiomas, mudar completamente a identidade vocal, mudar de masculino para feminino, o que for — tudo isso vai ser possível. [...] Realmente adoramos a ideia de que tudo isso está apenas fazendo parte de uma tendência mais ampla de democratização, criatividade e dessa transição do consumo em massa para a criação em massa. Essas crianças que cresceram no Minecraft estão chegando, e agora se entretêm no Fortnite e no Roblox, e fazem isso criando coisas. Se entretêm sendo criativas. [...] A IA vai simplesmente trazer [...] novas ferramentas criativas para deixar essas crianças fazerem o que conseguirem imaginar.
[Quando] conversamos com labels de música sobre isso, eles estão bem tranquilos. Inicialmente, as pessoas se sentiram ameaçadas, e entendemos isso — é uma nova tecnologia, e vai realmente baixar a barra técnica necessária para fazer coisas que soam bem. Mas o que isso expõe é quem é a estrela, o que é uma estrela, e o que é talento. É muito mais do que a capacidade de tocar um instrumento. As pessoas são atraídas por outras pessoas porque são bonitas, engraçadas ou envolventes. Na música, não há um chart Billboard sub-15: quando crianças, você tem que competir com os adultos, tecnicamente — e isso é muito difícil. Se removermos essa barreira, acho que haverá jovens pop stars por aí [e] outros jovens vão realmente se identificar [com eles]. A IA vai permitir que sejam descobertos mais cedo, para que possam comunicar exatamente o que estão sentindo e dizendo uns para os outros. E acho que isso vai levar a uma indústria pop completamente nova, e para os labels [...] — essas pessoas ainda vão precisar de exposição e de gestão de carreira. Vejo os labels como VCs para a indústria musical, e eles ainda vão ter que investir no talento, e acho que vão apenas ver mais disso, mais cedo do que viram antes, e acho que vai ser um grande boom para eles. Vão encontrar todas essas jovens estrelas por aí.
Ouvir como Podcast
Links
- Demo da evolução do Popgun
- Mais informações sobre Redes Generativas e Machine Learning
- Interdição do Boeing 737 Max após 2 acidentes
Empresas Mencionadas (em ordem alfabética)
Transcrição Completa
David Weiszfeld [00:00]: Então hoje você está dirigindo o Mawson. A gente estava brincando porque eu tinha dificuldade de pronunciar, então: M.A.W.S.O.N. É um laboratório de IA na Austrália, e vocês investem e constroem projetos do zero. Os três que conheço — pode haver outros menos conhecidos agora — são Popgun, Replica e SUPERRES. Vamos começar a colocar links abaixo do blog, para as demos do Popgun e outras coisas que são públicas — você pode talvez resumir os três projetos e o que os torna únicos?
Stephen Phillips [00:44]: Uma das coisas em que trabalhávamos no Hunted o tempo todo, e que nunca resolvemos, era... No cerne da recomendação em música está a métrica de similaridade. Essas duas músicas são similares — o quanto são similares? Posso ouvi-las e te dizer o quanto são similares — se as tiver ouvido, mas os computadores não conseguem fazer isso. O próprio áudio bruto era uma caixa preta. O melhor que podíamos fazer era adicionar etiquetas a ele, etiquetas de texto. E as redes sociais ou a abordagem de rotulagem humana da Pandora ou o que o Spotify faz — aquele tipo de coisa onde adicionam metadados — é um substituto para o fato bruto de que não entendemos, com um computador, como aquilo soa. E eu sempre fui fascinado por não conseguirmos trabalhar com áudio. Tipo, por que tenho que esperar a multidão me dizer que essas duas coisas são similares? E então tentamos muitas coisas diferentes no Hunted em 2011/2012. Com o tempo, foi tolice porque a tecnologia não existia para fazer isso, mas não sabíamos disso. Simplesmente continuamos batendo em paredes.
Mas então, por volta de 2013/14 no Twitter eu via as equipes de ML lá, comecei a fazer coisas com deep learning que eu não tinha... Pensei: oh, isso vai ser uma coisa, eles vão conseguir... Se eles conseguem fazer isso com imagem, reconhecimento de escrita e imagens — com certeza alguém vai fazer isso com áudio. E então, por volta de 2016, o Google começou a fazer um monte de coisas a partir da equipe do deep mind, em torno de síntese de voz, e foi tipo: oh, eles vão resolver isso e vai mudar tudo. Vamos conseguir fazer coisas de verdade, tipo — me dê todas as músicas com voz feminina, gaita e bongô — descoberta assim. Não sei se alguém quer isso, mas sempre fantaseio sobre o quanto seria incrível.
David Weiszfeld [02:27]: Talvez com outros critérios, sim, mas com certeza, claro!
Stephen Phillips [02:30]: Exato. Bem, alguém que soa como Whitney Houston e, sabe, com um violão acústico fazendo algo em compasso 3/4, ou o que for, sem nenhuma rotulagem, em catálogos massivos.
David Weiszfeld [02:45]: Só baseado no áudio?
Stephen Phillips [02:48]: Resolvendo o problema do cold start que os serviços de streaming têm. Mas o estado da arte em recomendações agora é algo como o Discover Weekly, e eles tiveram essa ideia muito bacana de: as coisas pertencem juntas se um humano diz que pertencem, e a expressão disso é colocá-las em uma playlist. E portanto toda a coisa deles é movida pela intersecção de playlists, e é a melhor coisa que alguém já criou, para "não sabemos o que é isso, como desenvolvemos um substituto para isso". E o mecanismo deles é genial nisso. E produzimos um monte de coisas nós mesmos em torno de ideias similares — mas eles chegaram à escala com isso. Então funcionou com personalização e gêneros; porque eu tinha a escala desse mecanismo de playlist, que fazia isso muito bem. Eu tinha visto essas coisas de deep learning e comecei a me aprofundar nisso. Eu tinha estado em machine learning por 10 anos até então e parecia que eu precisava entrar nesse espaço, que isso ia mudar as coisas completamente. Minha única ideia na época era que isso mudaria como fazemos descoberta musical. Isso ia ser a nova coisa de descoberta musical.
E então, durante todo o ano de 2016, fundei o Mawson com meu investidor original, e queríamos fazer coisas de IA — e simplesmente não conseguíamos recrutar ninguém. Era impossível. Qualquer pessoa que soubesse o que estava fazendo já tinha saído, tinha ido para o Google, tinha ido para a América ou o que fosse. De volta na Austrália, simplesmente não conseguia — tudo aquilo trabalhando em carros autônomos, e nas nossas universidades fazendo doutorados, e simplesmente não conseguia encontrar... E eu sabia por experiência própria que não posso simplesmente pegar devs web e ensinar isso a eles. A matemática necessária para fazer isso estava além do que eu faria e do que a maioria dos devs web, ou mesmo engenheiros de software comuns, fariam. E levei cerca de nove meses para encontrar alguém chamado Adam Hibble, que tinha uma equipe de quatro ou cinco caras e eles estavam tão avançados, fazendo projetos de deep learning em Brisbane na época. Ele e eu nos entendemos muito bem, e pedi que viesse trabalhar em música, e ele achou isso uma loucura. Tipo, quem se importa? Tipo, se você consegue fazer essa tecnologia, isso é a coisa menos interessante que poderia fazer. Mas eu sabia, porque eu conhecia pessoas como Adam — ele tinha 24/25 anos ou algo assim, e me lembrava muito de mim mesmo nessa idade — eu sabia que se conseguisse fazê-lo trabalhar nisso por um tempo, ele ia se viciar como eu fiz. E então basicamente paguei a ele e sua equipe para construir um site de descoberta musical baseado em coisas de áudio bruto puro, e fiz isso em cerca de seis semanas.
A forma como eles fizeram, eles tinham essa ideia — que todo mundo tinha em deep learning — você entende algo sendo capaz de gerá-lo. No processo de gerá-lo, você cria uma receita para isso. E comparar receitas de duas coisas te diz o quanto elas são similares. Então, para resolver similaridade e descoberta, eles precisavam gerar áudio bruto e então percebi: se eles vão gerar áudio bruto, a descoberta é a coisa menos empolgante que você poderia fazer com isso. Vamos escrever músicas, vamos mudar a indústria musical, e foi aí que o Popgun se propôs a fazer. E então Bob Moz. Não era Popgun naquele ponto. Eu estava apenas trabalhando com Adam, e tínhamos esses momentos "aha" de: oh, vamos conseguir compor músicas aqui. Vamos realmente conseguir varrer os charts do top-40 e então criar música que soa assim.
E então, inicialmente, nos chamávamos Fake Records, e íamos ter um label, íamos lançar música. E então Trump apareceu e tomou a palavra "fake" então não podíamos nos chamar assim, e então Bob Moz, com quem eu era um grande amigo no Twitter. Tínhamos trabalhado juntos lá nos últimos estertores do meu tempo no Twitter. Ele fundou o Techstars Music e estava tentando recrutar equipes e veio. Ele sugeriu que Adam e eu formássemos basicamente o Popgun e viéssemos ao programa. Então fizemos isso em dezembro de 2016. Fomos à classe inaugural em 2017. Trouxe Adam e acho que quatro ou cinco outros jovens, com vinte e poucos anos, para vir fazer coisas de composição musical com IA. Nosso pitch era: vamos ter um hit no Top 40! Esse era nosso objetivo, e ainda é o objetivo da empresa. Agora são dois anos e um pouco depois. A empresa agora tem mais de vinte pessoas, dependendo dos freelancers que estejam por perto em qualquer momento. E eles têm feito, principalmente em modo stealth, tentando fazer competição musical séria com IA. Então essa foi a primeira equipe que passou pelo programa.
David Weiszfeld [07:22]: Então sei que há dois vídeos: um de alguns anos atrás e um do ano passado, eles são públicos. Essa é a última demo que vocês lançaram?
Stephen Phillips [07:30]: Não. Então passamos o primeiro ano em 2017 aprendendo a tocar piano. Só isso. Como ensinamos uma rede neural a tocar piano?
David Weiszfeld [07:41]: É essa a demo, onde alguém começa a tocar e o computador termina a melodia?
Stephen Phillips [07:48]: Não. Isso foi o primeiro terço daquele ano. Então era a demo de alguém tocando, e completar era com a demo que fizemos para o TechStars. Então era nossa predição polifônica. Então, posso tocar algo no piano, e então ele vai prever o que vou tocar a seguir. Depois disso trabalhamos em... Então é um problema muito simples. Como prever em uma sequência de coisas o que mais provavelmente viria a seguir? E depois fizemos improvisação, que é "dado um trecho musical, conseguimos improvisar sobre ele e ainda fazer sentido melódico?" Então, conseguimos explorar todas as outras formas como isso poderia ser tocado? Mas ainda mantendo a musicalidade da peça, para que seja reconhecível por músicos, que sim, essa é a mesma peça. Mas estamos improvisando com ela. E então, quando conseguimos fazer isso, estamos prontos para fazer composição de verdade. Então, ao final de 2017, após um ano de dez pessoas trabalhando naquele único problema, o ano inteiro, chegamos ao ponto de compor peças originais de piano, e fomos a San Francisco.
Dissemos basicamente: olha isso. Você já ouviu uma IA fazer música? Eles diziam: é-é, sempre é meio ruim. Bem, então olha isso! E tocamos um piano incrível e eles perguntaram "O que fez isso?". E a essa altura, se a IA consegue dirigir carros com certeza consegue tocar pianos! Era de se esperar que conseguisse. E as pessoas ficaram de queixo caído com o que ele conseguia fazer num piano. E expusemos uma visão de: vamos ensiná-lo a tocar cada instrumento, e então vamos ensiná-los a tocar juntos, e então vamos ver o que acontece. E então vamos dar para todo mundo e ver o que as pessoas fazem com isso. E encontramos... Tivemos sorte de conhecer ótimos investidores naquele mês que passamos em San Francisco. Acabamos indo com a Khosla Ventures, porque eles tinham feito tantas apostas em IA até aquele ponto — acho que éramos o 28°, ou algo assim — e eles tinham pessoas de IA muito seniores e respeitadas em sua equipe, e simplesmente achamos que tinham muito valor.
As outras firmas eram todas especialistas em coisas diferentes, conhecemos a Greylock e eles tinham caras incríveis ao redor, que estavam nas equipes de crescimento do Facebook, LinkedIn e Twitter. Mas era cedo demais para nós, porque não tínhamos nada para fazer explodir e eles pareciam a equipe perfeita para isso. Não tínhamos ideia naquele ponto de como isso ia ser difícil. Sabíamos que levou um ano para tocar piano! Quanto tempo isso vai levar? E a K.V era super-paciente. A maioria dos investimentos deles era em materiais e coisas médicas. Então, eles diziam: "é, isso é tecnologia pesada, vai levar um tempo. Temos que ser pacientes com esse tipo de coisa." Então em 2018, começamos a trabalhar: fizemos baixo, bateria, guitarras. Começamos a mixar, começamos a masterizar. Começamos a produzir músicas pop completas. Começamos a acompanhar cantores, e foi mais ou menos naquele momento... Foi o fim da nossa última demo. Junho de 2018.
E desde então temos trabalhado em outras coisas, que são, se as pessoas estão acompanhando em casa, qual seria a próxima coisa inevitável que uma empresa, que chegou até aquele ponto, faria a seguir? Não divulgamos o que é, é muito difícil! Achamos que estamos chegando lá, mas sentimos um certo senso de urgência, mas sentimos que alguém vai fazer isso e vai fazer de verdade direito e com uma equipe muito talentosa. E você pode meio que fazer mal feito algumas dessas coisas, e correr para o mercado, e soar como música de elevador e coisas assim. Alguém vai gastar o tempo e o dinheiro, e temos a sorte de estar na Austrália, do outro lado do mundo, temos uma ótima equipe que está junto desde o começo. Temos produtores que trabalham conosco aqui na Austrália, que conseguiram simplesmente baixar a cabeça, e temos uma visão muito clara de — tem que ser tão bom quanto o que um artista poderia fazer. Se a IA conseguisse fazer isso, o que faria? Tem que ser assim tão bom.
David Weiszfeld [11:49]: Você mencionou carros autônomos e todo mundo espera que o carro autônomo seja mil vezes mais eficiente do que um humano, porque se um humano bate você pensa — bem, sabe, é humano. Mas se um robô bate, é como se toda a frota de carros tivesse um problema. Isso é uma grave falta de prioridades. Houve dois acidentes com o Boeing, e eles retiraram todos os 737 do mundo, porque havia algo errado com a máquina. Não foi erro do piloto. Então imagino que é a mesma coisa quando você começa a automatizar coisas e ter a IA fazendo coisas por você. Você precisa que ela seja mil vezes, um milhão de vezes melhor que um humano. Precisa ser impecável. Todo mundo precisa ter o mesmo wow diante da tecnologia. Uma música que é pela metade boa é na verdade uma música ruim. Não existe música pela metade boa. É tipo meh. Você quer que todo mundo fique "UAU" diante da música. Esse problema deve ser extremamente difícil.
Os carros, na verdade, conseguem gravar: quando você está dirigindo seu Tesla, por exemplo, eles enviam todas as informações de direção de volta e é assim que estão construindo os carros autônomos. Então você está ouvindo tipo milhões e milhões e milhões de músicas, obtendo as patentes. Qualquer um que talvez não seja da área de tecnologia pode se relacionar com os carros autônomos, mas esse é um assunto mais conhecido e é basicamente a mesma coisa no começo, exceto que o resultado é: um é um motorista muito racional, e o outro é uma música muito criativa. E é aqui que a dificuldade, a dureza do lado criativo aparece, no final. Obter todas as informações pode não ser a coisa mais difícil, mas fazê-lo produzir algo criativo que é novo, é na verdade o exato oposto do carro autônomo, que você queria que não fizesse nada de novo, e fizesse exatamente como é suposto fazer.
E você pode prever o que ele é suposto fazer, enquanto para você, não consegue realmente prever o que a música é suposta ser. A música vai te surpreender quando você a ouvir. Consigo imaginar como esse projeto deve ser fascinante. Então vamos colocar o link para a primeira demo do Techstars, a de 2017. Vamos colocar o link para a de 2018, e então imagino que em alguns meses, antes do final do ano, você vai lançar a nova demo, que desta vez, imagino, é muito mais completa e tem algumas das coisas que você acabou de explicar: os diferentes instrumentos, talvez mais pop. Estou extremamente curioso para ver o que vocês vão criar!
Stephen Phillips [14:17]: Sinto que tudo o que fizemos no Hunted levou à oportunidade de ter a confiança e paciência das pessoas que nos dariam a liberdade de tentar e fazer direito. Temos um pouco a sensação de que — é fácil também, porque há muitos momentos, mesmo que tenham sido dois anos e um projeto longo para meio que ficar parado. Houve pontos suficientes, muitas vezes ao longo disso, onde você pensa: "Isso é muito legal. Tipo, aquilo foi muito legal." E temos que continuar porque fizemos isso. Ainda nem chegamos perto da superfície, de verdade. Sabe o que quero dizer? Vemos outras pessoas correndo para lançar coisas de música com IA, e sabemos que isso deve ser apenas heurísticas, ou algoritmos, ou — porque isso é difícil: difícil de fazer direito e difícil de fazer bem. Simplesmente sentimos que isso permite fazer coisas que antes não eram possíveis de jeito nenhum. E temos que continuar até capturar essas coisas e simplesmente sentimos — não sei, me sinto realmente privilegiado de que tudo o que levou a isso me dá essa oportunidade de estar perto disso, e estar com uma equipe de pessoas assim quando está acontecendo. Estou simplesmente com muita sorte, então tenho que codificá-lo. Posso ficar de lado como torcedor para esses jovens enfrentando coisas incrivelmente difíceis, e sabendo que isso vai trazer tanto prazer para as pessoas, esse sentimento de criar música e compartilhá-la — ainda é uma coisa tão elitista, nem todo mundo consegue fazer! Fazer bem e deixar outras pessoas fazerem isso vai trazer tanto prazer para as pessoas.
As pessoas olham de fora e pensam que música é só música — e a música está em todo lugar. É cultura para mim: está nos filmes, está... Onde quer que eu me vire, ouço música e ela faz algo com as pessoas que nada mais faz. Poder trabalhar em tecnologia ao redor disso é realmente um privilégio. Sou feliz em fazer isso pelo resto da minha vida e me sinto com sorte de ter caído nisso. Me sinto tão com sorte. A equipe, esses jovens são tão comprometidos e também se apaixonaram pelo problema. Vamos ver como isso se desenvolve daqui para frente. Mas foi uma coisa muito divertida de trabalhar nos últimos dois anos, e só sei que é a mesma coisa que aconteceu com o Hunted. Não importa como isso se desenvolva, seja que consigamos um produto ou não, eles são a melhor equipe técnica na indústria musical hoje. Não conheci todo mundo, mas se há outra equipe melhor do que esses caras em qualquer lugar do mundo, eu ficaria muito surpreso. Só por causa das circunstâncias em que aconteceu e eles não deveriam estar trabalhando em música, é só porque me conhecem e estamos do outro lado do mundo que podem imediatamente ir ao Google e trabalhar em algo como carros ou medicina. Tenho acesso a engenheiros realmente talentosos aqui, e eles são fascinados pelo problema — me sinto realmente com sorte.
Uma das coisas que aprendemos naquele primeiro ano foi: não é só a música que vai ser impactada por isso. O que estamos fazendo na verdade é imitar habilidades criativas humanas: tocar piano, tocar baixo. São coisas que os humanos fazem bem, e se você der informações suficientes sobre como fazer isso, consegue aprender a emular essa habilidade criativa. Vai fazer isso em cada campo criativo. Então para mim, a forma como criamos e consumimos entretenimento nos próximos cinco anos está prestes a ser completamente transformada. Então foi quando passamos de... Tivemos um vislumbre muito precoce de como isso parece, e precisamos investir nisso, como em vamos... Então a Replica estava por perto. Temos uma lista — no nosso laboratório aqui — de todas as habilidades de talento humano, e como as emularíamos, e quais são as mais valiosas, ou quais são as mais ubíquas. E uma que se destacou foi dublagem — que falar não é aturar, atuar é muito mais do que simplesmente falar. Poder emular essa habilidade e colocar atores nas mãos de cineastas independentes, desenvolvedores de jogos, anunciantes, tudo isso. Ter um espaço contínuo de todas as vozes possíveis e expressões de felicidade, alegria, tristeza, e poder ter isso sob o controle da tecnologia, é uma arma no entretenimento. Vamos mudar como fazemos cada tipo de entretenimento. E então com a Replica, eles foram a segunda equipe que entrou e o Google lançou o WaveNet, que foi o tiro de largada naquele espaço.
E pensamos: Google e Amazon vão trabalhar muito em coisas de voz como Siri, seus dispositivos domésticos, e tudo isso. Mas eles terão crianças chorando, rindo? Terão um burro zurando? E até onde vão com a expressividade disso? Pensamos que alguém vai levar isso ao extremo, e de fato tirar do simples falar para atuar, e ser capaz de estar em personagem, e você poderia ter um pirata, falar como pirata. E um cavaleiro falando nesses sotaques particulares. E isso está explorando as possibilidades disso. Então lançamos a Replica no início de 2018. Eles trabalharam em tecnologia de voz o ano inteiro, e então estão na Techstars agora. Estão clonando vozes de celebridades, criando personagens para jogos — brincando bastante com essas ideias.
Mas, essencialmente, a tecnologia é muito similar ao que fazemos internamente. Então, embora nossas equipes tenham suas próprias bases de código, suas próprias empresas, sou investidor nelas. Elas compartilham muito uma cultura de abertura sobre "como resolvemos essas coisas". Elas têm sua própria propriedade intelectual. Não compartilham código. São todas, na verdade, um pouco competitivas entre si. Mas se beneficiam de ter uma experiência compartilhada num laboratório, onde podem sentar com outras pessoas — há 35 pessoas aqui. Conseguem sentar juntas e falar sobre problemas, e deliberadamente as colocamos muito em paralelo umas com as outras. Então há uma experiência compartilhada. Uma não está apenas fazendo IA em carros e a outra fazendo música. Uma faz música e essa faz voz e, a Super Res tinha feito, eles são a terceira empresa que apareceu. E foi realmente resultado de um processo. Fizemos, em um dos projetos que o Popgun estava fazendo, vimos um artigo de alguém que estava fazendo imagem super resolução, e simplesmente adoramos a ideia. A classe de redes em que trabalhamos, essa classe de redes chamada Redes Generativas, onde basicamente consumimos um grande volume de conteúdo, e criamos essa distribuição de todas as variantes possíveis disso. E então você pode gerar explorando diferentes partes desse espaço multidimensional, isso gera algo novo a partir disso.
E esses caras conseguiam pegar uma foto preto e branco e ampliar para alta resolução e colori-la. E ficávamos: como diabos isso funciona? E a forma como fizeram, é que pegaram fotos coloridas em alta resolução e as degradaram para versões preto e branco de baixa qualidade e aprenderam a ir para frente e para trás. E então quando dada uma ruim, criamos uma super resolução, e estávamos muito interessados na ideia de fazer isso no áudio de forma que — duas razões. O quanto poderíamos melhorar o som do Skype? Essa é uma forma muito interessante de comprimir coisas. Então não preciso enviar uma versão em alta resolução — posso enviar uma versão bem ruim e ter uma nova rede imaginar o que deve ter sido, e ter uma coisa de realmente alta qualidade. Então isso tinha funcionado nessa classe de redes em torno de pegar conteúdo — primeiro áudio mas que também funcionou em imagens — e trazê-lo de volta à vida. Mas a classe de redes é sobre como pegamos mídia e imaginamos o que ela deve ser em outra forma. Então isso funciona desde pegar um velho filme preto e branco e fazê-lo parecer que era colorido em alta resolução em HD. Mas então, no futuro, pegar conteúdo feito hoje e torná-lo pronto para VR, dividindo-o no que os olhos devem ser. Usar redes de IA para imaginar coisas é muito legal, e realmente adoramos essa ideia — porque todas as equipes estão efetivamente fazendo isso.
A Replica está imaginando como um pirata soa. Depois de ter visto pirata suficiente — nunca viu um papagaio dizer "Olá, meu nome é Stephen", mas eu poderia imaginar como um pirata diria isso. E é como uma classe dessas redes. Nossas novas equipes estão trabalhando em texto, estamos trabalhando em imagens, achamos que essa classe de redes e essa ideia — de que a IA pode imaginar coisas novas — vai mudar como fazemos filmes, e como fazemos vídeos, e conteúdo, e música. O verdadeiro desafio para todas essas equipes — e o desafio do Popgun em que trabalhamos — é que não basta ser capaz de gerar essas coisas. Você precisa construir uma interface e transformar isso em uma ferramenta que algumas pessoas possam usar. Porque esse é o ponto central disso. Ninguém quer apertar um botão e receber a música. Elas querem ter acesso a essa inteligência para fazer o que querem. Como controlar essas redes é um grande desafio.
David Weiszfeld [23:16]: Se temos um fio condutor de todos os seus projetos: Hunted é scraping de dados de backend, ranqueamento, charting... Isso é 99% do trabalho. E então, obviamente, você tem que tomar decisões de design, e a rolagem lateral, e as vinhetas, e as coisas. Mas sem aquela UX, provavelmente o site não teria tomado tanto espaço. Mas se você é um A&R numa gravadora, ou quem quer que fosse na MTV que te contatava de Nova York, eles adoravam a experiência e a música, e na verdade como funciona por baixo. Não importa, desde que simplesmente funcione conforme a citação da Apple: "Desde que funcione", a maioria das pessoas não vai tentar escavar por baixo. Se amanhã você pode ter um front-end legal e alguém está brincando com o Popgun e fazendo uma música pop — sabendo e entendendo exatamente como a rede funciona, como você coloca dados, e como ela cria algo criativo — todo esse processo não significa realmente nada para uma pessoa normal.
Quando uma criança joga FIFA no PlayStation, ela não entende realmente que a bola está sendo calculada, e o movimento do jogador, e assim por diante. Ela está apenas jogando um jogo. E é isso que há de mágico em "simplesmente funciona". É tipo a mágica do product market fit: não é sobre tentar pensar em coortes e coisas, é um dia você simplesmente sabe. Sim, colocar uma tecnologia muito-muito pesada — porque o que vocês fazem não são funcionalidades, são como inovações tecnológicas pesadas — e colocar isso nas mãos de uma pessoa normal, que é uma não-técnica, e então ter sucesso — esse é o teste final para vocês. A Replica poderia ser usada por cada canal do YouTube, qualquer pessoa que faz conteúdo e quer traduzir, qualquer pessoa fazendo animação e quer colocar um personagem. Você escolhe uma cabeça de batata, qual voz vou dar a ela? Você escolhe um pirata, qual voz vou dar a ele? Tenho esse conto de fadas, e preciso que personagens e animais falem. Qual é a voz de um porco falante?
As pessoas na Pixar fazem castings com vozes, fazem sessões de uma semana para encontrar a voz comum — você mencionou o burro, ou o porco, ou qualquer animal. Esse processo poderia potencialmente ser internalizado com, não sei — alguém que está numa escola fazendo design gráfico e animação 3D, faz seu primeiro filme 3D de 20 segundos, e nesses 20 segundos o pássaro fala com o porco, em algum momento — qual voz você coloca? É incrível imaginar que alguém poderia realmente fazer tudo isso usando seu laptop, assim como um músico: Trinta anos atrás, você precisava de um estúdio, e hoje estão basicamente apenas no laptop. Empurrar isso para a criação de voz — isso é simplesmente incrível. A tradução sozinha é um problema enorme. A capacidade de traduzir em 50 idiomas instantaneamente seria simplesmente insana.
Stephen Phillips [26:09]: A tecnologia vai ser lugar-comum nos próximos dois anos. Como um Photoshop para voz, ser capaz de tratar a voz como uma imagem, para que você possa editá-la, alterá-la, movê-la, fazer com que diga tudo isso, que fale em outros idiomas, mudar completamente a identidade vocal, mudar de masculino para feminino, o que for — tudo isso vai ser possível. A corrida está em andamento para construir isso. A tecnologia ainda não está lá: há muitos exemplos, há 10 empresas ou mais nesse espaço, ainda é bastante difícil de fazer, ainda há um monte de problemas em torno de emoção e capturá-la. A boa notícia para pessoas criativas é que essas ferramentas estão chegando no próximo ano ou assim. Realmente adoramos essa ideia de que tudo isso está apenas fazendo parte dessa tendência mais ampla de democratização, criatividade e realizando essa transição do consumo em massa para a criação em massa. Essas crianças que cresceram no Minecraft estão chegando, e agora se entretêm no Fortnite e no Roblox, e fazem isso criando coisas. Se entretêm sendo criativas. Costumávamos brincar com minha esposa, observando a obsessão com o Minecraft, que a arquitetura daqui a dez anos vai ter uma explosão de designs. Isso simplesmente fluiu para como eles se expressam, e para mim a IA vai simplesmente trazer todo um conjunto de novas ferramentas criativas para deixar essas mesmas crianças fazerem o que conseguirem imaginar.
Acho que vamos descobrir, e falamos muito internamente no Popgun, que vamos entrar numa era, onde... E uma vez que conversamos com labels de música sobre isso, eles estão bem tranquilos. Inicialmente as pessoas se sentem ameaçadas, e entendemos isso — é uma nova tecnologia, e porque vai realmente baixar a barra técnica, necessária para você fazer coisas que soam bem. Mas o que isso expõe de quem é a estrela, e o que é uma estrela, e o que é talento. É muito mais do que a capacidade de tocar um instrumento. As pessoas são atraídas por outras pessoas porque são bonitas, engraçadas ou envolventes. Na música, não há um chart Billboard sub-15. Quando crianças, você tem que competir com os adultos, tecnicamente — e isso é muito difícil. Se removermos essa barreira, acho que há jovens pop stars por aí, que — outros jovens vão realmente se identificar com. Esta IA vai permitir que sejam descobertos mais cedo, que comuniquem exatamente o que estão sentindo e dizendo uns para os outros. E acho que isso vai levar simplesmente a uma indústria pop completamente nova, e para os labels é tudo em torno disso — essas pessoas ainda vão precisar de exposição, e de gestão de carreira, e vejo os labels como VCs para a indústria musical, e eles ainda vão ter que investir no talento, e acho que vão simplesmente ver mais disso, mais cedo do que viram antes, e acho que vai ser um grande boom para eles. Vão encontrar todas essas jovens estrelas por aí.
David Weiszfeld [29:10]: Provavelmente da forma como você vê: Não é só que vai ser talvez pessoas mais cedo, as pessoas também estão construindo arte com ajuda da IA, colaborando com ela — ou você nem saberia porque a IA vai estar na DAW, no Pro Tools, como um VST. E então quando te enviam uma música é só uma música e quem sabe como a música foi feita. Mas acho que vai mais longe do que isso, e Replica e PoPgun são sinais disso. Crianças estão fazendo vídeos de animação mais facilmente do que antes, crianças que são pessoas do YouTube agora estão fazendo música — a ponte entre o que é um artista, e é um músico? É um ator? É fazer um vídeo? É um designer gráfico? Crianças hoje podem fazer seus próprios videoclipes — talvez não filmado como um vídeo de David LaChappelle, mas podem fazer um vídeo, podem fazer uma obra de arte. Podem colaborar com pessoas completamente do outro lado do mundo. Como você está na Austrália, e eu estou em Paris agora. Essas coisas a gente não pensa mais realmente. A aposta, acho, é que em cinco anos a definição de "o que é um músico" e a ideia de que você cresce no seu quarto, tocando um instrumento por nove anos antes de poder meio que mostrar ao mundo o que você é, como você é bom tecnicamente. Esses dias talvez não estejam 100% encerrados — você ainda vai ter guitar heroes em 20 anos, pessoas tocando shred e essas coisas. Mas isso vai sumir, e os artistas vão combinar diferentes artes em uma única criação.
Você vê isso com as empresas que fazem monetização do YouTube para jogadores de videogame e canais de YouTube de adolescentes de maquiagem, e essas pessoas estão começando a fazer música. E então na verdade o gerente delas é a empresa de monetização do YouTube, que acaba gerenciando o cantor. E então geralmente acabam fazendo parceria, hoje, com uma empresa de música, porque não é de jeito nenhum o que elas são supostas fazer — elas são supostas monetizar conteúdo do YouTube. E elas acabam com um hit. Acho que a Republia na verdade acabou de lançar o primeiro single dessa mega pessoa do YouTube que não é músico, nem era cantor até tipo um mês atrás. E de repente ele tem essa incrível plataforma de promoção, por causa dos fãs que tem na sua outra coisa, e ele provavelmente tem tipo 17 anos. Sim. Vai exponencialmente rápido. Foi uma hora e meia, e tomei tempo demais do seu — então queria encerrar com três perguntas padrão que vamos fazer a todo mundo. Uma, e não consigo imaginar como seria aquela reunião entre você agora e o você de 19 anos. Aos 19 você saiu da faculdade, ou ainda estava na faculdade. Você ia trabalhar e é uma espécie de empresa de consultoria, trabalhando com 25 projetos de tecnologia diferentes. Hunted não era nem algo em que você estava pensando. O site de notícias era talvez algo que você estaria começando a pensar em breve. O que você diria ao Stephen Phillips de 19 anos?
Stephen Phillips [32:11]: Não sei. Tipo, tive uma boa vinte e poucos. Tipo, tive muitos empregos diferentes, e nunca fiquei em nenhum lugar por mais de dois anos, nunca. Economizava dinheiro suficiente, e então fazia o que queria por um ano. Pintei por um ano, fiz música por um ano. Voltava quando estava duro e trabalhava de novo. Sentia que precisava disso. Sentia apenas que nunca... Deveria ter procurado um mentor ou alguém que eu respeitasse, que pudesse me ajudar a encontrar um caminho. Provavelmente me diria para começar uma empresa. Não sei por que levei até ter 35 anos para fazer isso. Simplesmente não parecia. Não cresci no vale. Não era algo que as pessoas faziam na Austrália — começar empresas de tecnologia. Tipo, nunca realmente ouvi falar sobre isso até estar na minha metade dos vinte anos, e a essa altura simplesmente não sabia como fazer isso. Então meu conselho seria começar uma empresa, provavelmente. É o conselho que dou aos jovens agora, especialmente esses caras, que são tão talentosos que as universidades deles estão tentando fazê-los fazer doutorados, o que acho uma loucura. Que, você sabe, vá e comece uma empresa, este é o momento perfeito: você não tem família, não tem compromissos. Você sempre pode voltar e pegar um emprego chato. Então eu provavelmente estaria, sim, vá e comece uma empresa. Não espere 20 anos para começar uma empresa.
David Weiszfeld [33:31]: Bob Moz do Techstars, acho que ele estava explicando — a tese deles é que o talento está completamente distribuído de forma igual. Há pessoas talentosas em Melbourne, e Sydney, e Canberra, e Paris e Berlim — onde quer que seja. Mas a oportunidade não está. E porque a oportunidade não está, acho que a verdade é que nós, como talvez pessoas não da Califórnia e não de Nova York, não realmente acreditamos que somos... Tipo, vou realmente começar uma empresa? Vou tipo fazer uma coisa de música, vou ir a Nova York e ser adquirido pelo Twitter ou realmente manter a empresa por um tempo? E então sim, enquanto o talento está completamente distribuído de forma igual, a oportunidade, mas também a autoconfiança — porque está nos genes dos californianos acreditar que vão mudar o — não está nos genes dos australianos, e definitivamente não está nos genes dos franceses. Então sim, comece uma empresa, acredite nos projetos, e se você tem uma ideia — vá e faça e teste!
Stephen Phillips [34:25]: O grande aprendizado para mim foi, quando cheguei aos Estados Unidos, que eles são só caras, não são melhores do que nós. Eles simplesmente tiveram uma expectativa completamente diferente do que é possível e é nisso que passo muito tempo falando com os jovens aqui. Sei que eles parecem super-humanos porque produzem tanta coisa legal lá, mas são só caras e podemos vencê-los. Podemos competir com eles. Não são mais inteligentes do que nós. São apenas mais numerosos. Há mais dinheiro, mais apoio, mais confiança, há as coisas que não temos que te darão o dinheiro e vamos desenvolver a confiança e tenho que enviar — uma das primeiras coisas que faço quando recruto é — envio eles lá e volto com: São só caras! Sim, te disse isso.
David Weiszfeld [35:09]: Você nem tem a barreira do idioma. Então você pode enviar alguém para lá, e eles podem perceber que é igual. São só pessoas lá que pensam mais, acreditam mais. Acho que na América as crianças recebem muitas apresentações em sala de aula, e então você está acostumado a falar com muitas pessoas, defender seu projeto, quase fazer um pitch — não é um pitch, não é um pitch, mas está quase lá. Na França ensinam muito sobre autocrítica e você sabe como olhar para as teses, a antítese. Você tem que se contradizer o tempo todo. E então isso faz com que você não tenha tipo "eu acredito e vou". É mais tipo eu acredito mas também duvido. E também, então, vou tentar acreditar em algo diferente, e então duvidar. E adoramos esse tipo de debate. Há algum livro ou podcast específico que deveríamos colocar o link que você ama e seja um livro que você tem relido?
Stephen Phillips [36:03]: Agora estou envergonhado de dizer — não tenho. Costumava ler ferozmente nos meus vinte anos, e agora consumo o máximo de música e mídia que consigo. Não sinto que tenho tempo para ler agora. Sinto que minha responsabilidade é para com minhas equipes e minha equipe, e passo cada momento que não estou passando com minha família trabalhando para eles. Então sinto que quando me aposentar em 15/20 anos vou ler cada livro que perdi de ler.
David Weiszfeld [36:38]: O que você vai fazer logo após essa entrevista? Imagino que são 20h40, provavelmente vai jantar?
Stephen Phillips [36:41]: Vou para casa, ver minha família, e tenho um voo cedo para Sydney de manhã. Para ver pessoas da música em Sydney. Ótimo. Obrigado!
David Weiszfeld [36:58]: Foi incrível. Na verdade quero ouvir agora. Muito obrigado pelo seu tempo numa hora tão tardia. Falamos em breve. Muito obrigado.