Stephen Phillips sur la composition musicale par IA

À propos de cet épisode

La deuxième partie de notre interview avec Stephen Phillips, PDG de Mawson, un laboratoire d'IA qui applique le machine learning et les réseaux génératifs pour résoudre des problèmes fondamentaux dans les industries créatives. Si vous avez manqué la première partie de notre conversation avec Stephen, vous pouvez la retrouver ici.

Sinon, allons-y directement. Dans cet épisode, nous parlons des projets actuels de Mawson, des réseaux génératifs appliqués à l'audio, de la façon dont l'IA va transformer l'industrie musicale, et de ce que le mot « artiste » signifiera pour les générations futures.

Sujets et temps forts

00:42 — Sur le problème des algorithmes de recommandation et de découverte musicale

Stephen Phillips : L'un des problèmes sur lequel on travaillait chez Hunted [et] qu'on n'a jamais résolu, c'était [la similarité musicale]. [...] Ces deux chansons se ressemblent, dans quelle mesure ? Je peux les écouter et vous dire dans quelle mesure elles se ressemblent. [...] Mais les ordinateurs n'en sont pas capables — l'audio brut en lui-même était une boîte noire. [...] L'approche de Pandora avec l'étiquetage humain, ou ce que fait Spotify — [quand] ils ajoutent des métadonnées à [une chanson] — c'est un substitut au fait que [les ordinateurs] ne comprennent pas ce à quoi ça ressemble. [...] On a essayé plein de choses différentes chez Hunted en 2011/2012. Avec le recul, c'était insensé parce que la technologie n'existait pas encore, mais on ne le savait pas. [...] Aux alentours de 2013/14 chez Twitter, je voyais les équipes de [machine learning] et [...] puis, vers 2016, Google a commencé à faire tout un tas de choses autour de la synthèse vocale, et là j'ai eu l'impression que : « Ils vont résoudre ça et tout va s'accélérer. » On va pouvoir faire des trucs comme « donne-moi toutes les chansons avec une voix féminine, un harmonica et un bongo », une découverte comme ça. Je ne sais pas si quelqu'un veut ça, mais j'ai toujours fantasmé sur combien ce serait cool. [...] Mais en ce moment, l'état de l'art en recommandations, c'est quelque chose comme Discover Weekly, et ils ont eu cette idée vraiment cool selon laquelle « les choses vont ensemble si un humain dit qu'elles vont ensemble, et l'expression de ça c'est de les mettre dans une playlist ». C'est la meilleure idée que quiconque ait jamais eue pour dire « on ne sait pas ce que c'est, comment développer un substitut ». Et leur moteur est génial pour ça.

03:46 — Sur Popgun et la composition musicale par IA

Stephen Phillips : Ma seule idée à l'époque était [que l'IA] allait changer la façon dont on fait la découverte musicale. En 2016, j'ai fondé Mawson avec mon investisseur d'origine, et on voulait faire de l'IA — mais on ne trouvait tout simplement personne à recruter. Tous ceux qui savaient ce qu'ils faisaient étaient partis chez Google. [...] Il m'a fallu neuf mois pour trouver Adam Hibble, qui avait une équipe de quatre ou cinq personnes [...] travaillant sur des projets de deep learning. [...] Je lui ai essentiellement payé lui et son équipe pour construire un site de découverte musicale basé sur l'audio brut, et ils l'ont fait en six semaines. [...] Ils avaient cette idée — que tout le monde avait en deep learning — [selon laquelle] on comprend quelque chose en étant capable de le générer. Dans le processus de génération, on crée une recette pour ça, et comparer les recettes de deux choses vous dit dans quelle mesure elles se ressemblent. Donc, pour résoudre la similarité et la découverte, ils devaient générer de l'audio brut et j'ai réalisé : si ils vont générer de l'audio brut, la découverte est la chose la moins excitante qu'on pourrait faire avec ça. On va écrire des chansons, on va changer l'industrie musicale — et c'est ce que Popgun s'est mis à faire. [...] J'ai amené Adam et cinq autres jeunes gars pour faire de la composition musicale par IA. Notre pitch était : on va avoir un hit Top 40 ! C'était notre objectif, et c'est toujours l'objectif de la société. La société compte maintenant une vingtaine de personnes, [...] et ils font, surtout en mode furtif, de la vraie compétition musicale avec l'IA.

David Weiszfeld : Donc je sais qu'il y a deux vidéos : une d'il y a quelques années et une de l'année dernière, elles sont publiques. C'est la dernière démo que vous avez publiée ?

Stephen Phillips : Non. On a passé la première année en 2017 à apprendre à jouer du piano. Donc comment apprend-on à un réseau neuronal à jouer du piano ?

David Weiszfeld : C'est la démo où quelqu'un commence à jouer et ensuite l'ordinateur finit la mélodie ?

Stephen Phillips : Non. C'était le premier tiers de cette année-là. [...] C'était notre prédiction polyphonique. [...] C'est un problème très simple : comment prédit-on dans une séquence de choses ce qui viendra le plus probablement ensuite ? Après ça on a fait de l'improvisation, [...] et à la fin 2017, après un an de dix personnes travaillant sur ce seul problème, on en est arrivés au point où on pouvait composer des pièces de piano originales — et on est allés à San Francisco. On a essentiellement dit : regardez ça ! Vous avez déjà entendu une IA faire de la musique ? Ils disaient : ouais-ouais, c'est toujours un peu nul. Bon, regardez ça ! Et on a joué un piano incroyable et ils ont dit : « Qu'est-ce qui a fait ça ? » [...] Les gens étaient soufflés par ce qu'il pouvait faire sur un piano. Et on a exposé une vision : on va lui apprendre à jouer de chaque instrument, puis on va leur apprendre à jouer ensemble, et ensuite on va voir ce qui se passe. Et ensuite on va le donner à tout le monde et voir ce que les gens en font.

En 2018, on a commencé à travailler : on a fait la basse, on a fait la batterie, on a fait les guitares. On a commencé à mixer, masteriser, produire des chansons pop complètes, accompagner des chanteurs. [...] C'était la fin de notre dernière démo — juin 2018. [...] On ressent une certaine urgence, mais on sent que quelqu'un va faire ça et le faire correctement. [...] On peut bâcler et se précipiter sur le marché — et sonner comme de la musique d'ascenseur. Quelqu'un va prendre le temps et l'argent [...], et on a une vision très claire — ça doit être aussi bon que ce qu'un artiste pourrait faire. [...] On voit d'autres personnes sortir des trucs de musique IA en vitesse, et on sait que ce doivent juste être des heuristiques, ou des algorithmes, ou — parce que c'est difficile : difficile à faire correctement et difficile à faire bien. On pense juste que ça permet de faire des choses qui n'étaient auparavant pas du tout possibles.

17:07 — Sur les projets de Mawson lab

Stephen Phillips : L'une des choses qu'on a apprises dans cette première année [chez Popgun], c'est que ce n'est pas juste la musique qui va être impactée par ça. Ce qu'on fait en réalité, c'est imiter des compétences créatives humaines : jouer du piano, jouer de la basse — ce sont des choses que les humains font bien, et si on lui donne suffisamment d'informations sur la façon de faire ça, on peut apprendre à émuler cette compétence créative. [...] La façon dont on crée et consomme le divertissement dans les cinq prochaines années est sur le point d'être complètement transformée. On a une liste — dans notre laboratoire ici — de toutes les compétences humaines de talent, et comment on les émulerait, et lesquelles sont les plus précieuses ou les plus répandues. Celle qui ressortait, c'était le doublage. [...] Pouvoir émuler cette compétence et mettre des acteurs entre les mains de cinéastes indépendants, de développeurs de jeux, d'annonceurs. Avoir un espace continu de toutes les voix possibles et des expressions de bonheur, de joie, de tristesse, et de pouvoir les mettre sous contrôle technologique, c'est une arme dans le divertissement. [...] Donc avec Replica, [...] on a pensé : Google et Amazon vont travailler très dur sur des trucs de voix comme les choses de type Siri, leurs appareils connectés pour la maison, et tout ça. Mais auront-ils des enfants qui pleurent, qui rient ? Auront-ils un âne qui brait ? Et jusqu'où iront-ils dans l'expressivité ? On a pensé que quelqu'un allait pousser ça à l'extrême, le faire sortir du simple discours pour aller vers le jeu d'acteur, être en personnage, et on pourrait avoir un pirate qui parle comme un pirate. [...] Donc on a lancé Replica début 2018. Ils ont travaillé sur la tech vocale toute l'année, et ensuite ils sont chez Techstars maintenant. Ils clonent des voix de célébrités, ils créent des personnages pour des jeux — ils jouent beaucoup avec ces idées.

Mais, essentiellement, la technologie est très similaire à ce qu'on fait [chez Popgun]. Donc, si nos équipes ont leur propre base de code, leurs propres entreprises, [mais] la classe de réseaux sur laquelle on travaille [s'appelle] les Réseaux Génératifs, où on consomme fondamentalement beaucoup de contenu, et on crée cette distribution de toutes les variantes possibles de celui-ci. Et puis, [...] en explorant différentes parties de cet espace multidimensionnel, on peut générer quelque chose de nouveau à partir de ça.

Les gars [dont on avait lu le papier] pouvaient prendre une photo noir et blanc et l'agrandir en haute résolution et la mettre en couleur. [...] Ils ont pris des photos couleur haute résolution et les ont dégradées en photos noir et blanc de faible qualité et ont appris à aller dans les deux sens. Et ainsi, quand on leur donne une mauvaise photo, ils créent une super résolution. On était vraiment intéressés par l'idée de faire ça dans l'audio [chez SUPERRES], [pour] deux raisons. [...] Pourrait-on améliorer le son de Skype ? C'est une façon vraiment intéressante de compresser : je n'ai pas à envoyer une version haute résolution — je peux envoyer une version vraiment mauvaise et avoir un réseau qui imagine ce que ça devait être, et obtenir une version de haute qualité. [Et la deuxième c'est] comment prend-on des médias et imaginer ce qu'ils doivent être sous une autre forme. De prendre un vieux film noir et blanc et le faire paraître en couleur haute résolution en HD, [ou] de prendre du contenu fait aujourd'hui et le rendre prêt pour la VR. Utiliser les réseaux d'IA pour imaginer des trucs, c'est vraiment cool, et on adore vraiment cette idée — parce que toutes les équipes le font effectivement.

[Mais] le vrai défi pour toutes ces équipes — et le défi de Popgun sur lequel on travaille — ce n'est pas suffisant de pouvoir générer ces trucs. Il faut construire une interface et transformer ça en un outil que certaines personnes peuvent utiliser. Personne ne veut appuyer sur un bouton et voir la chanson sortir — ils veulent avoir accès à cette intelligence pour faire ce qu'ils veulent.

26:10 — Sur l'avenir des industries créatives

Stephen Phillips : [Toute cette] technologie sera monnaie courante dans les deux prochaines années. Comme Photoshop pour la voix, pouvoir traiter la voix exactement comme une image, de façon à pouvoir la modifier, la changer, la déplacer, lui faire dire toutes ces choses, lui faire parler d'autres langues, changer complètement l'identité vocale, changer du masculin au féminin, quoi que ce soit — tout ça va être possible. [...] On adore vraiment l'idée que tout ça joue sur une tendance plus large de démocratisation, de créativité et de réalisation de cette transition de la consommation de masse à la création de masse. Ces enfants qui ont grandi dans Minecraft arrivent, et s'amusent maintenant sur Fortnite et Roblox, et ils le font en créant des choses. Ils se divertissent en étant créatifs. [...] L'IA va apporter [...] de nouveaux outils créatifs pour permettre à ces enfants de faire tout ce qu'ils peuvent imaginer.

[Quand] on parle aux labels musicaux de tout ça, ils sont assez à l'aise avec ça. Au départ, les gens se sentaient menacés, et on le comprend — c'est une nouvelle technologie, et ça va vraiment abaisser la barre technique, requise pour faire des trucs qui sonnent bien. Mais ce que ça révèle c'est qui est la star, et qu'est-ce qu'une star, et qu'est-ce que le talent. C'est bien plus que la capacité à jouer d'un instrument. Les gens sont attirés par les gens parce qu'ils sont beaux, drôles ou engageants. En musique, il n'y a pas de chart Billboard des moins de 15 ans : en tant qu'enfants, vous devez concurrencer les adultes, techniquement — et c'est vraiment difficile. Si on supprime cette barrière, je pense qu'il y [aura] des jeunes pop stars là-dehors [et] d'autres jeunes personnes vont vraiment s'identifier à [elles]. L'IA va leur permettre d'être découvertes plus tôt, de communiquer exactement ce qu'elles ressentent et se disent. Et je pense que ça mènera juste à une toute nouvelle industrie pop, et pour les labels [...] — ces personnes auront encore besoin d'exposition, et de gestion de carrière. Je vois les labels comme des VCs pour l'industrie musicale, et ils devront encore investir dans le talent, et je pense qu'ils en verront juste plus, plus tôt qu'ils n'en ont vu avant, et je pense que ça va être un grand boom pour eux. Ils vont trouver toutes ces jeunes stars là-dehors.

Écouter en podcast

Liens

Démo évolution de Popgun
Plus d'informations sur les Réseaux Génératifs et le Machine Learning
Interdiction au sol du Boeing 737 Max après 2 accidents

Entreprises mentionnées (par ordre alphabétique)

Plus d'épisodes Insiders

Transcription complète

David Weiszfeld [00:00] : Donc aujourd'hui vous dirigez Mawson. On plaisantait parce que j'avais un problème à prononcer et donc : M.A.W.S.O.N. C'est un laboratoire d'IA en Australie, et vous investissez et construisez des projets de zéro. Les trois que je connais — il y en a peut-être d'autres moins connus pour l'instant — sont Popgun, Replica et SUPERRES. On va commencer à mettre en lien en bas du blog, les démos de Popgun et d'autres trucs qui sont publics — pourriez-vous peut-être résumer les trois projets et ce qui les rend uniques ?

Stephen Phillips [00:44] : L'une des choses sur laquelle on travaillait chez Hunted tout le temps, qu'on n'a jamais résolue, c'était... Au cœur même de la recommandation en musique se trouve la métrique de similarité. Ces deux chansons sont similaires, dans quelle mesure sont-elles similaires ? Je peux les écouter et vous dire dans quelle mesure elles le sont — si je les ai écoutées, mais les ordinateurs ne peuvent pas faire ça. L'audio lui-même était une boîte noire. Le mieux qu'on pouvait faire c'était d'y attacher des étiquettes, des étiquettes textuelles. Et les médias sociaux ou l'approche de Pandora avec l'étiquetage humain ou ce que fait Spotify — le genre de trucs où ils y ajoutent des métadonnées — est un substitut au fait brut qu'on ne comprend pas, avec un ordinateur, ce à quoi ça ressemble. Et j'ai toujours été fasciné par le fait qu'on ne puisse pas travailler avec l'audio ? Genre, pourquoi dois-je attendre que la foule me dise que ces deux trucs sont similaires ? Et donc, on a essayé des tas de choses différentes chez Hunted en 2011/2012. Avec le recul, c'était insensé parce que la technologie n'existait pas pour le faire, mais on ne le savait pas. On s'est fondamentalement juste heurté à des murs continuellement.

Mais ensuite, aux alentours de 2013/14 chez Twitter, je voyais les équipes ML là-bas, je commençais à faire des trucs avec le deep learning que je n'avais pas... Je me suis dit : oh, ça va être un truc, ils vont pouvoir... S'ils peuvent faire ça avec les images, la reconnaissance de l'écriture manuscrite et les images — sûrement, quelqu'un va le faire avec l'audio. Et puis, vers 2016, Google a commencé à faire tout un tas de trucs à partir de leur équipe deep mind, autour de la synthèse vocale, et c'était comme : oh, ils vont résoudre ça et ça va être le jeu. On va pouvoir faire de vrais trucs comme — donne-moi toutes les chansons avec une chanteuse, un harmonica et un bongo — une découverte comme ça. Je ne sais pas si quelqu'un veut ça, mais j'ai toujours fantasmé sur combien ça serait cool.

David Weiszfeld [02:27] : Peut-être avec d'autres critères, oui, mais bien sûr, absolument !

Stephen Phillips [02:30] : C'est ça. Eh bien quelqu'un qui ressemble à Whitney Houston et, tu sais, avec une guitare acoustique faisant quelque chose en 3/4 temps, ou quoi que ce soit, sans étiquetage, à travers des catalogues massifs.

David Weiszfeld [02:45] : Juste basé sur l'audio ?

Stephen Phillips [02:48] : Résoudre le problème du démarrage à froid que les services de streaming ont. Mais en ce moment l'état de l'art sur les recommandations c'est quelque chose comme Discovery Weekly, et ils avaient eu cette idée vraiment cool de : les choses vont ensemble si un humain dit qu'elles vont ensemble, et l'expression de ça c'est de les mettre dans une playlist. Et donc toute leur affaire est pilotée par l'intersection des playlists, et c'est la meilleure chose que quiconque ait jamais trouvée, pour « On ne sait pas ce que c'est, comment développe-t-on un substitut pour ça ». Et leur moteur est génial pour ça. Et on a produit tout un tas de trucs nous-mêmes autour d'idées similaires — mais ils ont atteint l'échelle avec ça. Donc ça fonctionnait à travers la personnalisation et les genres ; parce que j'avais l'échelle de ce moteur de playlist, qui le faisait vraiment bien. J'avais vu ces trucs de deep learning et commencé à m'y plonger. J'avais été dans le machine learning moi-même pendant 10 ans à ce moment-là et j'avais l'impression que je devais entrer dans cet espace, que ça allait complètement changer les choses. Ma seule idée à l'époque était que ça allait changer la façon dont on fait la découverte musicale. Ça allait être le nouveau truc de découverte musicale.

Et donc pendant toute l'année 2016, j'ai fondé Mawson avec mon investisseur d'origine, et on voulait faire des trucs d'IA — et on ne pouvait tout simplement recruter personne. C'était impossible. Quiconque savait ce qu'il faisait était déjà parti, était allé chez Google, était allé en Amérique ou quoi que ce soit. En Australie, je ne pouvais juste pas — tout ça en train de travailler sur des voitures autonomes, et dans nos universités à faire des doctorats, et je ne pouvais tout simplement pas trouver... Et je savais par ma propre expérience, que je ne peux pas juste prendre des développeurs web et leur enseigner ça. Les mathématiques requises pour faire ça étaient au-delà de ce que je ferais et de ce que la plupart des développeurs web, ou même des ingénieurs logiciels normaux, feraient. Et il m'a fallu comme neuf mois pour rencontrer quelqu'un appelé Adam Hibble, qui avait une équipe de quatre ou cinq gars et ils étaient tellement avancés, faisant des projets de deep learning autour de Brisbane à l'époque. Et lui et moi on s'est vraiment bien entendus, et je lui ai demandé de venir travailler dans la musique, et il trouvait ça fou. Genre qui s'en soucie ? Genre, si tu peux faire cette technologie, c'est la chose la moins intéressante que tu pourrais faire. Mais je savais, parce que je connaissais des personnes comme Adam — il avait 24/25 ans ou quelque chose comme ça, et il me rappelait beaucoup moi-même à cet âge — je savais que si je pouvais le faire travailler dessus pendant un peu de temps, il s'y accrocherait comme je l'ai fait. Et donc je lui ai essentiellement payé lui et son équipe pour construire un site de découverte musicale basé sur des trucs purement d'audio brut, et j'ai fait ça en genre six semaines.

La façon dont ils l'ont fait, ils avaient cette idée — que tout le monde avait cette idée dans le deep learning — on comprend quelque chose en étant capable de le générer. Dans le processus de le générer, on crée une recette pour ça. Et comparer les recettes de deux choses vous dit dans quelle mesure elles sont similaires. Donc, pour résoudre la similarité et la découverte, ils devaient générer de l'audio brut et j'ai alors réalisé : s'ils vont générer de l'audio brut, la découverte est la chose la moins excitante qu'on pourrait faire avec ça. On va écrire des chansons, on va changer l'industrie musicale, et c'est là que Popgun s'est mis à faire. Et ensuite Bob Moz. Ce n'était pas Popgun à ce stade. Je travaillais juste avec Adam sur, et on avait ces moments « aha » de : oh, on va pouvoir composer des chansons ici. On va vraiment pouvoir scanner les charts top-40 et ensuite créer de la musique qui ressemble à ça.

Et donc, au départ, on s'appelait Fake Records, et on allait avoir un label discographique, on allait sortir de la musique. Et puis Trump est arrivé et a pris le mot « fake » donc on ne pouvait pas s'appeler comme ça, et ensuite Bob Moz, avec qui j'étais un très bon ami chez Twitter. On avait travaillé ensemble là-bas dans les derniers soubresauts de mon temps sur Twitter. Il a lancé Techstars Music et essayait de recruter des équipes et il est venu. Il a suggéré qu'Adam et moi formons fondamentalement Popgun et venions au programme. Donc on a fait ça en décembre 2016. On est allés à la classe inaugurale en 2017. J'ai amené Adam et je crois quatre ou cinq autres jeunes gars, la mi-vingtaine, pour venir faire des trucs de composition musicale par IA. Notre pitch était : on va avoir un hit Top 40 ! C'était notre objectif, et c'est toujours l'objectif de la société. C'est maintenant deux ans et quelques plus tard. La société est maintenant à une vingtaine de personnes, dépend d'avoir des contractants qui traînent à n'importe quel moment. Et ils avaient fait, surtout en furtif, ils essayaient de faire de la compétition musicale sérieuse avec l'IA. Donc c'était la première équipe qui est passée.

David Weiszfeld [07:22] : Donc je sais qu'il y a deux vidéos : une d'il y a quelques années et une de l'année dernière, elles sont publiques. C'est la dernière démo que vous avez publiée ?

Stephen Phillips [07:30] : Non. Donc on a passé la première année en 2017, à apprendre à jouer du piano. C'est tout. Donc comment enseigne-t-on à un réseau neuronal à jouer du piano ?

David Weiszfeld [07:41] : C'est la démo, alors quelqu'un commence à jouer et ensuite l'ordinateur finit la mélodie ?

Stephen Phillips [07:48] : Non. C'était le premier tiers de cette année-là. Donc c'était la démo de quelqu'un jouant, et la compléter c'était avec la démo qu'on avait faite pour TechStars. Donc c'était notre prédiction polyphonique. Donc, je peux jouer quelque chose au piano, et ensuite il va prédire ce que je vais jouer ensuite. Après ça on a travaillé sur... Donc c'est un problème très simple. Comment est-ce que je prédit dans une séquence de choses ? Qu'est-ce qui viendrait le plus probablement ensuite ? Et après ça on a fait de l'improvisation, qui est « étant donné un morceau de musique, peut-on improviser dessus et garder quand même un sens mélodique ? » Donc, peut-on explorer toutes les autres façons dont ça pourrait être joué ? Mais garder quand même la musicalité de ce morceau, de façon à ce qu'il soit reconnaissable pour les musiciens, que oui, c'est le même morceau. Mais on improvise avec. Et puis une fois qu'on peut faire ça, on est prêts à faire de la vraie composition. Donc, à la fin 2017, après un an de dix personnes travaillant sur ce seul problème, toute l'année, on en est arrivés au point où on pouvait composer des pièces de piano originales, et on est allés à San Francisco.

On a fondamentalement dit : regardez ça. Vous avez déjà entendu une IA faire de la musique ? Ils disaient : ouais-ouais, c'est toujours un peu nul. Eh bien regardez ça ! Et on a joué un piano incroyable et ils ont dit « Qu'est-ce qui a fait ça ? ». Et à ce moment-là, si l'IA peut conduire des voitures elle peut sûrement jouer du piano ! On s'attendrait à ce qu'elle puisse. Et les gens étaient soufflés par ce qu'il pouvait faire sur un piano. Et on a exposé une vision de : on va lui apprendre à jouer de chaque instrument, et ensuite on va leur apprendre à jouer ensemble, et ensuite on va voir ce qui se passe. Et ensuite on va le donner à tout le monde et voir ce que les gens en font. Et on a trouvé... On a eu de la chance, on a rencontré d'excellents investisseurs dans ce mois qu'on a passé à San Francisco. On a finalement opté pour Khosla Ventures, parce qu'ils avaient fait tellement de paris dans l'IA à ce stade — je crois qu'on était le 28ème, ou quelque chose comme ça — et ils avaient des gars d'IA vraiment seniors et respectés dans leur équipe, et on pensait juste qu'ils avaient beaucoup de valeur.

Les autres entreprises étaient toutes spécialisées dans des choses différentes, on a rencontré Greylock et ils avaient des gars formidables autour, qui étaient aux équipes de croissance de Facebook et LinkedIn et Twitter. Mais c'était bien trop tôt pour nous, parce qu'on n'avait rien à faire exploser et ils semblaient l'équipe parfaite pour faire ça. On n'avait aucune idée à ce stade combien ça allait être difficile. On savait qu'il nous avait fallu un an pour jouer du piano ! Combien de temps ça va prendre ? Et K.V. était super-patient. La plupart de leurs investissements portaient sur des matériaux et des trucs médicaux. Donc ils disaient « ouais, c'est de la technologie dure, ça va prendre du temps. Il faut être patient avec ce type de chose. » Donc en 2018, on a commencé à travailler : on a fait la basse, on a fait la batterie, on a fait les guitares. On a commencé à mixer, on a commencé à masteriser. On a commencé à produire des chansons pop complètes. On a commencé à accompagner des chanteurs, et c'était environ le moment... C'était la fin de notre dernière démo. Juin 2018.

Et depuis lors on a travaillé sur d'autres trucs, qui sont si les gens jouent à la maison, quelle est la prochaine chose inévitable qu'une entreprise, qui en était arrivée à ce stade, ferait ensuite ? On n'a pas révélé ce que c'est, c'est vraiment difficile ! On pense qu'on y arrive, mais on ressent une certaine urgence, mais on sent que quelqu'un va faire ça et le faire vraiment correctement et avec une équipe vraiment talentueuse. Et on peut en quelque sorte bâcler certains de ces trucs, et se précipiter sur le marché, et sonner comme de la musique d'ascenseur et ce genre de choses. Quelqu'un va passer le temps et l'argent, et on a la chance d'être en Australie, de l'autre côté du monde, on a une super équipe qui est ensemble depuis le début. On a des producteurs qui travaillent avec nous ici en Australie, qui ont pu juste baisser la tête, et on a une vision très claire de — ça doit être aussi bon que ce qu'un artiste pourrait faire. Si l'IA pouvait faire ça, ce qu'elle ferait ? Ça doit être aussi bon.

David Weiszfeld [11:49] : Vous avez mentionné les voitures autonomes et tout le monde s'attend à ce que la voiture autonome soit mille fois plus efficace qu'un humain, parce que si un humain a un accident on se dit — eh bien, tu sais, c'est un humain. Mais si un robot a un accident, c'est toute la flotte de voitures qui a un problème. C'est un sérieux manque de priorités. Il y avait deux accidents de Boeing, et ils ont retiré tous les 737 du monde, parce qu'il y avait quelque chose qui n'allait pas avec la machine. Ce n'était pas une erreur de pilote. Donc je suppose que c'est la même chose quand on commence à automatiser les choses et à avoir l'IA qui fait des choses pour vous. Il faut qu'elle soit mille fois, un million de fois meilleure qu'un humain. Il faut qu'elle soit irréprochable. Tout le monde doit avoir le même wow, face à la technologie. Une chanson qui n'est qu'à moitié bonne est en réalité une mauvaise chanson. Il n'y a pas de chanson à moitié bonne. C'est comme bof. On veut que tout le monde aille « WOW » face à la chanson. Ce problème doit être extrêmement difficile.

Les voitures, en fait, peuvent enregistrer : quand vous conduisez votre Tesla, par exemple, elles renvoient toutes les informations de conduite et c'est comme ça qu'elles construisent les voitures autonomes. Donc vous écoutez comme des millions et des millions et des millions de chansons, en obtenant les brevets. N'importe qui, qui n'est peut-être pas dans la tech, peut s'identifier aux voitures autonomes, mais c'est un sujet plus connu et c'est fondamentalement la même chose au début, sauf que la fin c'est : l'une est un conducteur très rationnel, et l'autre est une chanson très créative. Et c'est là que la difficulté, la dureté de leur côté créatif vient, à la fin. Obtenir toutes les informations n'est peut-être pas la chose la plus difficile, mais les amener à produire quelque chose de créatif qui est nouveau, c'est en fait l'exact opposé de la voiture autonome, que vous vouliez ne rien faire de nouveau, et faire exactement comme ce qu'elle est supposée faire.

Et on peut prédire ce qu'elle est supposée faire, alors que pour vous, on ne peut pas vraiment prédire ce que la chanson est supposée être. La chanson vous surprendra quand vous l'écouterez. Je peux imaginer à quel point ce projet doit être fascinant. Donc on va mettre en lien la première démo de Techstars, celle de 2017. On va mettre en lien celle de 2018, et donc je suppose que dans quelques mois, dans quelques mois avant la fin de l'année, vous allez publier la nouvelle démo, qui est cette fois, je suppose, beaucoup plus complète et a certaines des choses que vous venez d'expliquer : les différents instruments, peut-être plus pop. Je suis extrêmement curieux de voir ce que vous allez trouver !

Stephen Phillips [14:17] : J'ai l'impression que tout ce qu'on a fait chez Hunted a mené à l'opportunité d'avoir la confiance et la patience des gens qui nous donnerait la liberté d'essayer de le faire correctement. On a un peu l'impression que — c'est trop facile aussi, parce qu'il y a beaucoup de moments, même si ça a été deux ans et un long projet à rester en quelque sorte sur place. Il y a eu suffisamment de moments, plusieurs fois à travers ça où on se dit : « C'est vraiment cool. Comme c'était vraiment cool. » Et on doit continuer parce qu'on a fait ça. On n'a même pas vraiment effleuré la surface, encore. Tu vois ce que je veux dire ? On voit d'autres personnes se précipiter pour sortir des trucs de musique IA, et on sait que ça doit juste être des heuristiques, ou des algorithmes, ou — parce que c'est difficile : difficile à faire correctement et difficile à faire bien. On pense juste que ça permet de faire des choses qui n'étaient auparavant pas du tout possibles. Et on doit continuer jusqu'à ce qu'on les capture et on pense juste — je ne sais pas, je me sens vraiment privilégié que tout ce qui y a mené me donne cette opportunité d'être près de ça, et d'être avec une équipe de personnes comme ça quand ça se passe. Je suis juste vraiment chanceux, si bien que je dois le coder. Je peux m'asseoir comme un supporter pour ces jeunes qui s'attaquent à des choses incroyablement difficiles, et sachant que ça va apporter tellement de plaisir aux gens, ce sentiment de créer de la musique et de la partager — c'est encore tellement élitiste, tout le monde ne peut pas le faire ! Bien le faire et laisser d'autres personnes faire ça va apporter tellement de plaisir aux gens.

Les gens regardent de l'extérieur et pensent que la musique c'est juste de la musique — et la musique est partout. C'est de la culture pour moi : c'est dans les films, c'est... Où que je me tourne, j'entends de la musique et ça fait quelque chose aux gens que rien d'autre ne fait. Pouvoir travailler dans la tech autour de ça, c'est vraiment un privilège. Je suis heureux de le faire pour le reste de ma vie et je me sens chanceux d'être tombé dedans. Je me sens juste tellement chanceux. L'équipe, ces jeunes gars sont tellement engagés et tombés amoureux du problème aussi. On verra comment ça se passe à partir de là. Mais ça a été un truc vraiment fun à travailler ces deux dernières années, et je sais juste que c'est la même chose qui s'est passée avec Hunted. Peu importe comment ça se passe, qu'on obtienne un produit ou pas, ce sont la meilleure équipe technique dans l'industrie musicale aujourd'hui. Je n'ai pas rencontré tout le monde, mais s'il y a une autre équipe meilleure que ces gars-là quelque part dans le monde, je serais vraiment surpris. Juste à cause des circonstances dans lesquelles c'est arrivé et ils ne devraient pas travailler dans la musique, c'est seulement parce qu'ils me connaissent et qu'on est de l'autre côté du monde qu'ils peuvent immédiatement aller chez Google et travailler sur quelque chose comme des voitures ou la médecine. J'ai le choix des ingénieurs vraiment talentueux ici, et ils sont fascinés par le problème — je me sens vraiment chanceux.

L'une des choses qu'on a apprises dans cette première année c'était : ce n'est pas juste la musique qui va être impactée par ça. Ce qu'on fait en réalité c'est imiter des compétences créatives humaines : jouer du piano, jouer de la basse. Ce sont des choses que les humains peuvent faire bien, et si on lui donne suffisamment d'informations sur la façon de faire ça, on peut apprendre à émuler cette compétence créative. Ça va le faire dans chaque domaine créatif. Donc pour moi, la façon dont on crée et consomme le divertissement dans les cinq prochaines années est sur le point d'être complètement changée. Donc c'est là qu'on est passés de... On a eu un aperçu très précoce de à quoi ça ressemble, et on doit investir dans ça, c'est-à-dire qu'on va... Donc Replica était autour. On a une liste — dans notre laboratoire ici — de toutes les compétences humaines de talent, et comment on les émulerait, et lesquelles sont les plus précieuses, ou lesquelles sont les plus répandues. Et l'une qui ressortait était le jeu d'acteur vocal — que parler n'est pas jouer la comédie, jouer la comédie est bien plus que juste parler. Pouvoir émuler cette compétence et mettre des acteurs entre les mains de cinéastes indépendants, de développeurs de jeux, d'annonceurs, tout ça. Avoir un espace continu de toutes les voix possibles et des expressions de bonheur, et de joie, et de tristesse, et pouvoir avoir ça sous le contrôle de la tech, c'est une arme dans le divertissement. On va changer la façon dont on fait chaque type de divertissement. Et donc avec Replica, ils étaient la deuxième équipe à entrer et Google a sorti WaveNet, qui était le signal de départ dans cet espace.

Et on a pensé : Google et Amazon vont travailler très dur sur les trucs de voix comme les choses de type Siri, et leurs appareils domestiques, et tout ça. Mais auront-ils des enfants qui pleurent, qui rient ? Auront-ils un âne qui brait ? Et jusqu'où pousseront-ils l'expressivité de ça ? On a pensé que quelqu'un allait pousser ça à l'extrême, et en fait le faire sortir du simple parler pour aller vers le jeu d'acteur, et être capable d'être en personnage, et on pourrait avoir un pirate, qui parle comme un pirate. Et un chevalier parlant avec ces accents particuliers. Et ça c'est explorer les possibilités de ça. Donc on a lancé Replica, début 2018. Ils ont travaillé sur la tech vocale toute l'année, et ensuite ils sont chez Techstars maintenant. Ils clonent des voix de célébrités, ils font des personnages pour des jeux — ils jouent beaucoup avec ces idées.

Mais, essentiellement, la technologie est très similaire à ce qu'on fait en interne. Donc, si nos équipes ont leurs propres bases de code, leurs propres entreprises, j'y suis investisseur. Elles partagent très largement une culture d'ouverture sur « comment résout-on ces choses ». Elles ont leur propre IP. Elles ne partagent pas de code. Elles sont toutes, elles sont en fait un peu en compétition les unes avec les autres. Mais elles bénéficient bien d'avoir une expérience partagée dans un laboratoire, où elles peuvent s'asseoir avec d'autres personnes — il y a 35 personnes ici. Elles peuvent s'asseoir ensemble et parler de problèmes, et on les a délibérément mises très en parallèle les unes avec les autres. Donc il y a une expérience partagée. L'une ne fait pas juste de l'IA dans les voitures et l'autre fait de la musique. L'une fait de la musique et celle-ci fait de la voix et, Super Res avait fait, ils sont la troisième entreprise qui est arrivée. Et c'était vraiment le résultat d'un processus. On a fait, sur l'un des projets sur lesquels travaillait Popgun, on a vu un papier avec quelqu'un qui faisait de l'imagerie super résolution, et on a juste adoré l'idée. La classe de réseaux sur laquelle on travaille, cette classe de réseaux appelée Réseaux Génératifs, où on consomme fondamentalement beaucoup de contenu, et on crée cette distribution de toutes les variantes possibles de ça. Et ensuite on peut générer en explorant différentes parties de cet espace multidimensionnel, ça génère quelque chose de nouveau à partir de ça.

Et ces gars pouvaient prendre une photo noir et blanc et ensuite l'agrandir en haute résolution et la mettre en couleur. Et on se demandait comment diable ça marche ? Et la façon dont ils l'ont fait, c'est qu'ils ont pris des photos couleur haute résolution et les ont dégradées en photos noir et blanc de faible qualité et ont appris à aller dans les deux sens. Et donc quand on leur donne une mauvaise photo, on crée une super résolution, et on était vraiment intéressés par l'idée de faire ça dans l'audio de façon à ce que — deux raisons. Combien pouvait-on faire sonner Skype mieux ? C'est une façon vraiment intéressante de compresser des trucs. Donc je n'ai pas à envoyer une version haute résolution — je peux envoyer une version vraiment mauvaise et avoir un nouveau réseau qui imagine ce que ça devait être, et avoir une chose de vraiment haute qualité. Donc, ça avait fonctionné dans cette classe de réseaux autour de la prise de contenu — d'abord audio mais qui fonctionnait aussi dans les images — et la ramener à la vie. Mais la classe de réseaux porte sur comment prend-on des médias et imagine ce qu'ils doivent être sous une autre forme. Donc ça fonctionne depuis prendre un vieux film noir et blanc et le faire paraître comme s'il était en couleur haute résolution en HD. Mais ensuite, dans le futur, prendre du contenu fait aujourd'hui et le rendre prêt pour la VR, en le divisant en ce que les yeux doivent être. Utiliser les réseaux d'IA pour imaginer des trucs est vraiment cool, et on adore vraiment cette idée — parce que toutes les équipes font effectivement ça.

Replica imagine comment un pirate sonne. Une fois que j'ai vu assez de pirate — il n'a jamais vu un perroquet dire « Bonjour je m'appelle Stephen », mais je pourrais imaginer comment un pirate dirait ça. Et c'est juste comme une classe de ces réseaux. Nos nouvelles équipes travaillent dans le texte, on travaille dans les images, on pense que cette classe de réseaux et cette idée — que l'IA peut imaginer de nouvelles choses — va changer la façon dont on fait des films, et dont on fait des vidéos, et du contenu, et de la musique, et. Le vrai défi pour toutes ces équipes — et le défi de Popgun sur lequel on travaille — ce n'est pas suffisant de pouvoir générer ces trucs. Il faut construire une interface et transformer ça en un outil que certaines personnes peuvent utiliser. Parce que c'est tout l'enjeu. Personne ne veut appuyer sur un bouton et voir la chanson sortir. Ils veulent avoir accès à cette intelligence pour faire ce qu'ils veulent. Comment contrôle-t-on ces réseaux est un grand défi ?

David Weiszfeld [23:16] : Si on a un fil de tous vos projets : Hunted c'est un scraping de données backend, classement, charting... C'est 99 % du travail. Et ensuite, évidemment, il faut prendre des décisions de design, et le défilement latéral, et les vignettes, et les trucs. Mais sans cette UX, le site web n'aurait probablement pas pris autant de place. Mais si vous êtes un A&R dans une maison de disques, ou qui que ce soit chez MTV qui vous contactait de New York, ils adoraient l'expérience et la musique, et en fait comment ça fonctionne en arrière-plan. Ça n'a pas d'importance, tant que ça fonctionne juste, l'évaluation de la citation Apple : « Tant que ça fonctionne », la plupart des gens n'essaieront pas de creuser en dessous. Si demain on peut avoir un front-end sympa et que quelqu'un joue avec Popgun et fait un air pop — sachant et comprenant exactement comment le réseau fonctionne, comment on entre les données, et comment il crée quelque chose de créatif — tout ce processus ne signifie pas vraiment grand-chose pour une personne normale.

Quand un enfant joue à FIFA sur PlayStation, il ne comprend pas vraiment que la balle est calculée, et le mouvement du joueur, et ainsi de suite. Il joue juste à un jeu. Et c'est la chose magique à propos de « ça fonctionne juste ». C'est en quelque sorte la magie du product market fit : ce n'est pas de penser aux cohortes et aux trucs, c'est un jour vous savez juste. Oui, mettre une technologie très-très dure — parce que ce que vous faites ce ne sont pas des fonctionnalités, ce sont comme des innovations technologiques dures — et mettre ça entre les mains d'une personne normale, qui est un non-technicien et ensuite réussir — c'est le test ultime pour vous les gars. Replica pourrait être utilisé par chaque chaîne YouTube, n'importe qui qui fait du contenu et veut traduire, n'importe qui faisant de l'animation et voulant mettre un personnage. On choisit une tête de pomme de terre, quelle voix lui donne-t-on ? On choisit un pirate, quelle voix lui donne-t-on ? J'ai ce conte de fées, et j'ai besoin que les personnages et les animaux parlent. Quelle est la voix d'un cochon qui parle ?

Les gens chez Pixar font des castings avec des voix, ils font des sessions d'une semaine pour trouver la voix normale — vous avez mentionné l'âne, ou le cochon, ou quel animal. Ce processus pourrait potentiellement être internalisé avec, je ne sais pas — quelqu'un qui est à l'école en train de faire du design graphique et de l'animation 3D, fait son premier film 3D de 20 secondes, et dans ces 20 secondes l'oiseau parle au cochon, à un moment donné — quelle voix lui mettez-vous ? C'est incroyable d'imaginer que quelqu'un pourrait réellement faire tout ça en utilisant son ordinateur portable, tout comme un musicien : il y a trente ans, on avait besoin d'un studio, et aujourd'hui ils sont fondamentalement juste dans l'ordinateur portable. Pousser ça dans la création vocale — c'est juste incroyable. La traduction seule est un problème énorme. La capacité de traduire dans 50 langues à la volée serait juste insensée.

Stephen Phillips [26:09] : La technologie sera monnaie courante dans les deux prochaines années. Comme Photoshop pour la voix, pouvoir traiter la voix exactement comme une image, de façon à ce qu'on puisse la modifier, la changer, la déplacer, lui faire dire toutes ces choses, lui faire parler d'autres langues, complètement changer l'identité vocale, passer du masculin au féminin, quoi que ce soit — tout ça va être possible. La course est lancée pour construire ça. La technologie n'est pas encore là : il y a beaucoup d'exemples, il y a 10 entreprises ou plus dans cet espace, c'est encore assez difficile à faire, il y a encore tout un tas de problèmes autour des émotions et les capturer. La bonne chose pour les créatifs c'est que ces outils arrivent dans l'année ou à peu près. On adore vraiment cette idée que tout ça joue sur cette tendance plus large de démocratisation, de créativité et de réalisation de cette transition de la consommation de masse à la création de masse. Ces enfants qui ont grandi dans Minecraft arrivent, et s'amusent maintenant sur Fortnite et Roblox, et ils le font en créant des choses. Ils se divertissent en étant créatifs. On plaisantait avec ma femme, en regardant l'obsession pour Minecraft, que l'architecture dans dix ans c'est forcément une explosion de designs. Ça s'est juste diffusé dans la façon dont ils s'expriment, et pour moi l'IA va juste apporter tout un ensemble de nouveaux outils créatifs pour laisser ces mêmes enfants faire tout ce qu'ils peuvent imaginer.

Je pense qu'on va trouver, et on en parle beaucoup en interne chez Popgun, qu'on va entrer dans une ère, où... Et une fois qu'on parle aux labels musicaux de tout ça, ils sont assez à l'aise avec ça. Au départ, les gens se sentent menacés, et on le comprend — c'est une nouvelle technologie, et parce que ça va vraiment abaisser la barre technique, requise pour que vous fassiez des trucs qui sonnent bien. Mais ce que ça révèle de qui est la star, et qu'est-ce qu'une star, et qu'est-ce que le talent. C'est bien plus que la capacité à jouer d'un instrument. Les gens sont attirés par les gens parce qu'ils sont beaux, drôles ou engageants. En musique, il n'y a pas de chart Billboard des moins de 15 ans. En tant qu'enfants, vous devez concurrencer les adultes, techniquement — et c'est vraiment difficile. Si on supprime cette barrière, je pense qu'il y a des jeunes pop stars là-dehors, qui — d'autres jeunes personnes vont vraiment s'identifier à. Cette IA va leur permettre d'être découvertes plus tôt, de communiquer exactement ce qu'elles ressentent et se disent. Et je pense que ça mènera juste à une toute nouvelle industrie pop, et pour les labels c'est tout autour — ces personnes auront encore besoin d'exposition, et de gestion de carrière, et je vois les labels comme des VCs pour l'industrie musicale, et ils devront encore investir dans le talent, et je pense qu'ils en verront juste plus, plus tôt qu'ils n'en ont vu avant, et je pense que ça va être un grand boom pour eux. Ils vont trouver toutes ces jeunes stars là-dehors.

David Weiszfeld [29:10] : Probablement la façon dont vous le voyez : Non seulement ça va peut-être être des personnes plus tôt, les gens construisent aussi de l'art avec l'aide de l'IA, en collaborant avec elle — ou on ne saurait même pas parce que l'IA va être dans la DAW, dans Pro Tools, comme un VST. Et donc quand ils vous envoient une chanson c'est juste une chanson et qui sait comment la chanson a été faite. Mais je pense que ça va plus loin que ça, et Replica et PoPgun en sont des signes. Les enfants font des vidéos d'animation plus facilement qu'avant, les enfants qui sont des YouTubeurs font maintenant de la musique — le pont entre ce qu'est un artiste, et est-ce un musicien ? Est-ce un acteur ? Est-ce de faire une vidéo ? Est-ce un graphiste ? Les enfants aujourd'hui peuvent faire leurs propres vidéos musicales — peut-être pas comme une vidéo de David LaChappelle, mais ils peuvent faire une vidéo, ils peuvent faire une œuvre d'art. Ils peuvent collaborer avec des gens complètement de l'autre côté du monde. Comme vous êtes en Australie, et je suis à Paris en ce moment. Ces choses-là, on n'y pense plus vraiment. Le pari, je pense, c'est que dans cinq ans la définition de « qu'est-ce qu'un musicien » et l'idée qu'on grandit dans sa chambre, à jouer d'un instrument pendant neuf ans avant de pouvoir en quelque sorte montrer au monde ce qu'on est, combien on est techniquement bon. Ces jours ne sont peut-être pas 100 % révolus — on aura encore des guitar heroes dans 20 ans, des gens jouant du shred et des trucs. Mais ça va s'en aller, et les artistes vont combiner différents arts en une seule création.

On voit ça avec les entreprises qui font de la monétisation YouTube pour les joueurs de jeux vidéo et les chaînes YouTube d'adolescentes maquillage, et ces personnes commencent à faire de la musique. Et donc en fait leur manager c'est l'entreprise de monétisation YouTube, qui finit par gérer le chanteur. Et donc généralement ils finissent par s'associer, aujourd'hui, avec une entreprise musicale, parce que ce n'est pas du tout ce qu'ils sont supposés faire — ils sont supposés monétiser du contenu YouTube. Et ils finissent avec un tube. Je pense que Republia a en fait juste sorti le premier single de cette méga personne YouTube qui n'est pas un musicien, ni n'était un chanteur jusqu'à genre il y a un mois. Et tout d'un coup il a cette incroyable plateforme promotionnelle, à cause des fans qu'il a sur son autre truc, et il a probablement genre 17 ans. Ouais. Ça va aller exponentiellement vite. Ça a été une heure et demie, et j'ai pris bien trop de votre temps — donc je voulais conclure avec trois questions standards qu'on va poser à tout le monde. Un, et je n'arrive pas à imaginer comment cette rencontre se passerait entre vous maintenant et le vous de 19 ans. À 19 ans vous sortiez de l'université, ou vous étiez encore à l'université. Vous alliez travailler et c'est une sorte d'entreprise de conseil, travaillant sur 25 projets tech différents. Hunted n'était même pas quelque chose à quoi vous pensiez. Le site d'actualités était peut-être quelque chose que vous alliez commencer à envisager bientôt. Qu'est-ce que vous diriez au Stephen Phillips de 19 ans ?

Stephen Phillips [32:11] : Je ne sais pas. Genre j'ai eu une très bonne vingtaine. Genre j'ai eu plein d'emplois différents, et je ne suis jamais resté quelque part plus de deux ans, jamais. Je mettais suffisamment d'argent de côté, et ensuite je faisais ce que je voulais pendant un an. J'ai peint pendant un an, j'ai fait de la musique pendant un an. Je repartais quand j'étais fauché et travaillais à nouveau. J'avais l'impression que j'en avais besoin. J'avais juste l'impression que j'aurais dû chercher un mentor ou quelqu'un que je respectais, qui pourrait m'aider à trouver un chemin. Je me dirais probablement de créer une entreprise. Je ne sais pas pourquoi j'ai attendu mes 35 ans pour faire ça. Ça ne semblait juste pas. Je n'ai pas grandi dans la vallée. Ce n'était pas un truc que les gens faisaient en Australie — créer des entreprises tech. Genre, je n'en avais vraiment jamais entendu parler avant mes vingt-cinq ans, et à ce moment-là, je ne savais tout simplement pas comment faire ça. Donc mon conseil serait de créer une entreprise, probablement. C'est le conseil que je donne aux jeunes maintenant, surtout ces gars-là, qui sont tellement talentueux que leurs universités essaient de les faire faire des doctorats, ce que je trouve fou. Que, tu sais, aller créer une entreprise, c'est le moment parfait : on n'a pas de famille, pas d'engagements. On peut toujours retourner et avoir un travail ennuyeux. Donc je serais probablement, ouais, allez créer une entreprise. N'attendez pas 20 ans pour créer une entreprise.

David Weiszfeld [33:31] : Bob Moz de Techstars, je pense qu'il expliquait — leur thèse c'est que le talent est complètement uniformément distribué. Il y a des gens talentueux à Melbourne, et Sydney, et Canberra, et Paris et Berlin — où que ce soit. Mais l'opportunité ne l'est pas. Et parce que l'opportunité ne l'est pas, je pense que la vérité c'est que nous, comme peut-être des non-Californiens et des non-New Yorkais, on ne croit pas vraiment qu'on est... Genre vais-je vraiment créer une entreprise ? Vais-je genre faire un truc musical, vais-je aller à New York et être racheté par Twitter ou vraiment garder l'entreprise un moment ? Et donc ouais, alors que le talent est complètement uniformément distribué, l'opportunité, mais aussi la confiance en soi — parce que c'est dans les gènes des Californiens de croire qu'ils vont changer le — ce n'est pas dans les gènes des Australiens, et certainement pas dans les gènes des Français. Donc ouais, créez une entreprise, croyez dans les projets, et si vous avez une idée — allez juste la faire et la tester !

Stephen Phillips [34:25] : Le grand apprentissage pour moi, quand je suis arrivé aux États-Unis c'est qu'ils sont juste des mecs, ils ne sont pas meilleurs que nous. Ils ont juste eu des attentes complètement différentes de ce qui est possible et c'est ce sur quoi je passe beaucoup de temps à parler aux jeunes gars ici. Je sais qu'ils semblent être des superhommes parce qu'ils produisent tellement de trucs cool là-bas, mais ce sont juste des mecs et on peut les battre. On peut les concurrencer. Ils ne sont pas plus intelligents que nous. Ils sont juste plus nombreux. Il y a plus d'argent, plus de soutien, plus de confiance, il y a les choses qu'on n'a pas qui vous donneront l'argent et on développera la confiance et je dois envoyer — l'une des premières choses que je fais quand je recrute c'est — je les envoie là-bas et je reviens sur : Ce sont juste des mecs ! Ouais, je te l'avais dit.

David Weiszfeld [35:09] : Vous n'avez même pas la barrière de la langue. Donc vous pouvez envoyer quelqu'un là-bas, et ils peuvent réaliser que, c'est la même chose. Ce sont juste des gens là-bas qui pensent plus, qui croient plus. Je pense qu'en Amérique les enfants, ils reçoivent beaucoup de présentations en classe, et donc on est habitués à parler avec beaucoup de gens, à défendre son projet, à pitcher, presque — ce n'est pas un pitch, ce n'est pas un pitch, mais c'est presque là. En France on vous apprend beaucoup l'autocritique et vous savez comment regarder les thèses, l'antithèse. Il faut se contredire tout le temps. Et donc ça fait qu'on n'a pas comme « je crois et j'y vais ». C'est plutôt je crois mais je doute aussi. Et aussi, ensuite, j'essaierai de croire quelque chose de différent, et puis de douter. Et on adore ce type de débat. Y a-t-il un livre ou un podcast spécifique qu'on devrait mettre en lien que vous aimez et soit un livre que vous avez relu ?

Stephen Phillips [36:03] : Maintenant je suis gêné de le dire — je n'ai pas. Je lisais frénétiquement dans ma vingtaine, et maintenant je consomme autant de musique et de médias que je peux. Je n'ai pas vraiment l'impression d'avoir le temps de lire maintenant. J'ai l'impression que ma responsabilité c'est envers mes équipes et mon personnel, et je passe chaque moment que je ne passe pas avec ma famille à travailler pour eux. Donc j'ai l'impression que quand je prendrai ma retraite dans 15/20 ans, je lirai chaque livre que j'ai raté de lire.

David Weiszfeld [36:38] : Qu'est-ce que vous allez faire juste après cette interview ? Je suppose qu'il est 20h40, vous allez probablement dîner ?

Stephen Phillips [36:41] : Je vais rentrer à la maison, voir ma famille et j'ai un vol tôt pour Sydney le matin. Pour voir des gens de la musique à Sydney. Bien. Merci !

David Weiszfeld [36:58] : C'était incroyable. Je veux en fait l'écouter maintenant. Merci beaucoup pour votre temps à une heure aussi tardive. On se parle bientôt. Merci beaucoup.

EP03 (Partie 2) : Interview avec Stephen Phillips