音楽産業のデータ分析ツールを構築するために数十のデータソースを活用するビッグデータ企業として、Soundchartsは毎日壊れたメタデータと向き合っています。長年にわたり、データベースができる限りクリーンな状態を保つためのアルゴリズムをいくつか開発しましたが、今でもある程度の手動メンテナンスが必要です。Soundchartsのチームは2M以上のアーティストのデータベースを管理することで、音楽メタデータがいかに壊れているかを身をもって学びました。
しかし、それは私たちだけの話ではありません。事実として、メタデータの問題は産業に多大なダメージを与えています。壊れたメタデータはストリーミングサービスのユーザー体験を損ない、出版収益の一部を断ち切り、ソングライターから正当なクレジットを奪います—それは始まりに過ぎません。しかし、まずは基本から始めましょう:
音楽メタデータとは何か?
音楽メタデータとは、音楽ファイルに埋め込まれた識別データです。メタデータコンテナ(ID3v1とID3v2が最も広く普及)を通じて添付された何百ものテキストベースのメタタグで構成され、アーティスト名から楽曲のリリース日、関連するジャンルやソングライターのクレジットまで、あらゆる情報が含まれています。
最初、メタデータは些細なことのように聞こえるかもしれませんが、次のことを考えてみましょう。ユーザーがSpotifyで楽曲を検索するたびに、BMIが実演ロイヤリティを帰属させるたびに、Pandoraのアルゴリズムが楽曲をキューに入れるたびに—メタデータが機能しています。それは産業の歯車を動かす潤滑油なのです。
音楽メタデータの3つの種類
一般的に、音楽メタデータは3つの主要な種類に分けられます:
1. 記述メタデータ
記述メタデータは録音の内容を詳述し、楽曲タイトル、リリース日、トラック番号、演奏アーティスト、カバーアート、主要ジャンルなどの客観的なテキストタグで構成されています。用途は無限にあります。記述メタデータは、誰かが音楽をクエリし、整理し、ソートし、または表示する必要があるときに常に使用されます—SpotifyにアーティストページをまとめるためでもDMとして、整理された音楽ライブラリを構築するためでも、ラジオスピンを特定して帰属させるためでも。
記述メタデータの問題はエンドユーザーに最も見えやすいものです。どのストリーミングサービスでも十分長く使っていれば、壊れた記述から生じるエラーに遭遇したことがあるでしょう。複数のアーティストの楽曲が同じSpotifyのアーティストページにまとまってしまう複合アーティストページ、誤った楽曲名、混在したリリース日—これらはすべて損傷した記述メタデータの結果です。このような問題は消費者に多大な混乱を引き起こします—しかしそれは氷山の一角に過ぎません。
2. 所有権/実演権メタデータ
デジタルストリーミング、エアプレイ、映画シンクのいずれを問わず、演奏アーティストから作詞家、プロデューサー、ソングライターまで、多くの関係者が収益を分け合います。だからこそ、ロイヤリティの計算(と配分)を目的として、リリースの背後にある契約上の合意を明確にする所有権メタデータが必要です。所有権メタデータは、音楽制作プロセスに参加したすべての側が適切に報酬を受け取れるようにするためのものです。
ほとんどのトラックの背後にあるスプリットの複雑な性質(および世界中の法律の違い)を考えると、消費者の支払いを正確に分配することだけでも大変な作業です。ここに欠落した、または一貫性のないメタデータが加わると、問題は10倍複雑になります。所有権メタデータの問題は最も痛いところを直撃します:ここで人為的なエラーが、そこでデータベースの不具合が生じると、ソングライターは数万ドルを取り損なう可能性があります。
しかし、それは問題の一部に過ぎません。アーティストのクレジットはまた、ソングライター、プロデューサー、セッションミュージシャン、エンジニアが音楽産業に自分たちを知らせるための主要な手段でもあり、一種の「B2B」プロモーションスペースです。壊れた所有権メタデータはミュージシャンからお金とクレジットの両方を奪います。
3. レコメンデーションメタデータ
最初の2種類のメタデータタグは客観的です—楽曲名は一つしかなく、楽曲のクレジットリストも一つです。レコメンデーションメタデータは異なります。その核心は、録音の内容を反映してどのように聴こえるかを説明することを目的とした主観的なタグで構成されています。ムードラベル、生成的なジャンルタグ、楽曲類似スコア—レコメンデーションメタデータはトラック間に意味のある接続を作り、レコメンデーションエンジンを動かすために使用されます。
もちろん、他のタイプのメタデータも音楽の発見を強化するために使用できます。リリース日は同じ時代の音楽を検出するのに役立ちますし、プロデューサー名の一致は類似した録音を見つけるのに役立ちます。しかし、重要な区別はレコメンデーションメタデータの由来にあります。
発見はストリーミングサービス間の大きな差別化要因です。だからこそ、レコメンデーションメタデータのタグは通常、記述メタデータや所有権メタデータのように産業を流通しない独自データです。代わりに、各プラットフォームはレコメンデーションメタデータの生成と、レコメンデーションアルゴリズムの背後にある独自のデータベースに対して独自のアプローチをとります。つまり、記述メタデータと所有権メタデータはアーティスト側で作成されるのに対し、レコメンデーションメタデータはDSP(またはその関係会社)によって生成されます。
例えばPandoraは、Music Genome Projectで人間による分類アプローチを採用しています。一方Spotifyは、機械学習と人間によるキュレーションを組み合わせて生成されたユーザー生成データとThe Echo Nestの発見メタタグを組み合わせたアプローチを採用しています。The Echo Nest/Spotifyのレコメンデーションメタタグ構造を垣間見て、レコメンデーションメタデータがどのようなものかを大まかに理解したい場合は、Organize Your Musicプロジェクトをご覧ください。
発見メタデータは全体の中で最も急速に発展しているサブセットです。新しいテクノロジーが発見の境界を押し広げ、レコメンデーションの新しいソリューションとアプローチを求めています。
スマートスピーカーが音楽へのアクセスや発見の方法をどのように変えるかを考えてみましょう。音声を介した音楽消費は、ユーザーを構造化されたテキストクエリから「アレクサ、好きなものを流して」というような曖昧なリクエストへと変えます。これはストリーミングプラットフォームとGoogleのような検索エンジンのレコメンデーションエンジンに新たな課題をもたらします。類似した楽曲を見つけてラジオのような曲のキューを生成するだけでは不十分になります。ストリーミングプラットフォームは、まさにその人にまさにその時間に最適な楽曲を再生することを解明しなければなりません。この課題へのアプローチ方法が何千ものアーティストと音楽プロの生活に影響を与え、今後何年にもわたって音楽産業の未来を形作ることになります。
複合アーティストエラーの実例
音楽メタデータの問題
時点で、好奇心旺盛な読者はこう尋ねるかもしれません:しかし、音楽メタデータが音楽ビジネスにとってそれほど重要なら、なぜまだ修正していないのか? なぜソングライターはまだお金を失い、なぜiTunesのデータベースは複合アーティストエラーで溢れているのか?実は、音楽メタデータ管理システムは常にオーディオ配信フォーマットに遅れを取っていたのです。
例えばCDが最初に登場したとき、基本的な記述データ以外のタグは一切許容されていませんでした—CDケースと小冊子がメタデータ添付の役割を果たしていました。その後、Napsterが登場し、それとともにカオスが訪れました。CDからリッピングされたMP3ファイル(またはFLACファイル)にはほとんどメタデータが添付されておらず、P2Pネットワーク経由ではさらに少ない量しか伝わらなかったため、タグ付けの貧弱な膨大なオーディオファイルのアーカイブが生まれました。
1. データベース標準化の欠如
そしてデジタル音楽が登場し、物理的な録音フォーマットに取って代わりました。産業の全側面がデータを保存・交換し始めましたが、当時は統一されたメタデータ標準の必要性を誰も本当に認識していませんでした。さまざまなデジタルストアフロント、レーベル、パブリッシャー、PRO、ディストリビューターがそれぞれのデータベースを設立し—ストリーミングサービスもその後に続きました。
現在に至るまで、統一されたデータベース構造は存在しません。メタデータは産業全体にわたる標準化されていないデータベースの絡み合いを流れます:レーベルからディストリビューターへ、ディストリビューターからDSPへ、DSPからPROへ、PROからパブリッシャーへ。
これらすべての関係者がデータを交換していますが、データベースの列とフィールドが常に一致するわけではありません。あるデータベースが「Back Vocalist」フィールドの値を受け取った場合—それ自身の対応する列が「Back Vocals」と呼ばれているとき、どうなるか想像してみてください。アルゴリズムはそのマッチングができず(特定のルールがない限り)、99%のケースでバックボーカリストのクレジットは単に削除されてしまいます。メタデータの大部分は音楽データチェーンを通る途中で失われます。
さらに、各音楽会社には通常、単一のデータベースがありません。代わりに、データはさまざまな形式の複数の内部音楽ライブラリに保存されており—外部データベースとの適切な交換を設定するために調整・検証する必要があります。
現在のメタデータ管理システムはデジタル音楽の時代に作られ、当時は誰も景観がどのように発展するかを知りませんでした。その後、データ生産は指数関数的に増大しました。現在、毎日20,000曲がリリースされ、必ずしも互換性のあるとは言えないデータベースの複雑なシステムを通じて処理されています—何千ものエラーを生み出しながら。
安心してください、Spotifyも例外ではありません
2. 音楽データの多様性
問題は2万曲あることだけではありません。それらの楽曲が同じ音楽作品の異なるバリエーションである可能性もあるということです。少し技術的な話をしましょう。すべての楽曲は3つの抽象化レイヤーで構成されています:
- 音楽作品または楽曲— ソングライターとプロデューサーの創造的な思考プロセスの結果であり、音楽パブリッシャーのメインビジネス。
- 音楽作品の録音— 演奏アーティストによって制作・録音されたもの。録音は音楽作品の特定の表現です
- リリース— 録音の特定のパッケージ化されたマニフェスト。
つまり、すべてはソングライターとコンポーザーが音楽作品を制作することから始まります。そして、その楽曲は百通りの異なる方法で表現できます—カバーバージョン、リミックス、ラジオエディットなどを考えてみましょう。さらに、これらの各録音はシングル、アルバムの一部、デラックスエディションの一部、コンピレーションの一部などとしてリリースされます。
最終的に、単一の楽曲は何百(いや、何千)もの別々のメタデータエンティティを生み出す可能性があり、これが状況を大幅に複雑にします。音楽会社はそれらの異なる抽象化レイヤーをすべてマッチングさせる必要があります。例えば、ASCAPが特定のリリースのラジオスピンのレポートを受け取ったとき、ソングライターを特定するために基礎となる楽曲と照合する必要があります。
3. 音楽ID標準の欠陥
音楽産業が、どのリリースがどの録音のバージョンであるかを判断し、すべての抽象化レイヤーをマッチングさせるための標準を開発したと思うかもしれません。しかし実際にはそうではありません。
現在、すべてのファイル形式にわたる音楽識別の主要標準はISRCコードです—「録音が異なるサービス、国境を越えて、または異なるライセンス契約の下で使用される際の固定した参照点」。ただし、ISRCコードは録音に割り当てられます—音楽データのレイヤーの一つに過ぎません。
ISRCだけでは、その特定の録音の背後にある元の音楽作品が何であるかを判断できません。エントリーをより高い抽象化レベルに集約して、同じトラックや楽曲のすべてのバージョンを編集することができません。ISRC標準の限界は、音楽会社が壊れたメタデータを修正することを非常に困難にしています。受け取るデータを解釈するために、産業のプレーヤーはISRCを他の永続的なID(リリースのUPCや楽曲のISWCなど)とマッチングさせるために記述メタデータタグに依存する必要があります。これは音楽データチェーン全体でさまざまなエラー、重複、競合を生み出します。
グローバルな音楽参照データベースを作成するいくつかの試みがありましたが、現在に至るまで、メタデータの競合を解決できる最終的な真実のソースはありません。現在、最も注目すべき公開音楽データベースはMusicBrainzとDiscogsのオープンソースプラットフォームおよびIFPIのISRCコードカタログですが、残念ながらこれらはすべて完全からはほど遠い状態です。
IDシステムの欠陥は、音楽会社がメタデータエラーに遭遇するたびにハードルを越えなければならないことを意味します。不整合で満ちたデータベースを相互参照して点と点を結ぼうとすることは、音楽データ管理の日常的な業務です。もっとも、会社がそれだけ気にかける場合には、ですが。
Spotifyの楽曲クレジットセクションが所有権メタデータの問題を浮き彫りにしている
4. 人為的エラー
最後になりましたが、一部の人々がどんなシステムにおいても最も弱いリンクと呼ぶものがあります。記述メタデータと所有権メタデータのほとんどは手動で作成・入力されます。その規模を考えると、必然的にあらゆる種類のタイポ、誤ったスペルの名前、タイトル、リリース日—あるいはデータの単純な欠落が生じます。
所有権データを例に取ってみましょう。楽曲のクレジットは非常に複雑になりえます。同じリリースに取り組む何十もの異なるソングライター、エンジニア、セッションミュージシャン、プロデューサーがいます。同時に、締め切りは待ってくれません—そのため、チームが新しいトラックを時間通りにリリースしようとするとき、所有権合意とスプリットがしばしば見落とされます。多くの場合、スプリットは事後に決定されます—そして楽曲が既に公開された後は、メタデータを追加または編集することが非常に困難になります。
人為的エラーからデータベースの非互換性、欠陥のあるID標準、音楽著作権の多面的な性質まで、これらすべての異なる要因が現代の音楽メタデータの暗澹たる現実を作り出しています。音楽産業の根幹は、データの世界が見てきた中でおそらく最大の混乱かもしれません。
メタデータを修正するにはどうすればいいのか?
現在の誰も得をしない状況は変化を求めています。クリーンなメタデータは、セッションミュージシャンが次の仕事を得るのに役立ち、ソングライターの家賃を払い、ストリーミングサービスのユーザー体験を最適化し—そして産業に何百万ドルもの節約をもたらす可能性があります。しかし、問題を修正する方法については明確な答えがありません。悲観的にならないでください—より良いシステムに向けて取り組んでいる企業、イニシアティブ、組織がいくつかあります。
メタデータのクリーンアップ、管理、管理ソリューション
最初のタイプのメタデータ企業は、音楽データベースを構築し、メタタグをクリーニング、修復、拡張することに取り組んでいます。Gracenote、Musicstory、そしてある程度The Echo Nestのような企業は、産業全体にわたる様々なDSPのメタデータプロバイダーです。このような企業は主に記述メタデータとレコメンデーションメタデータに関心を持っています。メタデータクリーニングアルゴリズムと音声認識技術を組み合わせて、検索、プレイリスト作成、音楽発見を強化し、デジタルストアフロントの正確な表示を保証します。
データチェーンの反対側では、VivaData、Exploration、TuneRegistryのような企業が独立系レコードレーベル、パブリッシャー、アーティスト向けのソリューションを開発しています。彼らの目的は、音楽会社が内部のメタデータ管理を支援し、既存のデータベースに不完全/壊れたメタデータがないか監査し、音楽データフローの根本からの発信データフローを合理化することです。
しかし、これらすべての企業は根本的な原因ではなく、症状を治療しています。既存の混乱をクリーンアップしようとすることは重要であることは間違いありません—しかし、それは体系的な問題を解決しません。
新しいデータベース標準
おそらく最も重要な転換は、音楽産業全体のデータベースが完全に互換性を持つようにすることで実現します。しかし、産業全体のメタデータシステムの最適化には、ビジネスのすべての側面の間での協調が必要であり、これは容易なことではありません。
そのスペースで最も目立つプレーヤーはDDEXです。デジタルデータチェーンを最適化するための新しいデータ標準とプロトコルを開発・促進している国際組織です。音楽データシステム全体をカバーするソリューションを提供するDDEXは、産業の最大手の一部をメンバーとして数え、既に大きな進歩を遂げています。DDEXの標準は、スタジオでのメタデータ管理を促進し、コンテンツオーナーとDSP間のメタデータ転送を調和させるなど、様々な目的に役立ちます。
本質的に、この組織の目標は、メタデータが作成される時点から最終目的地までの音楽メタデータのための完全な循環パイプを構築することです。音楽メタデータのための標準的な交換プロトコルを整備することで、潜在的に産業から何千もの非互換性エラーを取り除くことができます。しかし、DDEXのイニシアティブはより良いシステムの開発を助けることができますが、すべてのメタデータ問題を修正するわけではありません。
陳腐に聞こえるかもしれませんが、メタデータの修正に関しては自分自身から始めなければなりません。エラーのかなりの部分は音楽プロフェッショナルの間での意識の欠如によるものです—これがそもそも私たちがこの記事を書いた理由の一部です。
音楽メタデータの修正を助けるために何ができるか?
単純な経験則は、楽曲(またはアルバム)のリリース前に楽曲のすべてのメタデータが適切に入力・検証されていることを確認することです。これは聞こえるほど簡単ではありません。壊れた音楽メタデータの山に貢献しないようにするためのアドバイスをいくつか提供します:
1. 最初からメタデータを追跡する
各楽曲には何十(いや、何百)もの貢献者がいる可能性があり、リリースに関わるすべての人々を追跡するのはあっという間に手に負えなくなります。だからこそ、プロジェクトに2人以上が関わった瞬間から楽曲のクレジットを追跡することが重要です。
Sound CreditやAuddlyのCreator Credits(この記事の執筆時点では機能はまだ開発中でした)がここで役立ちます。これらのソリューションを使用すると、スタジオを飛び回るDAWファイルにクレジットやその他のメタデータを直接埋め込むことができます。そうすることで、クレジットを同じ場所に保管し、すべての音楽ファイルにわたってすべての楽曲バージョンとコラボレーターの一貫した記録を維持できます。
2. 楽曲がスタジオを離れる前に合意を確定しスプリットを定義する
音楽の権利は非常に複雑になる傾向があり、リリース締め切りに間に合わせようとする急ぎは、しばしば所有権メタデータを不完全なままにします。しかし、不完全な所有権メタデータは、コラボレーターの一部または全員が報酬を完全に見逃すことを意味する可能性があります。契約面をより簡単にするために、楽曲のコラボレーターとスプリットを追跡・管理するために作られた無料アプリケーションSplitsの使用を検討してみてください。
3. メタデータが正しく入力されていることを確認する
タイポは些細に見えるかもしれませんが、実際に影響があります。トラックの概要はデータベースでマッチングを行うために使用されるため、損傷した記述メタデータは物事を壊す傾向があります。送信する前に楽曲のメタデータを二重、三重確認してください—または二段階の検証システムを設定してください。楽曲が公開された後は、タイポの修正が非常に問題になります。
4. メタデータガイドラインに従う
入力する内容だけでなく、そのデータのフォーマット方法も重要です。楽曲名を「Song Name (Radio Edit)」と「Song Name — Radio Edit」と書き出す違いは大したことないように見えるかもしれません。しかし、次のことを考えてみましょう。音楽データは偽の鏡で満ちた部屋のようなものです。すべてのエラーは音楽産業を旅し、データベースの迷路を通る過程で拡大されます。最小の間違いでさえ、楽曲が間違ったSpotifyページに表示されたり、実演ロイヤリティが迷子になったりと、アーティストにとって本当の問題になる可能性があります。
コンテンツだけでなくフォーマットも正しいことを確認するために、メタデータガイドラインを使用できます。ディストリビューターのガイドに従ってください—ほとんどは従いやすいものです。ディストリビューターの指示がすべての答えを持っていない場合は、Music Business Associationが提供するような一般的なガイドラインを参照してください。
5. 広める
もちろん、これらのステップに従うだけでは産業のすべてのメタデータ問題を修正することはできません。問題自体が複雑すぎ、音楽産業全体が同じ認識を持った場合にのみ解決できます。その意味で、最初のステップは音楽プロフェッショナルの間での認識を高めることです。
メタデータは音楽産業の核心にあり、現在それは壊れています。ミュージシャンはロイヤリティを失っています。ソングライターとエンジニアは deserveするクレジットを得ていません。ストリーミングサービスはカタログの上部がクリーンに見えるようにアルゴリズムを開発しましたが、ロングテールを深掘りすると、あらゆる種類のエラーが亀裂から落ちてきます。私たちはより良いシステムへの移行を始める必要があります。
私たちSoundchartsでは、現在のシステムでできる限りのことをしています。データ分析プラットフォームとして、数十のソースと汚れたデータベースからデータを引き出す必要があります。その後、データを慎重に集約し、メタタグを相互確認して、すべてのチャートポジション、すべてのストリーミングプレイリスト追加、すべてのラジオスピン、すべてのデジタルプレスの言及が適切に帰属されるようにします。私たちは継続的にメタデータクリーニングとマッチングアルゴリズムを改善し、すり抜けてしまう問題に対処するための専任の手動メンテナンスチームを維持しています。それが私たちを産業で最もクリーンな音楽分析プラットフォームにしているものです。