音乐元数据终极指南

作为一家大数据公司，Soundcharts 接入数十个数据源，构建音乐行业数据分析工具，每天都要与损坏的元数据打交道。多年来，我们开发了多种算法，尽力确保数据库的清洁度，但即便如此，仍需进行一定程度的人工维护。Soundcharts 团队是在管理一个拥有 200 万+ 艺人的数据库过程中，切身体会到音乐元数据有多么混乱的。
但这不仅仅是我们的问题。事实上，元数据问题给整个行业造成了巨大损失。损坏的元数据破坏了流媒体服务的用户体验，削减了一部分版权收入，剥夺了词曲作者应得的署名权——而这仅仅是个开始。让我们先从基础知识说起：

什么是音乐元数据？

音乐元数据是嵌入在音乐文件中的识别数据，由数百个基于文本的元标签组成，通过元数据容器（ID3v1 和 ID3v2 是迄今最为普及的两种）附加于文件之上，详细记录从艺人姓名、歌曲发行日期到相关曲风和词曲作者署名等所有信息。

乍一看，元数据似乎是个无足轻重的小东西，但请想想以下场景：每当用户在 Spotify 上搜索一首歌；每当 BMI 归属表演版税；每当 Pandora 的算法将一首歌加入播放队列——元数据都在发挥作用。它是驱动整个行业运转的润滑剂。

音乐元数据的3种类型

总体而言，音乐元数据可分为三种主要类型：

1. 描述性元数据

描述性元数据记录录音内容，使用客观的文本标签，如歌曲名称、发行日期、曲目编号、表演艺人、封面图片、主要曲风等。它的应用场景多达数百万种。每当有人需要查询、整理、分类或展示音乐时，描述性元数据就会发挥作用——无论是在 Spotify 上搭建艺人主页、构建有序的音乐库，还是识别并归属一次广播播放记录。

描述性元数据的问题对终端用户来说最为直观。如果你使用流媒体服务的时间足够长，很可能已经遇到过因元数据损坏而导致的各种错误。想想那些被混在同一个 Spotify 艺人主页上的不同艺人歌曲，复合艺人主页，拼写错误的歌曲名称，混乱的发行日期——这些都是描述性元数据损坏的后果。这类问题给消费者带来了极大的困惑——但这只是冰山一角。

2. 所有权/表演权元数据

无论是数字流媒体、广播播出还是影视同步授权，众多参与方——从表演艺人到词曲作者、制作人——都将分享收入。因此，需要所有权元数据来明确发行背后的合同协议，以便进行版税计算和分配。所有权元数据的作用，是确保参与音乐创作过程的每一方都能获得相应的报酬。

考虑到大多数歌曲背后复杂的权益分配（以及全球各地立法的差异），将消费者的每一分钱正确分配本身就绝非易事。再叠加上缺失或不一致的元数据，问题就会复杂十倍。所有权元数据的问题打在最痛的地方：这里一个人为错误，那里一次数据库故障——词曲作者就可能损失数万美元。

然而，这只是问题的一部分。艺人署名同时也是词曲作者、制作人、录音乐手和录音师向行业展示自身的主要途径，某种程度上是一种"B2B"推广空间。损坏的所有权元数据不仅剥夺了音乐人的金钱，也剥夺了他们应得的署名权。\_\_

3. 推荐元数据

前两种类型的元数据标签是客观的——歌名只有一个，署名列表也只有一份。推荐元数据则不同。其核心由主观标签构成，旨在反映录音内容，描述音乐的听感。情绪标签、生成式曲风标签、歌曲相似度评分——推荐元数据被用来在曲目之间建立有意义的关联，驱动推荐引擎。

当然，其他类型的元数据也可以用于增强音乐发现。发行日期可以帮助你找到同一时代的音乐，相同的制作人姓名则可以帮助找到风格相近的录音。然而，推荐元数据的关键区别在于其来源。

音乐发现是流媒体服务之间最重要的差异化因素。正因如此，推荐元数据标签通常是专有数据，不像描述性元数据和所有权元数据那样在行业内流通。相反，每个平台都有自己的推荐元数据生成方式和支撑推荐算法的专属数据库。因此，如果说描述性元数据和所有权元数据是由艺人端创建的，那么推荐元数据则是由 DSP（或其附属机构）生成的。

例如，Pandora 通过其音乐基因组计划采用人工分类方式。而 Spotify 则结合了用户生成数据和The Echo Nest 的发现元数据标签，通过机器学习与人工策划相结合来生成推荐。如果你想一窥 The Echo Nest/Spotify 推荐元数据标签的结构，大致了解推荐元数据的样貌，可以查看 Organize Your Music 项目。

发现元数据是整个元数据领域中发展最快的细分方向。新技术不断拓展发现的边界，呼唤着新的解决方案与方法。

试想智能音箱将如何改变我们获取和发现音乐的方式。语音驱动的音乐消费将用户从结构化文字查询转向模糊的请求，例如"Alexa，播放我喜欢的音乐"。这给流媒体平台和谷歌等搜索引擎的推荐引擎带来了新的挑战。仅仅找到相似歌曲、生成类电台播放队列已经远远不够。流媒体平台需要弄清楚，在特定时刻为特定用户播放什么是最佳选择。它们应对这一挑战的方式将影响数千名艺人和音乐从业者的生计，并在未来多年内塑造音乐行业的未来。\_

音乐元数据的问题

读到这里，好奇的读者或许会问：既然音乐元数据对音乐商业如此重要，为什么我们至今仍未修复它？ 为什么词曲作者还在损失收入，iTunes 数据库里还充斥着复合艺人错误？问题在于，音乐元数据管理系统始终落后于音频发行格式的发展步伐。

例如，CD 刚问世时，除了基本的描述性信息之外，根本无法附加任何标签——CD 封盒和附册扮演了元数据附件的角色。随后 Napster 崛起，混乱随之而来。从 CD 翻录的 MP3（或 FLAC）文件几乎不携带任何元数据，经过 P2P 网络传播后保留下来的就更少了，由此形成了一个庞大的、标签残缺的音频文件档案库。

1. 数据库标准化的缺失

随后，数字音乐登上舞台，取代了实体录音格式。行业各方开始存储和交换数据，但当时没有人真正意识到需要建立统一的元数据标准。各大数字商店、唱片公司、出版商、版权收益机构和发行商各自建立了自己的数据库——流媒体服务也沿袭了这一做法。

时至今日，行业内仍没有统一的数据库结构。元数据在行业内各个未经标准化的数据库网络中流转：从唱片公司到发行商，从发行商到 DSP，从 DSP 到版权收益机构，再从版权收益机构到出版商。

所有这些参与方都在交换数据，但它们数据库的列名和字段并不总是匹配。试想一个数据库在"背景人声歌手"字段收到了一个值，而其自身对应的列却叫"背景人声"。算法无法完成这种匹配（除非有专门的规则），在 99% 的情况下，背景人声歌手的署名就会被直接丢弃。大量元数据在音乐数据流转链条上遗失。\_

此外，对于每家音乐公司而言，单一数据库的情况极为罕见。数据往往分散存储在多个内部音乐库中，且格式各异——因此需要经过调整和验证，才能与外部数据库建立正常的数据交换。

现行的元数据管理体系诞生于数字音乐初期，彼时没有人真正知道这个行业将走向何方。此后，数据产量呈指数级增长。如今每天有 2 万首歌曲发行，并被推送进这个相互兼容性并不理想的数据库迷宫——由此产生了数以千计的错误。

Spotify Compound Artist Errors — 别担心，Spotify 也好不到哪里去

2. 音乐数据的多样性。

问题不仅仅在于有 2 万首歌曲。还在于这些歌曲可能是同一音乐作品的不同版本。让我们稍微深入一下。每首歌曲都通过三个抽象层次来构成：

音乐作品或乐曲创作——词曲作者和制作人创作思维的结晶，是音乐出版商的核心资产。
音乐作品的录音，由表演艺人制作和录制。录音是音乐作品的一种具体表达。
发行版本——录音的一种特定、打包的具体形式。

因此，一切始于词曲作者和作曲家创作音乐作品。随后，这部作品可以以百种不同的方式呈现——想想翻唱版本、混音版、广播剪辑版等等。更进一步，这些录音中的每一个都可以作为单曲发行、收录于专辑、收录于豪华版专辑、收录于合辑等。

最终，一部单一的乐曲创作可以衍生出数百（甚至数千）个独立的元数据实体，这极大地增加了管理难度。音乐公司需要在所有这些不同的抽象层次之间进行匹配。例如，如果 ASCAP 收到一份关于某个特定发行版本的广播播出报告，它就需要将其与底层乐曲创作进行对应，才能找到词曲作者。

3. 音乐识别码标准的不足

有人可能会想，音乐行业理应开发出一套标准，能够识别哪个发行版本属于哪个录音，并匹配所有抽象层次。然而，现实并非如此。

目前，跨所有文件格式的音乐识别首要标准是 ISRC 码——"当录音被用于不同服务、跨越国界或在不同授权协议下使用时的固定参照点"。然而，ISRC 码是分配给录音的——仅仅是音乐数据三个层次中的一个。

仅凭 ISRC，你无法判断某个特定录音背后的原始音乐作品是什么。它无法将条目聚合到更高的抽象层次，以汇总同一曲目或乐曲创作的所有版本。ISRC 标准的局限性使音乐公司极难修复损坏的元数据。为了理解传入的数据，行业参与者不得不依靠描述性元数据标签，将 ISRC 与其他持久性 ID 进行匹配，例如用于发行版本的 UPC 或用于乐曲创作的 ISWC。这在音乐数据流转链条中造成了各种错误、重复和冲突。

曾有多次尝试建立全球音乐参考数据库，但时至今日，仍没有一个终极的权威数据源能够解决元数据冲突。目前，最具影响力的公共音乐数据库是开源平台 MusicBrainz 和 Discogs，以及 IFPI 的 ISRC 码目录——但遗憾的是，它们都远未达到完整。

识别码体系的不足意味着，每当遇到元数据错误时，音乐公司都要费尽周折。通过相互交叉参照本身就充满不一致性的数据库来拼凑出完整信息，是音乐数据管理人员的日常。前提是那家公司还足够在意这个问题的话。

4. 人为错误

最后，我们有一个许多人认为是任何系统中最薄弱环节的因素。大多数描述性和所有权元数据都是手动创建和填写的。考虑到数据量之巨，这不可避免地会导致各种拼写错误、人名错误、歌曲名称错误、发行日期错误，甚至是数据完全缺失。

以所有权数据为例。一首歌的署名可能极为复杂，同一个发行版本可能涉及数十位词曲作者、录音师、录音乐手和制作人。与此同时，截止日期不等人——因此，当团队努力按时发行新歌时，所有权协议和权益分配往往会被搁置一旁。很多时候，权益分配是在事后才确定的——而一旦歌曲已经发行，再添加或修改元数据就极为困难了。

所有这些因素——从人为错误和数据库不兼容，到有缺陷的识别码标准和音乐版权的多方性——共同造就了现代音乐元数据的严峻现实。音乐行业的骨干，或许是数据世界有史以来见过的最大混乱。

我们如何修复元数据？

当前双输的局面迫切需要改变。清洁的元数据可以帮助录音乐手获得下一份工作机会，为词曲作者的生计提供保障，优化流媒体服务的用户体验——同时为行业节省数百万美元。然而，如何解决这个问题，目前并没有明确的答案。不过也不必过于悲观——已有多家公司、多项倡议和组织正致力于建立更好的体系。

元数据清理、管理与运营解决方案

第一类元数据公司致力于整合音乐数据库，然后对元数据标签进行清理、修复和扩充。Gracenote、Musicstory 以及在一定程度上 The Echo Nest 等公司，是行业内各大 DSP 的元数据供应商。这类公司主要关注描述性和推荐元数据，综合运用元数据清理算法和音频识别技术，为搜索、歌单和音乐发现提供支持，同时确保数字商店的正确展示。
在数据链的另一端，VivaData、Exploration 和 TuneRegistry 等公司正在为独立唱片公司、出版商和艺人开发解决方案。它们的目标是协助音乐公司进行内部元数据管理，对现有数据库进行不完整或损坏元数据的审计，并从音乐数据流的源头优化对外数据流程。

然而，所有这些公司都在治标，而非治本。请不要误解我的意思，尝试清理现有的混乱至关重要——但这并不能解决系统性问题。

新数据库标准

或许最重大的转变，将来自确保整个音乐行业的数据库完全兼容。然而，对行业范围内元数据体系的优化，需要业内所有参与方的协调配合，这绝非易事。

在这一领域最具影响力的参与者是 DDEX，这是一个国际组织，致力于开发和推广新的数据标准与协议，以优化数字数据链。DDEX 提供涵盖整个音乐数据体系的解决方案，已取得显著进展，其成员中不乏行业内一些最重要的名字。DDEX 标准旨在促进录音室内的元数据管理，协调内容所有者与 DSP 之间的元数据传输，以及更多更多。

从本质上说，该组织的目标是为音乐元数据构建一条完整闭环的管道，从元数据创建的源头直至最终目的地。建立音乐元数据的标准交换协议，有望将行业中数以千计的不兼容错误一扫而空。然而，即使 DDEX 的各项倡议有助于建立更好的体系，也无法解决所有元数据问题。

说来并不陈腐，但在修复元数据这件事上，你必须从自身做起。相当大比例的错误源于音乐从业者缺乏这方面的意识——这也正是我们撰写本文的原因之一。

你可以做什么来帮助修复音乐元数据？

最简单的原则是：在歌曲（或专辑）发行之前，确保所有元数据都已正确填写并经过核实。这说起来容易，做起来难。以下是一些建议，帮助你确保不会为损坏的音乐元数据再添一份：

1. 从一开始就追踪元数据

一首歌可能有数十（甚至数百）位贡献者，因此追踪所有参与发行的人员很快就会变得难以管理。正因如此，从项目涉及不止一个人的那一刻起，就记录歌曲署名至关重要。

Sound Credit 和 Auddly 的 Creator Credits（本文撰写时该功能仍在开发中）可以在这方面提供帮助。这些解决方案允许将署名和其他元数据直接嵌入到录音棚内流转的 DAW 文件中，从而将署名保存在同一位置，并跨所有音乐文件维护所有歌曲版本和合作者的一致记录。

2. 在歌曲离开录音棚之前，完成协议并确定权益分配

音乐权益往往极为复杂，赶发行时间表的压力常常导致所有权元数据不完整。然而，不完整的所有权元数据意味着部分甚至全部合作者可能完全拿不到报酬。为了简化合同环节，可以考虑使用 Splits——这是一款免费应用程序，专为追踪和管理歌曲合作者及权益分配而生。

3. 确保元数据填写正确

拼写错误看似微不足道，但其影响不可小觑。曲目信息将被用于数据库匹配，因此损坏的描述性元数据往往会引发连锁反应。务必在发送前对歌曲元数据进行双重乃至三重核查——或建立两步审核机制。一旦歌曲发行，修正拼写错误将变得极为困难。

4. 遵守元数据规范指南

重要的不仅是你填写了什么内容，还包括你如何格式化这些数据。将歌曲名称写成"Song Name (Radio Edit)"与"Song Name — Radio Edit"，差别看似不大，但请想想以下情况：音乐数据就像一间充满哈哈镜的房间。每一个错误都会在行业内传播，在穿越数据库迷宫的途中不断被放大。即使是最微小的失误，也可能给艺人带来真正的麻烦——歌曲出现在错误的 Spotify 主页上，或者表演版税在邮路中遗失。
为确保内容和格式都正确无误，你可以参照元数据规范指南。遵循发行商的指导方针——大多数都简单易懂。如果发行商的说明没有涵盖所有问题，可以查阅通用指南，例如音乐商业协会提供的指南。

5. 广而告之

当然，遵循以上步骤并不能修复行业中所有的元数据问题。问题本身过于复杂，只有整个音乐行业齐心协力，才能真正解决它。在这个意义上，第一步是提升音乐从业者的意识。

元数据是音乐行业的核心，而它现在已经千疮百孔。音乐人正在损失版税。词曲作者和录音师得不到应有的署名。流媒体服务已开发出算法，确保目录头部内容看起来干净整洁，但一旦深入长尾部分，各种错误就会接连涌现。我们需要开始向更好的体系迈进。

我们 Soundcharts 在现有体系的框架内尽力而为。作为一个数据分析平台，我们需要从数十个来源和质量参差不齐的数据库中抓取数据，然后仔细聚合数据并交叉核验元数据标签，确保每一次榜单排名、每一次流媒体歌单新增、每一次广播播出和每一次数字媒体提及都得到正确归属。我们持续改进元数据清理和匹配算法，同时保留一支专职的人工维护团队，以处理那些漏网的问题。这就是我们成为行业内最清洁的音乐分析平台的原因。