Backing Up Spotify
安娜档案馆备份了Spotify,以供永久保存 (Anna’s Archive Backed Up Spotify for Permanent Preservation)
安娜档案馆 (Anna’s Archive) 发布了一项前所未有的项目:备份了 Spotify 的元数据和音乐文件,旨在永久保存人类的音乐文化遗产。这项备份包含大约 300TB 的数据,并通过分发的巨型torrent文件提供,按受欢迎程度分组。
主要特点和细节:
- 庞大的数据库: 包含 2.56 亿首歌曲的元数据,以及 1.86 亿个唯一的国际标准录音代码 (ISRC)。
- 全面的覆盖: 备份了大约 8600 万个音乐文件,代表了 Spotify 上听歌量的 99.6%。
- 开放的档案: 采用完全开放的架构,允许任何人拥有足够的磁盘空间来镜像和分发备份。
- 优先级排序: 备份优先考虑受欢迎程度高的歌曲,但同时也努力捕捉长尾音乐,这些音乐通常由于缺乏个人关注而难以保存。
- 质量考虑: 为了可访问性和可保存性,备份采用 160kbit/s 的 OGG Vorbis 格式 (流行歌曲) 和 75kbit/s 的 OGG Opus 格式 (不常听的歌曲)。
- 时间范围: 截止日期为 2025 年 7 月,之后发布的音乐可能未包含在内。
- 数据发布阶段: 数据将分阶段发布,包括元数据、音乐文件、额外文件元数据、专辑封面和 .zstdpatch 文件。
项目背景:
安娜档案馆通常专注于文本资料的保存 (书籍、论文等),因为文本具有更高的信息密度。 然而,该组织意识到音乐保存的重要性,并利用一种大规模抓取 Spotify 数据的技术,启动了这一项目。
现有音乐保存工作的局限性:
- 过度关注流行音乐: 许多现有的音乐保存工作主要集中在最受欢迎的艺术家。
- 过度追求高质量: 许多爱好者追求最高质量的音频文件 (例如 FLAC),这导致文件体积庞大,难以构建完整的存档。
- 缺乏权威的 torrent 列表: 目前缺乏一个类似 LibGen 的 torrent 列表,可以汇总所有音乐的 torrent。
数据结构和统计信息:
- 歌曲: Spotify 拥有约 2.56 亿首歌曲,该备份包含了约 99.9% 的元数据。
- 流媒体统计: 大约 70% 的歌曲播放量来自 21 万首受欢迎程度在 50-80 之间的歌曲。
- 艺术家和专辑: 该项目也收集了关于艺术家和专辑的信息,并提供了按流派分类的统计数据。
- 音频特征: 抓取了 Spotify 提供的音频特征数据,例如节拍、音调和能量。
- 数据库结构: 元数据存储在 SQLite 数据库中,方便查询和分析。
行动呼吁:
安娜档案馆呼吁社区成员参与到音乐遗产的保护中来:
- 捐赠: 捐款支持安娜档案馆的运营。
- 共享: 通过种子 torrent 文件来帮助分发数据。
通过社区的合作,安娜档案馆旨在确保人类的音乐遗产免受自然灾害、战争和预算削减等威胁。
数据探索 (Data Exploration):
- 流行度分布: 分析了歌曲的流行度分布,揭示了许多歌曲播放量极低。
- 持续时间: 歌曲的持续时间呈现出明显的峰值。
- ISRC计数: 分析了 ISRC 计数,揭示了许多歌曲都有多个版本。
- 真随机播放列表: 该项目提供了一种创建 Spotify 真正的随机播放列表的可能性,涵盖了平台上 99.9% 的歌曲。
未来计划:
- 允许下载单个文件
- 持续的数据分析和发布
总而言之,安娜档案馆的项目代表了音乐保存领域的一项重大突破,旨在确保人类的音乐遗产能够得到永久的保护。
