Anna’s Archive 成功爬取并备份了 Spotify 的绝大部分内容,包括元数据和音乐文件。档案数据集涵盖约 8,600 万个音乐文件、约 2.56 亿条音轨、1.86 亿个唯一 ISRC 代码,是目前全球最大的公开音乐元数据库。
音乐文件数量占总量的 37%,但覆盖了 99.6% 的用户收听范围。高热度歌曲保留原始 OGG Vorbis 格式(160kbit/s);低热度(播放量为 0)歌曲转码为 OGG Opus 格式(75kbit/s)以节省空间。数据被整理为可查询的 SQLite 数据库,并采用 Anna's Archive Containers (AAC) 格式分发。
整个数据集以大容量 Torrent 形式分发,总大小约 300TB。如果用户呼声够高,Anna's Archive 可能会在网站上增加单个音轨的直接下载功能。
存档时发现的细节
文章作者说,这是世界上首个完全开放的音乐“保存档案馆”。该项目旨在打破现有音乐存档对热门歌手和超高质量(FLAC 等)的过度关注,填补缺乏权威音乐 Torrent 列表的空白,保护人类音乐文化遗产免受灾害或商业因素影响。

Backing up Spotify
We backed up Spotify (metadata and music files). It’s distributed in bulk torrents (~300TB). It’s the world’s first “preservation archive” for music which is fully open (meaning it can easily be mirrored by anyone with enough disk space), with 86 million music files, representing around 99.6% of listens.