Anna’s Archive 成功爬取并备份了 Spotify 的绝大部分内容,包括元数据和音乐文件。档案数据集涵盖约 8,600 万个音乐文件、约 2.56 亿条音轨、1.86 亿个唯一 ISRC 代码,是目前全球最大的公开音乐元数据库。

音乐文件数量占总量的 37%,但覆盖了 99.6% 的用户收听范围。高热度歌曲保留原始 OGG Vorbis 格式(160kbit/s);低热度(播放量为 0)歌曲转码为 OGG Opus 格式(75kbit/s)以节省空间。数据被整理为可查询的 SQLite 数据库,并采用 Anna's Archive Containers (AAC) 格式分发。

整个数据集以大容量 Torrent 形式分发,总大小约 300TB。如果用户呼声够高,Anna's Archive 可能会在网站上增加单个音轨的直接下载功能。

存档时发现的细节

  • Spotify 上超过 70% 的歌曲几乎无人问津(播放量小于 1000)。目前最热门的前三首歌(按Spotify流行度指数排序,分别为Lady Gaga/Bruno Mars - Die With A Smile, Billie Eilish - BIRDS OF A FEATHER, Bad Bunny - DtMF) 的总播放量超过了底部 2000 万至 1 亿首歌曲的播放量总和。
  • 歌曲时长在整分钟处(如 2:00、3:00、4:00)出现了明显的数量峰值,原因尚不明确。
  • 大多数歌曲条目是单曲而非完整专辑
  • 近年的新增内容中,尤其是播放量为 0 的长尾部分,存在大量疑似自动生成或 AI 生成的音乐。
  • 文章作者说,这是世界上首个完全开放的音乐“保存档案馆”。该项目旨在打破现有音乐存档对热门歌手和超高质量(FLAC 等)的过度关注,填补缺乏权威音乐 Torrent 列表的空白,保护人类音乐文化遗产免受灾害或商业因素影响。

    https://annas-archive.li/blog/backing-up-spotify.html

    Backing up Spotify

    We backed up Spotify (metadata and music files). It’s distributed in bulk torrents (~300TB). It’s the world’s first “preservation archive” for music which is fully open (meaning it can easily be mirrored by anyone with enough disk space), with 86 million music files, representing around 99.6% of listens.

    @cdn0x12 这样搞不怕被版权大手出击吗

    @none0101 难说

    如果你指的是出击 Anna's Archive 本身,这要看版权公司认为付出成本是否值得
    如果你指的是数据本身,只要有人做种或者用其它去中心化的方式把数据流传下来即可
    另外我认为上线了单曲下载才会显著增加被出击的可能

    版權方出重手,Google 三年內移除 7.49 億筆影子圖書館 Anna’s Archive 連結

    知名影子圖書館Anna’s Archive遭版權方鎖定,迫使Google移除大量連結。儘管如此,Anna’s Archive 依然活躍,展現其驚人的影響力。

    T客邦

    @Merveilleux @none0101 确实已经在出击,特别是欧洲一些地区(德国、意大利、荷兰、比利时)已经对它进行了DNS屏蔽,或更进一步要求CF这样的运营商阻止对应地区IP的请求

    例如这个 https://news.ycombinator.com/item?id=44942501 评论里就有很多欧洲用户反映对应的屏蔽情况

    Anna's Archive: An Update from the Team | Hacker News