Bandcamp把2.3亿首独立音乐数据锁了8年|爬虫|数据源|json|bandcamp

Bandcamp把2.3亿首独立音乐数据锁了8年

分享至

Bandcamp（独立音乐平台）上存着超过2.3亿首曲目，却没有一个公开接口。音乐研究者、厂牌星探、数据分析团队想要挖点矿，只能对着网页干瞪眼。

这事挺讽刺的——平台靠"直接面向粉丝"的模式活了14年，数据却像被焊死在保险柜里。直到有人发现，Bandcamp的网页源码里藏着一份"说明书"：JSON-LD格式的结构化数据，直接嵌在HTML里。

换句话说，服务器把数据嚼碎了喂到嘴边，只等你张嘴。

01 为什么偏偏是Bandcamp

Spotify（流媒体音乐平台）有API，但只给播放数据；Apple Music（苹果音乐服务）更封闭；SoundCloud（音频分享平台）曾经开放，2015年后逐步收紧。

Bandcamp的特殊之处在于交易闭环。艺术家自己定价、自己发货、自己掌握粉丝邮箱。这意味着定价策略、地域分布、流派趋势——这些商业情报全暴露在页面上。

一位匿名厂牌A&R（艺人发掘人员）向音乐产业媒体Music Ally透露：「我们每年在Bandcamp上发现的新签约艺人，占全年总量的15%到20%。」

但人工翻页效率极低。一个中等活跃度的独立音乐人，主页可能挂着50张专辑、300首单曲。想要批量分析某个城市的后朋克场景，或者追踪" pay-what-you-want"（随意付费）模式的演变，没有自动化工具就是噩梦。

爬虫成了刚需。而Bandcamp的技术架构，恰好给了爬虫工程师一个窗口期。

02 100行代码的拆解逻辑

Bandcamp没有动态加载陷阱，没有反爬验证码，没有前端渲染迷宫。页面是服务器直出的HTML，数据用JSON-LD（一种结构化数据标记格式）标准嵌入。

这套方案的本意是让Google（搜索引擎）更好地索引音乐内容，副作用是让人类也读得懂。

核心代码结构分成三层：会话管理、页面解析、数据提取。用Python的requests库（HTTP请求库）维持一个带User-Agent（用户代理标识）的会话，BeautifulSoup（网页解析库）负责定位DOM节点，正则表达式提取嵌套的JSON。

关键突破点在艺术家主页的script标签。type="application/ld+json"的代码块里，name、image、@type这些字段整整齐齐。乐队名、头像链接、实体类型——元数据一次性打包。

地理位置信息藏在id="band-name-location"的div里，bio（个人简介）有专门的class。 discography（作品目录）需要额外访问/music子页面，但结构同样直白：music-grid-item类循环遍历，每张专辑的标题、链接、封面图一一对应。

定价数据更隐蔽一些。专辑页面里，itemprop="price"属性直接标着数字，currency（货币单位）另有一个字段。想要分析"7美元专辑"和"10美元专辑"的转化率差异，或者追踪某个流派的价格中位数，这套结构足够支撑。

一位数据工程师在GitHub（代码托管平台）开源项目中注释：「Bandcamp的HTML比Bandcamp的意图更诚实。」

03 反爬与伦理的灰色地带

技术门槛低，不代表没有风险。Bandcamp的服务条款明确禁止"自动化访问"，但执行力度因时而异。

2019年，平台曾因爬虫流量过高临时封禁部分IP段，引发独立音乐人集体抗议——他们的后台数据同步工具也被误伤。此后Bandcamp调整了策略：不主动封杀，但保留权利。

更现实的约束是速率。代码里必须植入time.sleep()，单IP每秒请求超过2次，连接质量会断崖式下跌。想要规模化采集，代理池（proxy pool）成了标配成本。

伦理层面争议更大。艺术家在Bandcamp上自愿公开的信息，被第三方抓取后用于商业分析，是否构成"数据剥削"？

2022年，电子音乐厂牌Ghostly International（幽灵国际）的数据团队被曝系统性爬取竞争对手的定价数据，用于制定发行策略。事件没有法律诉讼，但在圈内引发激烈讨论。

Bandcamp创始人Ethan Diamond（伊桑·戴蒙德）早年接受采访时说：「我们希望艺术家拥有自己的关系。」这句话被反复引用——但"关系"的边界，在数据时代变得模糊。

04 从爬虫到生态：谁在买单

需求端比想象中多元。音乐学者用这些数据写论文：《数字时代的独立音乐地理学：基于Bandcamp的流派分布研究》2021年发表于Popular Music and Society（《流行音乐与社会》期刊）。

投资机构的用法更直接。风险基金a16z（安德森·霍洛维茨）2021年的音乐科技赛道分析报告中，Bandcamp数据被用于验证"直接面向粉丝"模式的增长曲线——报告发布三个月后，Epic Games（游戏公司）收购Bandcamp。

最隐秘的买家是流媒体平台本身。Spotify的"独立音乐雷达"功能，底层逻辑与Bandcamp爬虫高度相似：监测新兴艺人的粉丝增速、定价弹性、跨平台迁移率。

这些应用很少公开承认数据源。但技术社区里，Bandcamp爬虫的Star（收藏）数和Fork（分支）数持续增长，Python相关仓库超过400个，Go语言和Rust语言（系统编程语言）的实现也在涌现。

一个细节值得玩味：Bandcamp被Epic收购后，技术团队规模扩张了3倍，但公开API的呼声始终没有回应。是战略忽视，还是刻意保护数据壁垒？

Epic的2023年财报电话会议上，CEO Tim Sweeney（蒂姆·斯威尼）提到Bandcamp时只说了一句话：「创作者经济的基础设施。」没有数据，没有指标，没有API路线图。

05 代码背后的权力游戏

爬虫本质上是技术平权工具。没有官方接口时，它让小型研究者和大机构站在同一起跑线。但这种平等是脆弱的——平台随时可以通过技术升级抹除它。

Bandcamp至今没有动手，可能因为成本收益不划算。独立音乐的长尾属性意味着，任何单一数据源的价值都有限，封锁爬虫的投入产出比不高。

另一个解释更微妙：爬虫产生的二次分析，客观上放大了Bandcamp的行业影响力。学者引用、媒体报道、投资关注——这些免费曝光，平台乐见其成。

2016年，数据记者Spencer Woodman（斯宾塞·伍德曼）在The Verge（科技媒体）发表调查报道，用爬虫揭露Bandcamp上极端主义音乐的分布问题。报道引发平台内容审核政策调整，也证明了开放数据的社会价值。

这种张力会持续存在。技术层面，Bandcamp的JSON-LD结构八年未变，像一份沉默的契约。商业层面，Epic的整合进度缓慢，数据策略悬而未决。

对于每天运行爬虫脚本的工程师来说，这100行代码既是工具，也是赌注——赌的是平台不会突然翻脸，赌的是数据民主化的窗口期还没关闭。

Last.fm（音乐社交平台）的早期员工曾回忆：「我们当年爬MySpace（社交网站）的音乐数据，爬着爬着，MySpace就没了。」历史不会简单重复，但技术债务和平台风险，始终是悬在头顶的剑。

Bandcamp的爬虫社区最近流传一个新发现：某些艺术家页面的JSON-LD结构出现了细微变化，@context字段的排序不再固定。是偶然的技术迭代，还是某种信号的前奏？

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

手机 / 数码

房产 / 家居

Bandcamp把2.3亿首独立音乐数据锁了8年

01 为什么偏偏是Bandcamp

02 100行代码的拆解逻辑

03 反爬与伦理的灰色地带

04 从爬虫到生态：谁在买单

05 代码背后的权力游戏

创造4万亿帝国、访华20次，库克留下了什么

三国取消飞航许可 赖清德无法窜访斯威士兰

三国取消飞航许可 赖清德无法窜访斯威士兰

一到NBA季后赛，四届DPOY就成了主角

宋承炫晒宝宝B超照，宣布老婆怀孕

现实是最大的荒诞:千亿平台的冲突始末

全新坦克700正式上市 售价42.8万-50.8万元

态度原创

干细胞抗衰4大误区,90%的人都中招

无花不风景

涨价两周即回调!索尼官方PS5数字版定价重回399美元

才六天的马宝宝，发这个视频没有别的意思，只是想骗你们生女儿而已

三国取消飞航许可赖清德无法窜访斯威士兰

三国取消飞航许可赖清德无法窜访斯威士兰

全新坦克700正式上市售价42.8万-50.8万元