#1 - 2021-2-6 00:45
Oalvay
2023.2.3 update:为避免引起任何可能形式的不必要纠纷,数据库已删除。如有任何疑虑,请参考公开时所使用的CC0: Public Domain协议。

---------

回想起之前在班里求数据结果四处碰壁的时候,就很感慨:等我可以收集数据了,一定要open data!

数据地址:已删除

数据以csv格式保存,每条包括:
用户id,条目id,状态(想看/在看……),状态对应的日期,评分,标签,评论
其中评分“0”代表没有评分。更详细说明请参照以上地址。
注:这次收集的是动画条目的数据,共900万+条。

user_id 已打乱重新标注。
---
依然非常感谢 铃猫bangumi镜像
#2 - 2021-2-6 03:08
好活!
(题外话,虾米音乐到昨天正式关闭了,我也没搜到有人爬了虾米音乐的完整数据,凉得彻底(bgm38)
#3 - 2021-2-6 10:32
(水中月是天上月,眼前喵是心上喵)
好活。支持(bgm37)
#4 - 2021-2-6 10:52
(ユーフェミア·リ·ブリタニア/Euphemia Li Britannia)
已收藏~
#5 - 2021-2-6 10:54
技术宅真可怕!
#6 - 2021-2-6 11:23
(这个人还没有签名)
mark
#6-1 - 2022-4-12 12:37
瑠衣
+1
#7 - 2021-2-6 12:07
fork
大家猜猜抛弃/收藏比最高的作品是哪一部(bgm38)
你肯定没看过
#7-1 - 2021-2-6 20:51
#7-2 - 2021-2-6 22:18
dhzy
lhb5883-污喵王♛⑩ 说: 盲猜三柱
你看过了,所以不是(bgm38)
#7-3 - 2021-2-7 00:07
lhb5883-吹冈王♛⑩
dhzy 说: 你看过了,所以不是
雷锋?
#7-4 - 2021-2-7 01:27
dhzy
lhb5883-污喵王♛⑩ 说: 雷锋?
雷锋还比不上高铁英雄
#8 - 2021-2-6 12:14
(今晚、夜深人不静)
感谢
原来kaggle还能做这种事情(bgm38)
#9 - 2021-2-6 12:27
(意识形态的水很深 你把握不住)
根据你班的版权声明,这样的数据收集涉嫌对不特定多数用户的侵权。
2. 用户所发布的原创日志、吐槽、图片等内容的版权归用户本人所有。未经用户本人许可,禁止转载或使用相关的文本以及图形内容。
#9-1 - 2021-2-6 15:09
WangTooNaive
那那个镜像也算吗
#9-2 - 2021-2-6 15:15
Rくん
隔壁姓王求破 说: 那那个镜像也算吗
不知道,你可以去淘宝找个律师问问(bgm38)
#9-3 - 2021-2-6 16:05
妄想是不治之症
小小杠一下。
评分,标签,评论
属于
原创日志、吐槽、图片等内容
吗?
#9-4 - 2021-2-6 16:27
弥御水Scyiki
妄想是不治之症 说: 小小杠一下。属于原创日志、吐槽、图片等内容吗?
用户所发布的原创……等内容
这才是主体吧?
#9-5 - 2021-2-6 16:30
Rくん
弥御水Scyiki 说: 用户所发布的原创……等内容这才是主体吧?
咱又没有顺着网线执法的能力,拒绝辩经(bgm39)
#9-6 - 2021-2-6 16:36
弥御水Scyiki
Rくん 说: 咱又没有顺着网线执法的能力,拒绝辩经
就事论事讨论而已(bgm39)而且镜像站早就有好多了,想象一下在菠菜网站看到自己发的吐槽时的心情(bgm39)
#9-7 - 2021-2-6 20:34
Aoi
妄想是不治之症 说: 小小杠一下。属于原创日志、吐槽、图片等内容吗?
吐槽就是评论
#9-8 - 2023-1-6 12:42
東雲名乃
非常明确,这种荟萃分析的数据库可以适用于合理引用原则。
#10 - 2021-2-6 14:40
同意楼上。自己爬不公开应该没啥,但像这样大大降低任何人大量获取bgm数据难度的做法,不太认同。
#10-1 - 2021-2-6 17:40
hikki-
+1
#10-2 - 2021-2-6 20:40
#10-3 - 2021-6-12 02:40
Kexi
+1
#11 - 2021-2-6 15:34
mark
#12 - 2021-2-6 16:27
#13 - 2021-2-6 16:39
好活!
724 views 18 downloads(bgm38)
不搞数据分析,
拿来做婆罗门番评生成器一定很有趣(
#14 - 2021-2-6 20:53
(BGMのTrinitas<=>婊冈妈<=>补冈妈<=>拜冈妈 三位一体 ...)
应该把ID隐藏,最好能少许统计后再发布
#15 - 2021-2-6 22:45
(19914)
ID做个简单变换脱敏会好一点 至少我自己这么感觉(bgm39)
#15-1 - 2021-2-6 23:40
Oalvay
☑️
#16 - 2021-2-7 01:40
不得了 野生数据科学家
#17 - 2021-2-7 10:05
(少年听雨歌楼上,红烛昏罗帐。)
要是能关联一下用户人口特征就好了,那应该就可以写论文研究很多东西。现在只能关联用户自身行为特征,比如注册时间、看过的数量、打分的均分,可研究的比较有限。
[来自Bangumi M1 for Android]
#17-1 - 2022-4-12 12:24
徒手开根号二
id打乱之后取收藏最早条目的时间作为注册时间就行。看过数量、打分均分都是统计量可以直接获得。
#17-2 - 2022-4-12 13:37
潮汐听雨
根号二二二二二 说: id打乱之后取收藏最早条目的时间作为注册时间就行。看过数量、打分均分都是统计量可以直接获得。
你知道我在说什么吗,你说的这些都是行为特征,但像最简单的用户性别、用户年龄段不知道,有的话就可以研究不同性别和年龄段的喜好倾向了
#18 - 2021-6-8 22:03
请问 条目id 是什么,在bangumi里搜好像搜不到
#18-1 - 2021-6-8 22:24
Oalvay
比如强风吹拂的id是248154,你看条目对应的链接
https://bgm.tv/subject/248154
#18-2 - 2021-6-8 22:26
喵奇葩
Oalvay 说: 比如强风吹拂的id是248154,你看条目对应的链接
https://bgm.tv/subject/248154
哦哦 这样 感谢
#19 - 2022-4-12 10:36
"user_id 已打乱重新标注"
原来如此,看了几个ID,发现完全不符合数据。还以为才一年过去了,大家就隐藏、变动了那么多自己的收藏。差点怀疑人生,哈哈哈。

感谢楼主,免去我爬数据之苦。MyAnimeList 的数据那么多公开的,BGM 这种代表了中国观众喜好的网站没有数据可以分析得玩玩有点说不过去。
#20 - 2022-4-12 10:37
(我长大了要发明7G)
好家伙,上了Kaggle
#21 - 2022-4-12 12:26
(nobody cares.)
数据大手们快来画图分析一下,发帖记得的时候@一下我。
-
kaggle点开才发现是一年前的帖子
#22 - 2023-1-6 19:09
挖坟,闲来无事准备分析一下数据,问一下楼主数据脱敏的时候是吧所有的原UID都换成一样的,新的UID还是完全随机的啊?