#1 - 2021-2-6 00:45
Oalvay
回想起之前在班里求数据结果四处碰壁的时候,就很感慨:等我可以收集数据了,一定要open data!

数据地址:Bangumi Rating Database

数据以csv格式保存,每条包括:
用户id,条目id,状态(想看/在看……),状态对应的日期,评分,标签,评论
其中评分“0”代表没有评分。更详细说明请参照以上地址。
注:这次收集的是动画条目的数据,共900万+条。

user_id 已打乱重新标注。
---
依然非常感谢 铃猫bangumi镜像
#2 - 2021-2-6 03:08
好活!
(题外话,虾米音乐到昨天正式关闭了,我也没搜到有人爬了虾米音乐的完整数据,凉得彻底(bgm38)
#3 - 2021-2-6 10:32
(水中月是天上月,眼前喵是心上喵)
好活。支持(bgm37)
#4 - 2021-2-6 10:52
(ユーフェミア·リ·ブリタニア/Euphemia Li Britannia ...)
已收藏~
#5 - 2021-2-6 10:54
技术宅真可怕!
#6 - 2021-2-6 11:23
(这个人还没有签名)
mark
#7 - 2021-2-6 12:07
fork
大家猜猜抛弃/收藏比最高的作品是哪一部(bgm38)
你肯定没看过
#7-1 - 2021-2-6 20:51
#7-2 - 2021-2-6 22:18
dhzy
lhb5883-污喵王♛⑩ 说: 盲猜三柱
你看过了,所以不是(bgm38)
#7-3 - 2021-2-7 00:07
lhb5883-吹冈王♛⑩
dhzy 说: 你看过了,所以不是
雷锋?
#7-4 - 2021-2-7 01:27
dhzy
lhb5883-污喵王♛⑩ 说: 雷锋?
雷锋还比不上高铁英雄
#8 - 2021-2-6 12:14
(只想活下去 正确地浪费剩下的时间 ...)
感谢
原来kaggle还能做这种事情(bgm38)
#9 - 2021-2-6 12:27
(意识形态的水很深 你把握不住)
根据你班的版权声明,这样的数据收集涉嫌对不特定多数用户的侵权。
2. 用户所发布的原创日志、吐槽、图片等内容的版权归用户本人所有。未经用户本人许可,禁止转载或使用相关的文本以及图形内容。
#9-1 - 2021-2-6 15:09
隔壁姓王求破
那那个镜像也算吗
#9-2 - 2021-2-6 15:15
Rくん
隔壁姓王求破 说: 那那个镜像也算吗
不知道,你可以去淘宝找个律师问问(bgm38)
#9-3 - 2021-2-6 16:05
妄想是不治之症
小小杠一下。
评分,标签,评论
属于
原创日志、吐槽、图片等内容
吗?
#9-4 - 2021-2-6 16:27
弥御水Scyiki
妄想是不治之症 说: 小小杠一下。属于原创日志、吐槽、图片等内容吗?
用户所发布的原创……等内容
这才是主体吧?
#9-5 - 2021-2-6 16:30
Rくん
弥御水Scyiki 说: 用户所发布的原创……等内容这才是主体吧?
咱又没有顺着网线执法的能力,拒绝辩经(bgm39)
#9-6 - 2021-2-6 16:36
弥御水Scyiki
Rくん 说: 咱又没有顺着网线执法的能力,拒绝辩经
就事论事讨论而已(bgm39)而且镜像站早就有好多了,想象一下在菠菜网站看到自己发的吐槽时的心情(bgm39)
#9-7 - 2021-2-6 20:34
Aoi
妄想是不治之症 说: 小小杠一下。属于原创日志、吐槽、图片等内容吗?
吐槽就是评论
#10 - 2021-2-6 14:40
同意楼上。自己爬不公开应该没啥,但像这样大大降低任何人大量获取bgm数据难度的做法,不太认同。
#10-1 - 2021-2-6 17:40
hikki-
+1
#10-2 - 2021-2-6 20:40
#10-3 - 2021-6-12 02:40
#11 - 2021-2-6 15:34
mark
#12 - 2021-2-6 16:27
#13 - 2021-2-6 16:39
好活!
724 views 18 downloads(bgm38)
不搞数据分析,
拿来做婆罗门番评生成器一定很有趣(
#14 - 2021-2-6 20:53
(BGMのTrinitas<=>婊冈妈<=>补冈妈<=>拜冈妈 ... ...)
应该把ID隐藏,最好能少许统计后再发布
#15 - 2021-2-6 22:45
(112030)
ID做个简单变换脱敏会好一点 至少我自己这么感觉(bgm39)
#15-1 - 2021-2-6 23:40
Oalvay
☑️
#16 - 2021-2-7 01:40
不得了 野生数据科学家
#17 - 2021-2-7 10:05
(少年听雨歌楼上,红烛昏罗帐。)
要是能关联一下用户人口特征就好了,那应该就可以写论文研究很多东西。现在只能关联用户自身行为特征,比如注册时间、看过的数量、打分的均分,可研究的比较有限。
[来自Bangumi M1 for Android]
#18 - 2021-6-8 22:03
请问 条目id 是什么,在bangumi里搜好像搜不到
#18-1 - 2021-6-8 22:24
Oalvay
比如强风吹拂的id是248154,你看条目对应的链接
https://bgm.tv/subject/248154
#18-2 - 2021-6-8 22:26
喵奇葩
Oalvay 说: 比如强风吹拂的id是248154,你看条目对应的链接
https://bgm.tv/subject/248154
哦哦 这样 感谢