#1 - 2022-10-3 23:44
宿星雨
紧急更新V1.0版本

//紧急更新v0.91版 应要求去掉comment table

在本来应该马上完成的29日发表帖子后、遇到了修复和校验上诸多不可预料的问题以及官方API的不可预知的错误和后期迸发限制,所以暂时只能先以这种形式发表远称不上完美的第一版[v0.9]

下载信息已经删除、请点开头文字去下载新版

数据说明  整个数据库公开的部分分为三张xlsx表 如果需要导入数据库请自行转化为SQL格式或者私信联系我提供SQL格式数据
//应站长要求、删除一张table

//以下错误已经大部分修复、请前往新版页面查看说明

1.subject表  : 截止发文目前共有393511条subject  本数据库提供393361条 [完整]  
具体数据结构以及每列参数含义请参考官方API文档或者点此查看:https://bgm.tv/group/topic/373405   该表如有错误问题均由官方API部分返回信息错误导致  

2.user表  : 截止目前共有约730000条用户  由于中间某些号段官方删除了数千条用户 实际数量少于730000条  本数据库提供723276条 [完整]
公开部分包含 6列  具体包含唯一id 、注册日期 、评分总数、平均分、标准差[总体]、标准差[样本]
其中用户id是由原id加密生成的一个不可逆的唯一字符串  
注册日期由于后期修复算法网络问题导致一部分丢失 现有约63w条  由于网络错误所以用户注册日期错误率大约在1‰的水平  丢失部分将于下一版本修正 网络问题是必然误差
评分总数由web抓取而来  由于后期脚本并发限制 现在约有40w条  缺少部分将于下一个版本修复
平均分和标准差统计信息由该用户已有collection计算得出  空值为该用户没有标记是具有分数的学习

3.collection表  包含条目去除comment的收藏信息  用户id与user表经过加密的唯一id对应 其中标记时间已经模糊化精确到天
截止发文目前所有条目的总公开标记数:由subject反推估算约18.5m条
本数据库提供12.2m条  [急待修复]   
实际数据少于官方数据是由于自10月3日开始官方API提高了并发限制  无法短时间补齐
计划将缺少的collection由多台小型Linux VPS套代理使用低线程慢慢补充完成
将在下一个版本修复

误差分布估计:可以认为缺失的collection为均匀分布 相当于70%的采样率    可以用于根据宏观性质得出的结论 可以先建立相关模型  后续数据修正后跟进


由于官方API增大了并发限制以及个人时间有限  下一个完整版本日期 视情况而定  不过应该会在今年内完成   不过一个月一更新的计划由于个人原因可能很难付诸实现  看情况吧。 如果有人想持续跟进该计划也可以私信贡献相关算力  家用电脑在深夜贡献1mbps宽带即可


另外,会将原有注册日期相对完整的数据的定性趋势分享在评分讨论组里  由于后期修复网络问题导致约9w用户注册日期丢失


如果有相关更详细数据的分析需求请给出具体的研究目的私信联系
如果你愿意为下一版本数据提供算力 以便尽早完成  请私信联系


本帖评论区仅讨论技术问题和相关数据的疑问
#2 - 2022-10-4 06:56
(AE@Recording)
没想到会有后续。
本层不讨论技术问题和相关数据的疑问,不理楼主,只是前排路过卖纸巾湿巾塑料袋。
Sai #15 - 2022-9-29 23:20
根据版权声明,用户评论的转载需要用户本人允许,这部分内容是不适宜全部直接公开的。

Trim21 #48 - 2022-10-3 11:24
今天又看到一堆502还以为是我自己的应用写了个死循环 bug,结果一看 IP 又是你的爬虫。
本页快照
本页摘录:
3.comment表  用户的评论具体内容与条目的对应的关系  还包含相应分数  以及评分时间[仅精确到天]   本表不包含于唯一id的对应  用于NPL或者机器学习

实际数据少于官方数据是由于自10月3日开始官方API提高了并发限制  无法短时间补齐
计划将缺少的collection由多台小型Linux VPS套代理使用低线程慢慢补充完成

如果有人想持续跟进该计划也可以私信贡献相关算力  家用电脑在深夜贡献1mbps宽带即可
另外,“NPL”……
#2-1 - 2022-10-4 08:58
宿星雨
nlp
#3 - 2022-10-4 08:49
请问表中怎么存在0总collection数量 但还有平均分的数据
#3-1 - 2022-10-4 08:56
宿星雨
具体哪些id发一下 我查一下原始数据
#3-2 - 2022-10-4 08:57
宿星雨
总collection是网页请求的 如果出现网络问题可能返回为空或者0
#3-3 - 2022-10-4 09:07
老悠
宿星雨 说: 具体哪些id发一下我查一下原始数据
user表头几条就有不少为空为0的 具体的我数据还没导完
#3-4 - 2022-10-4 09:23
宿星雨
老悠 说: user表头几条就有不少为空为0的 具体的我数据还没导完
你可以查一下有没有具体对应的collection
如果有的话 那就是usertotal是获取出现问题的
可以把这类用户的id表发给我 下一个版本重新请求修复
#3-5 - 2022-10-4 09:30
老悠
宿星雨 说: 你可以查一下有没有具体对应的collection
如果有的话 那就是usertotal是获取出现问题的
可以把这类用户的id表发给我 下一个版本重新请求修复
私聊吧 方便加一下QQ吗?
#3-6 - 2022-10-4 10:06
宿星雨
老悠 说: 私聊吧 方便加一下QQ吗?
私信
#4 - 2022-10-4 10:45
(天の光は全て星だ)
Sai🖖  回复+1 (Awesome!)
根据版权声明,用户评论的转载需要用户本人允许,这部分内容是不适宜全部直接公开的。

评分出于研究用途没有特别限制,但应当对用户个人信息(UID、用户名、签名等)进行脱敏处理。
@Sai🖖
#5 - 2022-10-4 10:48
(DD雷达搜寻中...?)
还真不死心啊(bgm38)
#6 - 2022-10-4 12:57
先不说每一条记录对应的虚拟用户还是和实际用户一一对应,最后还是把具体的评论也爬了公开肯定是不符合 copyright 的.......

不用回复我,看 Sai 老板的意见
#7 - 2022-10-4 13:39
(Awesome!)
请立即停止公开用户评论内容。
#7-1 - 2022-10-4 14:13
宿星雨
好、待我操作下。
#8 - 2022-10-4 13:46
(Awesome!)
看不懂中文的话再贴一遍:

用户所发布的原创日志、吐槽、图片等内容的版权归用户本人所有。未经用户本人许可禁止转载或使用相关的文本以及图形内容。

另外提供 API 不是用来做全站数据导出的,相关使用协议规范近期会完善。
#9 - 2022-10-4 14:05
(42)
说了这么多根听不明白似的(bgm103)
#10 - 2022-10-4 14:06
(Time to mix drinks and change lives.)
我拒绝参与到你的数据共享行为当中。因此,我不接受,也不允许你的这些行为:一、在所谓数据脱敏前对我的账户公开信息进行采集,二、将违背本人意愿收集存储的账户公开信息进行你声称的脱敏处理,三、将诸类“脱敏”数据公开并持续更新。请将我的信息永久删除。

目中无人的家伙,离我的账户远一些。
#11 - 2022-10-4 14:56
(记忆的形成是作为)
用户所发布的原创日志、吐槽、图片等内容的版权归用户本人所有。未经用户本人许可,禁止转载或使用相关的文本以及图形内容。
我 bgm个人主页 https://bgm.tv/user/shinkunikaidon 拒绝参与你的数据共享行为当中
我不接受 不同意 你的这些行为:
一、以爬虫方式(即对bgm官方api的不合理运用行为)对我的账户公开信息进行采集
二、将违背本人意愿收集存储的账户公开信息进行你所谓的脱敏处理

请删除未经我同意的已经被收集到的所有信息
#11-1 - 2022-10-4 15:09
#11-2 - 2022-10-4 15:13
宿星雨
你不同意我的一个行为。
那我是否可以不同意你在我的主题帖发表与正文无关的内容?
还有你发这个图片我不知道是什么意思,和我有什么关系?
#11-3 - 2022-10-4 15:14
秋黴雨
宿星雨 说: 你不同意我的一个行为。
那我是否可以不同意你在我的主题帖发表与正文无关的内容?
还有你发这个图片我不知道是什么意思,和我有什么关系?
看不懂中文的话再贴一遍:

用户所发布的原创日志、吐槽、图片等内容的版权归用户本人所有。未经用户本人许可,禁止转载或使用相关的文本以及图形内容。
#11-4 - 2022-10-4 15:16
宿星雨
秋黴雨 说: 看不懂中文的话再贴一遍:

用户所发布的原创日志、吐槽、图片等内容的版权归用户本人所有。未经用户本人许可,禁止转载或使用相关的文本以及图形内容。
你发表的评论中引用了我的评论,未经过我允许,我要求你删除。
如同你的逻辑。
#11-5 - 2022-10-4 15:53
秋黴雨

one again
#12 - 2022-10-4 15:15
(我长大了要发明7G)
一些疑问
用户所发布的原创日志、吐槽、图片等内容的版权归用户本人所有。未经用户本人许可,禁止转载或使用相关的文本以及图形内容。
1. 小组帖子及回复是否有版权归属?存在这样的小组快照数据。
2. 像这样提供的全站镜像是否属于转载?
#12-1 - 2022-10-4 16:41
宿星雨
bangumi官方并没有正式的用户条款
简单的社区指导原则也存在大量理解性的问题
并且针对语言攻击与辱骂的处理可以说是基本不管
如果不是主动私信举报或者是引起了很大的影响 基本没有管理员去管
#12-2 - 2022-10-4 17:54
Jerry@Bangumi
虽然有点打扰,但还是想 @Sai🖖 一下,确实好奇。
#13 - 2022-10-4 15:17
两个帖子看下来,感觉还是这个事情自己觉得花费时间精力吭哧吭哧搞到数据,能给别人提供方便,但实际别人并不需要,反而感觉权益被侵犯。

一般来说写爬爬是有目的的,但明确说自己不会数据分析,招募会分析的人,就像「我有个绝妙的 idea,就差个程序员了」的翻版,没有产生多大的价值,差不多是小组课题你做了个精美的 PPT 模板但没有内容的程度。

我个人对你的行为没有好感,主要是因为居然用 xlsx 存数据并且居然通过度盘公开,次要是前几天我遇到访问 BGM 报数据库错误了。
#13-1 - 2022-10-4 15:38
宿星雨
关于格式和下载方式:之前提供了其他方式、私下可以提供SQL格式。
关于数据分析:我数据提供给的人、和那些反对的人并不是同一类人,我也不认为那些会对基本观点有分歧人会利用这一份数据。
至于我个人分析、我也不是完全不会去做  
毕竟我也不抱多大指望自己想知道的方向正好被别人也给做了。

以上。
#13-2 - 2022-10-4 16:20
Jerry@Bangumi
度盘这个怎么说呢。
最近看的好几个paper官方实现里面提供的数据集是度盘下载……然后我还不得不下……
#14 - 2022-10-4 16:23
能不能用onedrive or其他正常网盘
#14-1 - 2022-10-4 16:32
宿星雨
可以 我待会传一下
#14-2 - 2022-10-4 16:32
宿星雨
本来提供了服务器下载的 后来删了
#14-3 - 2022-10-4 17:09
宿星雨
已添加
#15 - 2022-10-4 18:21
(‮ ‮))))))))))))))))))))))))))))))))‮)
lzsb就是啦
#15-1 - 2022-10-4 18:24
宿星雨
query error也能怪我
我现在根本没运行任何东西

该用户违反社区指导规则  人身攻击
建议删除  :-D