#1 - 2022-10-3 23:44
宿星雨
紧急更新V1.0版本
//紧急更新v0.91版 应要求去掉comment table
在本来应该马上完成的29日发表帖子后、遇到了修复和校验上诸多不可预料的问题以及官方API的不可预知的错误和后期迸发限制,所以暂时只能先以这种形式发表远称不上完美的第一版[v0.9]
下载信息已经删除、请点开头文字去下载新版
数据说明 整个数据库公开的部分分为三张xlsx表 如果需要导入数据库请自行转化为SQL格式或者私信联系我提供SQL格式数据
//应站长要求、删除一张table
//以下错误已经大部分修复、请前往新版页面查看说明
1.subject表 : 截止发文目前共有393511条subject 本数据库提供393361条 [完整]
具体数据结构以及每列参数含义请参考官方API文档或者点此查看:https://bgm.tv/group/topic/373405 该表如有错误问题均由官方API部分返回信息错误导致
2.user表 : 截止目前共有约730000条用户 由于中间某些号段官方删除了数千条用户 实际数量少于730000条 本数据库提供723276条 [完整]
公开部分包含 6列 具体包含唯一id 、注册日期 、评分总数、平均分、标准差[总体]、标准差[样本]
其中用户id是由原id加密生成的一个不可逆的唯一字符串
注册日期由于后期修复算法网络问题导致一部分丢失 现有约63w条 由于网络错误所以用户注册日期错误率大约在1‰的水平 丢失部分将于下一版本修正 网络问题是必然误差
评分总数由web抓取而来 由于后期脚本并发限制 现在约有40w条 缺少部分将于下一个版本修复
平均分和标准差统计信息由该用户已有collection计算得出 空值为该用户没有标记是具有分数的学习
3.collection表 包含条目去除comment的收藏信息 用户id与user表经过加密的唯一id对应 其中标记时间已经模糊化精确到天
截止发文目前所有条目的总公开标记数:由subject反推估算约18.5m条
本数据库提供12.2m条 [急待修复]
实际数据少于官方数据是由于自10月3日开始官方API提高了并发限制 无法短时间补齐
计划将缺少的collection由多台小型Linux VPS套代理使用低线程慢慢补充完成
将在下一个版本修复
误差分布估计:可以认为缺失的collection为均匀分布 相当于70%的采样率 可以用于根据宏观性质得出的结论 可以先建立相关模型 后续数据修正后跟进
由于官方API增大了并发限制以及个人时间有限 下一个完整版本日期 视情况而定 不过应该会在今年内完成 不过一个月一更新的计划由于个人原因可能很难付诸实现 看情况吧。 如果有人想持续跟进该计划也可以私信贡献相关算力 家用电脑在深夜贡献1mbps宽带即可
另外,会将原有注册日期相对完整的数据的定性趋势分享在评分讨论组里 由于后期修复网络问题导致约9w用户注册日期丢失
如果有相关更详细数据的分析需求请给出具体的研究目的私信联系
如果你愿意为下一版本数据提供算力 以便尽早完成 请私信联系
本帖评论区仅讨论技术问题和相关数据的疑问
//紧急更新v0.91版 应要求去掉comment table
在本来应该马上完成的29日发表帖子后、遇到了修复和校验上诸多不可预料的问题以及官方API的不可预知的错误和后期迸发限制,所以暂时只能先以这种形式发表远称不上完美的第一版[v0.9]
下载信息已经删除、请点开头文字去下载新版
数据说明 整个数据库公开的部分分为三张xlsx表 如果需要导入数据库请自行转化为SQL格式或者私信联系我提供SQL格式数据
//应站长要求、删除一张table
//以下错误已经大部分修复、请前往新版页面查看说明
1.subject表 : 截止发文目前共有393511条subject 本数据库提供393361条 [完整]
具体数据结构以及每列参数含义请参考官方API文档或者点此查看:https://bgm.tv/group/topic/373405 该表如有错误问题均由官方API部分返回信息错误导致
2.user表 : 截止目前共有约730000条用户 由于中间某些号段官方删除了数千条用户 实际数量少于730000条 本数据库提供723276条 [完整]
公开部分包含 6列 具体包含唯一id 、注册日期 、评分总数、平均分、标准差[总体]、标准差[样本]
其中用户id是由原id加密生成的一个不可逆的唯一字符串
注册日期由于后期修复算法网络问题导致一部分丢失 现有约63w条 由于网络错误所以用户注册日期错误率大约在1‰的水平 丢失部分将于下一版本修正 网络问题是必然误差
评分总数由web抓取而来 由于后期脚本并发限制 现在约有40w条 缺少部分将于下一个版本修复
平均分和标准差统计信息由该用户已有collection计算得出 空值为该用户没有标记是具有分数的学习
3.collection表 包含条目去除comment的收藏信息 用户id与user表经过加密的唯一id对应 其中标记时间已经模糊化精确到天
截止发文目前所有条目的总公开标记数:由subject反推估算约18.5m条
本数据库提供12.2m条 [急待修复]
实际数据少于官方数据是由于自10月3日开始官方API提高了并发限制 无法短时间补齐
计划将缺少的collection由多台小型Linux VPS套代理使用低线程慢慢补充完成
将在下一个版本修复
误差分布估计:可以认为缺失的collection为均匀分布 相当于70%的采样率 可以用于根据宏观性质得出的结论 可以先建立相关模型 后续数据修正后跟进
由于官方API增大了并发限制以及个人时间有限 下一个完整版本日期 视情况而定 不过应该会在今年内完成 不过一个月一更新的计划由于个人原因可能很难付诸实现 看情况吧。 如果有人想持续跟进该计划也可以私信贡献相关算力 家用电脑在深夜贡献1mbps宽带即可
另外,会将原有注册日期相对完整的数据的定性趋势分享在评分讨论组里 由于后期修复网络问题导致约9w用户注册日期丢失
如果有相关更详细数据的分析需求请给出具体的研究目的私信联系
如果你愿意为下一版本数据提供算力 以便尽早完成 请私信联系
本帖评论区仅讨论技术问题和相关数据的疑问
如果有的话 那就是usertotal是获取出现问题的
可以把这类用户的id表发给我 下一个版本重新请求修复
那我是否可以不同意你在我的主题帖发表与正文无关的内容?
还有你发这个图片我不知道是什么意思,和我有什么关系?
如同你的逻辑。
one again
简单的社区指导原则也存在大量理解性的问题
并且针对语言攻击与辱骂的处理可以说是基本不管
如果不是主动私信举报或者是引起了很大的影响 基本没有管理员去管
关于数据分析:我数据提供给的人、和那些反对的人并不是同一类人,我也不认为那些会对基本观点有分歧人会利用这一份数据。
至于我个人分析、我也不是完全不会去做
毕竟我也不抱多大指望自己想知道的方向正好被别人也给做了。
以上。
最近看的好几个paper官方实现里面提供的数据集是度盘下载……然后我还不得不下……
我现在根本没运行任何东西
该用户违反社区指导规则 人身攻击
建议删除 :-D