评分与排名讨论会 » 讨论
不同网站评分之间的对应方法

#1 - 2018-10-1 16:21

君寻 (已淡出bgm38)

我觉得比较公平的方法是百分比排名法，即如果A网站评分为P(A)的排名为前X%，那么P(A)对应于B网站的评分P(B)应该满足在B网站的排名也为前X%

如果把一个网站的整体评分作品按评分从高到低排序，再把分数用散点图表示出来，就可以拟合得到一条评分分布曲线。这样只要把横轴范围归一化，就可以通过评分曲线进行评分对应了。

以bilibili和bangumi为例进行了尝试，选取了bilibili有评分的所有动画和bangumi有排名的所有动画：

以5-10分为区间细化

em,这么看来的话，如果以bgm7分为好坏分界线，那么B站评分低于9.6分的就算糟糕了；如果以前50%为分界线，那么B站评分低于9.5分的也算糟糕了。
知道了这个结果之后，比如我们看见B站某部番评分为9.2，那么我们不会觉得分好高，而应该觉得分很低了，差不多相当于班固米6.4分而已。

这个方法原理上虽然没有问题，但评分整体的选择会对结果产生较大的影响。理论上，随机选取充分数量的样本，可以得到和整体相同的分布。但对于不同评分网站而言，评分整体本身就有相当的差异。比如bangumi有相当数量的里番条目，而bilibili则没有。上面的样本选取也并不是理想的随机样本，是否能代表整体评分也有待商榷，所以结果未必准确。

#2 - 2018-10-1 17:29

狂犬榨汁姬艾莉丝 (いつでも微笑みを)

对咯，就这样

#3 - 2018-10-1 17:43

lhb5883-吹冈王♛⑩ (BGMのTrinitas<=>婊冈妈<=>补冈妈<=>拜冈妈三位一体 ...)

所以说打分是浮云

#4 - 2018-10-1 17:54

Cedar (｡´-д-)

也许不同网站之间的评分有对应方法本身就是个错觉..用户重合度什么的..
想对应评分或许应该先把单个用户对应上..

#4-1 - 2019-2-12 13:26

LunarShaddow🌙

我们可以认为……用户的鉴赏能力分布还是大致都为正态的

#5 - 2018-10-1 18:04

windrises (一个纠结的面瘫伪宅)

是不是还得考虑打分人数

#6 - 2018-10-1 19:28

padorax (戯言なんだよ)

我觉得很准确，也符合我的经验：b站9.6分以下绝大多数质量都很糟糕，尤其是评分系统出来后的几季新番

#7 - 2018-10-1 23:14

CDF不反映直接对应关系

上次 https://bgm.tv/group/topic/344005

那个图画成密度的等高线就能够说明问题了

https://stackoverflow.com/questi ... -scattered-data-set

#7-1 - 2018-10-3 09:31

dhzy

啥意思，不明白...

#7-2 - 2018-10-3 10:21

君寻

这个其实算是CDF的反函数，你举的那个例子和评分是不一样的
这里只是寻找分数对应关系，并不是建立映射关系

#7-3 - 2018-10-3 13:26

君寻说: 这个其实算是CDF的反函数，你举的那个例子和评分是不一样的
这里只是寻找分数对应关系，并不是建立映射关系

反不反把脑袋扭过来看都一样。从CDF上看出例如9分对应了8分这个是不正确的，实际是一个二维的概率密度，从二维的分布可以得出条件分布，这样是直接的。二维CDF也能用，但是相同“排名”还是一个等高线，把等高线简化成一个点就不对了。

#7-4 - 2018-10-3 13:35

君寻

tmpfs 说: 反不反把脑袋扭过来看都一样。从CDF上看出例如9分对应了8分这个是不正确的，实际是一个二维的概率密度，从二维的分布可以得出条件分布，这样是直接的。二维CDF也能用，但是相同“排名”还是一个等高线，把等...

还是不太理解你这里说的二维分布是什么样子，XY分别是什么？

#7-5 - 2018-10-3 14:12

君寻说: 还是不太理解你这里说的二维分布是什么样子，XY分别是什么？

https://bgm.tv/group/topic/344005 里面有一些散点图。一样的XY但是用核密度估计算一下密度。那个散点图多个点互相遮住看不出密度。有密度之后画一下等高线就容易看了。

我之前拿你的表格画了一下但跟散点图对不上不知道什么问题。

#7-6 - 2018-10-3 14:39

君寻

tmpfs 说: https://bgm.tv/group/topic/344005 里面有一些散点图。一样的XY但是用核密度估计算一下密度。那个散点图多个点互相遮住看不出密度。有密度之后画一下等高线就容易看了。

那个散点图用的是同一作品在两站的分数作出来的，考察的是两站评分的相关性。
而这里我是不考虑同作品分数的，因为对比两个网站的评分分布不需要考虑具体的作品，只需要从整体上去对应就好了
当然相关性还是要有，但其实只需要两站的“优劣评价标准”是一致的就行了，就是分数越高越优秀，在这一前提下，就可以进行对应。

#8 - 2018-10-3 09:50

Dusk_Raven (では、あなたは何故、ココにいるの？ ... ...)

个人经验都是把B站分数的个位数丢掉看小数位当10分制

#8-1 - 2018-10-3 10:06

Rくん

#8-2 - 2020-4-14 14:51

灵药—Bangumi纯爱战士

个人经验都是把B站分数的个位数丢掉看小数位当10分制 (bgm38)

完全一致

#8-3 - 2020-4-14 20:46

Dusk_Raven

反神户小德班固米联盟00号说: 个人经验都是把B站分数的个位数丢掉看小数位当10分制完全一致

你这id 原来是啥来着 (bgm38)

在改成小德相关之前

#8-4 - 2020-4-14 21:33

灵药—Bangumi纯爱战士

Dusk_Raven 说: 你这id 原来是啥来着在改成小德相关之前

灵药

吧我都忘了我实在是想不出好id 所以只有黑小德了

#9 - 2018-10-3 12:03

循环 (矛盾)

很硬核，马一下

#10 - 2018-10-3 14:01

五点共圆 (译者兼诗人)

这样的话，妄想代理人算是后百分之五十。兽爪甚至倒数。
我的意见是b站评分当。。。。。好吧不如根本就不看。

#11 - 2018-10-3 22:42

非常交易 (为什么有超神作这一评价……)

B站评分系统感觉以当季热度为参考线，一季一茬
其他的旧番又是另一种评分，
所以综合一下感觉没什么卵用（个人认为） (bgm117)

#12 - 2018-10-4 21:35

春日花抄

是的，新番不到9.5基本上我是不会看的的b38

#13 - 2018-10-23 14:00

c933103 (請注意UID)

咦，按這圖來說的話，那我在bgm平均給分5.8不就是把50%的作品拉到最底那10%那裡嗎，我還覺得給高了

#14 - 2018-10-23 21:38

751984871 (ACG猫舌，喜欢补已经凉了的企划，不喜欢趁热。)

B站的分要么别看，要么必须至少分成两批。
“功能全面开放时就能打分”的第一批，分数明显低于“功能全面开放一段时间后才可评分”的一批。（不只是各季新番和《jo4》等新买的旧番，还包括《明日之丈》这种新有专题页面的非正版老番）
第一批打分的人里还有一部分打算理智打分的人，后来发现没用就再也不评了。

《兽爪》这种又老又小众又硬核的，理智评分者占比例越大，结果就越吃亏。

#15 - 2018-10-24 10:28

th3ta "Paradox" (Rigidity and Uncertainty~☆)

说到CDF，这b站和bgm的形状让我想起了 logistic 和 normal 的CDF放在一起的样子...
或许暗示(明示)着两个网站的评分来自不同的的 data generating process

#16 - 2018-12-22 00:37

伪 (他人即地狱)

在本身就没什么意义的b站评分中寻找意义真的有意义吗 (bgm38)

#17 - 2018-12-28 11:35

narcissus

我认为b站的评分没有任何意义。这根本就不牵扯到什么打分人群打分习惯这种问题。说b站评分能代表b站口味的，能代表个鬼，和nga打分一样全是粉丝/黑子的狂欢。钱球2照样9.7分。少歌照样9.8。要真的能代表b站口味那可是有价值了，所有评分网站都偏婆罗门，如果b站能确实弄个评分反应15岁左右看动画数量少于10部的人群的真实喜好，那可是真有大价值的。

问题是现在的b站评分和nga评分类似，大概是这样一个状态：大部分路人无视这个东西，如果一个片有粉丝，那么粉丝刷5分表示喜欢；如果有黑子，那么黑子刷1分表达不满。所有的评分完全是不同的人群打的，根本没啥共性可言，所以非常的反直觉，完全不符合正态分布。

#17-1 - 2018-12-28 12:07

君寻

本来不想再回复这个帖，因为大部分人都搞错了讨论的方向。本帖讨论的是不同网站评分之间的对应方法，只要一个网站的评分总体呈现出相关性，不是随机评分，那么评分就不是无意义的。B站评分只是作为一个例子，选择B站不是因为它的评分分布有多好，而是当时恰好对它感兴趣，而且也获得了相应的数据而已。

本帖讨论的对应方法不涉及具体作品的评分如何，也和评分人群无关，只关注网站的总体评分分布。所以讨论B站评分是没有意义的。

#17-2 - 2018-12-28 12:51

narcissus

君寻说: 本来不想再回复这个帖，因为大部分人都搞错了讨论的方向。本帖讨论的是不同网站评分之间的对应方法，只要一个网站的评分总体呈现出相关性，不是随机评分，那么评分就不是无意义的。B站评分只是作为一个例子，选择B...

你说的有道理。是我的理解问题。

#17-3 - 2019-2-12 16:07

小鱿鱼

nga基本如此，大部分论坛型的也都类似。b站因为有巨大的人群基数，热门有几十万的评分，其实还可以勉强一看，最大的问题是五星制下区分度非常小，至于你举的钱2少歌的例子，所有网站都存在啊，热门过于招黑，偏冷的普普通通的片子得个7分就容易的多

#18 - 2020-2-8 22:34

Ittsuu (あまい)

B站这个9.7分的横条长度笑死我

#19 - 2020-2-22 11:48

Ittsuu (あまい)

昨天看到B站风评榜顶部变天，今天试着爬了一下。
（筛除了仅限港澳台/台湾地区的番剧）

现在我想说一句：这个9.8分的横条长度笑死我。

#20 - 2020-2-25 07:43

柯学家退散

用户主体都不一样好么 (bgm38)

#21 - 2020-2-25 08:15

己注销

b站评分？！？

#21-1 - 2020-2-25 09:50

zzhh0131

笑死我了，你这种刷分怪就别去嘲讽其他评分了吧，高中生乖乖读书吧

#21-2 - 2020-4-14 14:26

小T

zzhh0131 说: 笑死我了，你这种刷分怪就别去嘲讽其他评分了吧，高中生乖乖读书吧

特别点进去看了一下，分布蛮正常的，评分逻辑也挺完整啊？

#21-3 - 2020-4-14 14:42

夏树

小T 说: 特别点进去看了一下，分布蛮正常的，评分逻辑也挺完整啊？

有种东西叫做小号

#21-4 - 2020-4-14 14:43

小T

夏树说: 有种东西叫做小号

哦，好吧，回的时候也想过这种可能性了

#21-5 - 2020-5-3 13:32

红炉点雪

小T 说: 特别点进去看了一下，分布蛮正常的，评分逻辑也挺完整啊？

你去康康他的游戏评分

#21-6 - 2020-5-3 13:49

小T

红炉点雪说: 你去康康他的游戏评分

你一说倒是才想起来好像最近茶话会有一帖蛮火的，顺藤摸瓜是有些几个月前的料。不过单说他个人主页的游戏评分，看不出什么挺正常吧，没高强度冲游戏条目的浪......虽然希望有事说事，不过没多加调查就回覆自己的观察的我也有不对吧 (bgm38)

#22 - 2020-4-14 14:53

灵药—Bangumi纯爱战士 (水星不看人生遗憾https://bangumi.tv/anime/chart ..)

算是有人帮我分析这样的联系了我觉得一定程度上有很大的参考价值

#22-1 - 2020-4-14 15:43

Misuzu

#23 - 2020-4-14 16:16

死宅A

感觉分数段没被充分利用啊，像是考试成绩一样，六七十的一堆，85以上的优秀率和60以下的不及格率都低。
自己打分的时候也是虽然有十分可以打，但大部分都在6，7，8三分制 (bgm38)

#23-1 - 2020-4-16 14:04

[已封禁]

虽然区分度不高，至少比MAL之流好多了。
毕竟，有一件事是必须承认的，大部分动画都是 gag。

#23-2 - 2020-4-16 14:34

小T

对你自己有用的话，你大可以试图活用自己的分数段，这点权利是个用户是有的，被出警的概率也不高。按照netaba.re的观测结果，bgm中的评分者既有只有1/10二分制的用户（喜欢就10，不喜欢就1），也有追寻着正态分布的用户，还有追寻着各分数段平均分布的用户——更多的是针对自己认为作品所表达出的水平去进行评分的，而其标准是各异的，例如只要你对你常用的678做细分再打进现有的10分区间去进行分布什么的。

#23-3 - 2020-4-16 17:15

死宅A

小T 说: 对你自己有用的话，你大可以试图活用自己的分数段，这点权利是个用户是有的，被出警的概率也不高。按照netaba.re的观测结果，bgm中的评分者既有只有1/10二分制的用户（喜欢就10，不喜欢就1），也...

倒不是怕出警，好比测量东西首先调零和标定，参考现有评分什么分数大致对应什么质量我觉得还是有必要的，楼主给的图表也显示评分在6，7，8居多。
我倒是觉得可以在评分引导上把中立分调低一点，比方说4分是“还行”。不过现在已经有很多现有数据，改标准不太现实就是了 (bgm38)

。

#23-4 - 2020-4-16 18:07

小T

死宅A 说: 倒不是怕出警，好比测量东西首先调零和标定，参考现有评分什么分数大致对应什么质量我觉得还是有必要的，楼主给的图表也显示评分在6，7，8居多。
我倒是觉得可以在评分引导上把中立分调低一点，比方说4分是“还...

我懂了，你是希望所有人活用，那很难了，那你这个讨论也太典型、太老套了 (bgm38)

#24 - 2020-4-16 16:17

Koto (一般通过杂鱼)

我觉得bilibili的评分对于一般动画，可以把个位数去掉算 (bgm38)

#25 - 2020-5-3 13:31

红炉点雪 (此账号已停用)

知乎有过一篇分析我觉得很有道理，能去专门的评分网站打分的用户本来就属于核心用户，他们（大部分）的打分会带有一定的总体性和客观性，而B站的打分，归根结底是用户期待
9.7-9.9：完全满足大多数人对该番的期待
至于不满足的那些，是因为质量还是宣传还是场外因素还是某一个喂x点，就不得而知了 (bgm39)

#25-1 - 2021-3-16 19:12

真由氏

我也认同这一点，所有专注于动画评分的评分网站基本都是核心动画观众专门过去打的，b站豆瓣imdb都不在此列，所以b站feadk的综合评分视频参考性就比壁吧经常做的那些强

#25-2 - 2021-3-19 11:10

narcissus

真由氏说: 我也认同这一点，所有专注于动画评分的评分网站基本都是核心动画观众专门过去打的，b站豆瓣imdb都不在此列，所以b站feadk的综合评分视频参考性就比壁吧经常做的那些强

从满足度这方面考虑，确实是一个有效的逻辑。但是我一直觉得b站评分最大的问题是只有满足度，不能体现b站真正观影人群的看法。因为大部分人愣是不打分，除了不能满足的黑子和希望刷分的厨子，根本观察不到大多数人到底怎么看待。只能从弃番率迂回一下。

#25-3 - 2021-3-19 15:56

真由氏

narcissus 说: 从满足度这方面考虑，确实是一个有效的逻辑。但是我一直觉得b站评分最大的问题是只有满足度，不能体现b站真正观影人群的看法。因为大部分人愣是不打分，除了不能满足的黑子和希望刷分的厨子，根本观察不到大多数人...

是的，你说的对于b站也是比较有效的策略，整体上我还是倾向于使用专注于动画评分的评分网站做参考，其他网站的问题就是你说的多数人根本不会打分，完全无法参考。

#26 - 2020-5-5 20:52

ChthoniC (都是乐队，应该没有什么不同)

b站的老番和新番完全是两样评分逻辑

#27 - 2020-10-24 02:02

夏日勘探者 (家に帰るまでが遠足です)

B站的分布和精细度意味着用户只要不是打满分就是觉得这部属于后10%。

#28 - 2021-1-20 00:12

Jerry@Bangumi (我长大了要发明7G)

感觉应该对比同一部作品的得分来做校正。

#29 - 2021-3-19 11:26

Donuts

bangumi 评分有文字描述，意义不一样。文字描述有非常强的引导作用（没用过b站评分

/ 返回评分与排名讨论会小组

评分与排名讨论会 » 讨论不同网站评分之间的对应方法

评分与排名讨论会 » 讨论
不同网站评分之间的对应方法