2020-4-17 12:21 /
用bangumi这个网站也有段时间了,每隔一段时间就能看到因为“评分”盖起来的大楼。评分警察,评分警察警察层出不穷。最近整理了一下思路,详细探讨一下bgm及类似网站的一些“评分”。
首先这里引入一个概念“绝对客观评分”,顾名思义,指的就是抛开一切主观因素(如情怀加成,年代加成,主观上的喜好加减,这里指真正“绝对”客观的素质分数)。
我们知道,在统计学中,data数量越少,越容易受到极端数值的影响,而data数量越多,就越容易接近真实水平。对于data数量少的条目,其评分的参考性往往会被认为较低。尤其反应在bangumi的黄油条目里,一些冷门的只有个位数或者数十个data的黄油评分可能会较高。原因一是data数少受极值影响,二来嘛,既然都是冷门作了,那本来知名度就不行,来玩这类作品的不是厨子,至少也是对这类作品有一个事先的了解在里面,容易打出较高/较低(达不到预期)的分数,“客观”的评分部分要大打折扣。反过来,按理来说,一个条目的评分人数越多,其真实水平就应该越接近“绝对客观评分”。然而事实是这样的吗?我想未必。因为在这类评分网站上往往还有另一个群体——厨团。
举个例子,枕社的《美好的每一天》(素晴日),这部作品本体在bgm的评分是8.9分,排名游戏类第7,data数为2582(截止2020.4.17),然而这部作品在18年发行的HD版本,评分却为9.3分,游戏区排名第二,data数为386(目前已被锁定)。可是这部游戏的HD版本只升级了画质,追加了大概1-2个小时的游戏内容和补充了部分语音,这些差距能造成0.4分的差距吗?我想不应该。那这个差距是怎么造成的?厨团。对于厨团来说,喜欢的游戏自然要打10分,这个没什么问题。但是问题出在,对于这类游戏,并没有足够多的路人来冲淡“厨团”的极端数值。或者说,去专门给HD打分的,厨团比例肯定会偏高。例如动画类作品,给第二季打分的大概率是看过第一季的,不看第一季却去看第二季的人只能说相当少。那么第二季的评分准确度是否就有待商榷呢?厨团带来的影响是极端数值的偏差。一个作品的评分分布应该是接近于某个分布曲线(如正态分布,偏态分布),其平均分数在data数量足够多的情况下应该接近于先前提到的“绝对客观分数”。但是在厨团群体加入后,这个分布曲线必然会受到高分影响。能平衡厨团的只有另一个群体——黑粉,那些给作品刷低分的人。但是在bgm,无脑给作品打10分的人没有问题,但是无脑刷1分的却会被所有人唾弃。这样一来,一部作品的分数高低是否就取决于作品厨团数量的多少呢?举个例子,bangdream第二季开播的时候曾经一度冲到8分,现在逐渐回落(动画下面现在依然有相关讨论帖)。但是另一个问题是,如果纵容刷1分的人,那就会造成厨团大战,变成厨黑两边互相比人数,那样甚至会失去了评分本身的意义。
不过话说回来,“评分”到底有什么意义呢,是给作品排一个高低?还是给路人一个作品水平的大致参考?还是在欣赏完作品以后留一个自己的印记?我想每个人都有自己的看法吧。至于这个评分社区到底该怎么发展,我想也应该是由社区里所有用户的想法所决定的。
首先这里引入一个概念“绝对客观评分”,顾名思义,指的就是抛开一切主观因素(如情怀加成,年代加成,主观上的喜好加减,这里指真正“绝对”客观的素质分数)。
我们知道,在统计学中,data数量越少,越容易受到极端数值的影响,而data数量越多,就越容易接近真实水平。对于data数量少的条目,其评分的参考性往往会被认为较低。尤其反应在bangumi的黄油条目里,一些冷门的只有个位数或者数十个data的黄油评分可能会较高。原因一是data数少受极值影响,二来嘛,既然都是冷门作了,那本来知名度就不行,来玩这类作品的不是厨子,至少也是对这类作品有一个事先的了解在里面,容易打出较高/较低(达不到预期)的分数,“客观”的评分部分要大打折扣。反过来,按理来说,一个条目的评分人数越多,其真实水平就应该越接近“绝对客观评分”。然而事实是这样的吗?我想未必。因为在这类评分网站上往往还有另一个群体——厨团。
举个例子,枕社的《美好的每一天》(素晴日),这部作品本体在bgm的评分是8.9分,排名游戏类第7,data数为2582(截止2020.4.17),然而这部作品在18年发行的HD版本,评分却为9.3分,游戏区排名第二,data数为386(目前已被锁定)。可是这部游戏的HD版本只升级了画质,追加了大概1-2个小时的游戏内容和补充了部分语音,这些差距能造成0.4分的差距吗?我想不应该。那这个差距是怎么造成的?厨团。对于厨团来说,喜欢的游戏自然要打10分,这个没什么问题。但是问题出在,对于这类游戏,并没有足够多的路人来冲淡“厨团”的极端数值。或者说,去专门给HD打分的,厨团比例肯定会偏高。例如动画类作品,给第二季打分的大概率是看过第一季的,不看第一季却去看第二季的人只能说相当少。那么第二季的评分准确度是否就有待商榷呢?厨团带来的影响是极端数值的偏差。一个作品的评分分布应该是接近于某个分布曲线(如正态分布,偏态分布),其平均分数在data数量足够多的情况下应该接近于先前提到的“绝对客观分数”。但是在厨团群体加入后,这个分布曲线必然会受到高分影响。能平衡厨团的只有另一个群体——黑粉,那些给作品刷低分的人。但是在bgm,无脑给作品打10分的人没有问题,但是无脑刷1分的却会被所有人唾弃。这样一来,一部作品的分数高低是否就取决于作品厨团数量的多少呢?举个例子,bangdream第二季开播的时候曾经一度冲到8分,现在逐渐回落(动画下面现在依然有相关讨论帖)。但是另一个问题是,如果纵容刷1分的人,那就会造成厨团大战,变成厨黑两边互相比人数,那样甚至会失去了评分本身的意义。
不过话说回来,“评分”到底有什么意义呢,是给作品排一个高低?还是给路人一个作品水平的大致参考?还是在欣赏完作品以后留一个自己的印记?我想每个人都有自己的看法吧。至于这个评分社区到底该怎么发展,我想也应该是由社区里所有用户的想法所决定的。
一个用户偶一为之的参与那影响力更可以被评分数cover住了,rank榜也都有个最小评分量。