2021-2-9 20:55 /
时下我看到了两种对待评价作品的态度:
一种是在b站发现的,当时看十月番总之就是非常可爱时,很多人在为少部分人的一星差评耿耿于怀。有一个人在长评区提出了这样一种看法——
“我们不能要求给番剧打分的每个人都是评论家,不能要求他们理性冷静客观地打分。给番剧打分打多少自己开心不就好了,又不是正儿八经的做番剧评测。”
我认为说的多少是有道理的。我们不能要求每个人都严谨客观地打分,如果一部番剧好,我们就不允许别人打低分(即使有时打低分的理由是荒谬的,甚至是毫无理由的),我觉得未免有失讨论的自由。
因为说到底,一部番好还是不好,众口难调,总有人不喜欢,即使一部番客观来讲是佳作,难道我们就要要求所有看这个番的人都只能说这部番好吗?我觉得不见得,毕竟一部番好还是不好,正是在各种各样的声音中拼凑出来的。
正是从各种各样的声音中我们取一个平均数,才知道这部番到底好还是不好,而不是先由一些权威说这部番好还是不好,然后指定评论的人只能说它好还是不好,这样是本末倒置了。

不过,我觉得也许正是因为b站打分太不严谨,过于随用户心情,所以才导致b站的评分没有什么参考价值。

所以话就要说回第二种评价作品的心态了。
我看了下bangumi,有的人认为评价作品是一种权利,给高分或者是给低分都可以,但是应该是认真的评价,而且尽可能地理性和客观。如果随随便便随自己喜欢看心情随便给个分数,是对打分这种权力的滥用。是对那些认真评价的人的不尊重。

我觉得这种心态也蛮有道理的。辛辛苦苦地整理了一份详实客观的评论出来,想要帮助更多人了解这部番剧,再决定要不要去看;反复斟酌要打多少分,综合多方面因素和考量最后才下手打分——这都是对番剧的尊重,对打分和评价权力的尊重——但是如果我们这么做了,却有一批人因为“这部番让我看的很不爽”之类并不理性客观的原因打很低的分数,或者因为“我喜欢的xxx声优来配音了”之类的理由打了很高的分数,这都会削弱我们努力的成果,甚至让它们付诸东流。

(bgm17)要不然在b站成立两个评价体系好了,一个是现有的“看心情评价”,一个是只有被大众认可的高质量漫评人才能评价的小评价体系。在小体系中的评价者评价是公认的客观,而且考虑到自己的影响力,发言也会更加慎重。

有什么想法欢迎在评论区讨论
Tags: 动画
#1 - 2021-2-9 21:21
(我有勇气挑战一切困难,但是之后你要给我对应的报酬)
关于b站打分严谨的问题,我个人认为其关键在于并没有公认的标准,bgm评分具有参考意义的极大一原因就是存在标准,大家以对动画的观点以统一的标准评价,例如我认为这部动画值得推荐就是7分,力荐就是8分,甚至你会思考这部动画的推荐达到什么程度,有说明这个分数的状态,而大多数网站实际上并没有这种状态的描述导致了评分标准随人随时间随心情变动,那必然会导致参考一样的下降。
我个人是“贵族民主派”我不太清楚有什么词来表达我的派系所以自己暂且发明了一个,我认为只有拥有一定的动画阅历,对某种类型的动画具有一定的理解的人才有资格打分,我建议将评分区分为,“受邀观众打分”和“普通观众打分”两个分区,以两个群体的分数差异进行统计分析,说不定可以发现一些“流言”对于评分冲击的结果
#1-1 - 2021-2-10 10:19
虚空辉光
那“受邀观众打分”只能体现出你b喜欢什么样的人罢了……此时他们的打分刻画的不再是动画,而是这个群体本身。

如果这个群体碰巧与你的相似度很高,那就再好不过,否则就是“垃圾站选垃圾人打垃圾分,去你的吧”。
#1-2 - 2021-2-10 13:15
尾巴越大越好吃
虚空辉光 说: 那“受邀观众打分”只能体现出你b喜欢什么样的人罢了……此时他们的打分刻画的不再是动画,而是这个群体本身。

如果这个群体碰巧与你的相似度很高,那就再好不过,否则就是“垃圾站选垃圾人打垃圾分,去你的吧”...
我的“受邀观众”的意思是具有一定的阅番量并且对某类别的动画有一定理解的人,他们的评价更具有参考意义或者权威性,这里的评分不是贴合喜好之类,而是评价客观的制作水平。在b站观看动画时间2w分钟就可以超过百分之99的用户,绝大多数的用户实际上并不能算是动画爱好者,b站也实际上是一个泛二次元社区,这天然的就决定了他的评分不具有参考意义。bgm的评分具有参考意义除了定制了相对统一的评分标准外,bgm的大多数用户的阅番量都很高,bgm评分本质上就是“受邀观众评分”,事实也证明BGm的评分更具有参考意义。
#1-3 - 2021-2-10 14:37
虚空辉光
Arthropod killer 说: 我的“受邀观众”的意思是具有一定的阅番量并且对某类别的动画有一定理解的人,他们的评价更具有参考意义或者权威性,这里的评分不是贴合喜好之类,而是评价客观的制作水平。在b站观看动画时间2w分钟就可以超过百...
我的想法是,对于A/B两个人,不存在“任何与A/B无关的通用条件”(比如阅番量、审美能力、教育程度),能够直接评判A的评论对B的价值。能够度量评论价值的,主要是这俩人之间的相似性,那么必然会出现许多割裂的群体。

对于我看番而言,我并不需要所谓“有资格”、“有理解力”的专业评论员,无论他们评价量多少,多么严肃,受过多少美学教育,有多少艺术理解,被多少人认为是业内权威,对我都一文不值。你可以很强,可以很受大家欢迎,但你的思路与我不和,我不喜欢你的评论,这个样本对我就没用。
(当然,如果你认为:自己就是这种“高水平用户”,那当然也可以,但这不是因为他们的评论代表普世价值,而是因为你自认为和这样的一群人很接近。)

因此,我认为,真正需要的是“和我喜好相同或相似的评论员”。目前使用BGM这个平台的原因是,在这里,符合该条件的人更多,而不是因为这里的人更严肃或者什么别的。(作为对比,豆瓣也算是一个相对严肃的评论平台,而我不使用的原因只是因为那里的人偏三次元,对动画的看法与我差距较大)

人为地去选择、制造出一批代表性人物,实际上是有意识地去限定了你这个网站的适用范围,去把一个本来就很小的圈划得更小,所谓圈地自萌。(类似于美国规定,只有白人男性才可以投票,刚好我是白人男性,爽爆!)
这某种意义上可以算得上是一种“公车私用”(滑稽)。合情合理,但我觉得不是无懈可击的正义。

附:仅仅是阐述我对于这个问题的一些思考,没有吵架的意思。
#1-4 - 2021-2-10 14:42
足控战神
虚空辉光 说: 那“受邀观众打分”只能体现出你b喜欢什么样的人罢了……此时他们的打分刻画的不再是动画,而是这个群体本身。

如果这个群体碰巧与你的相似度很高,那就再好不过,否则就是“垃圾站选垃圾人打垃圾分,去你的吧”...
受邀观众我的设想是由用户推荐出来的,推荐的用户本身也必须有足够长的阅番时长才行。
#1-5 - 2021-2-10 14:44
足控战神
虚空辉光 说: 那“受邀观众打分”只能体现出你b喜欢什么样的人罢了……此时他们的打分刻画的不再是动画,而是这个群体本身。

如果这个群体碰巧与你的相似度很高,那就再好不过,否则就是“垃圾站选垃圾人打垃圾分,去你的吧”...
不过说的u道理,很多时候我决定是否看一部番的不是专业的漫评家评论这部番剧质量怎么样,而是和我有非常相似喜好的人的评论与推荐让我决定是否去看。
#2 - 2021-2-10 10:26
“不爽”、“声优豚”也是观众,也有发声的权利。相对应地,自然“平衡党”也有发声的权利,因为他们都是人群中采出来的样本,不能说他的观点极端,所以就没有发声的资格。其实这些都是大规模采样可以解决的问题。均值回归的意义就在这里嘛。

从统计(而非人文)的角度来讲,样本就是样本,统计量就是统计量。你可以为了证明某个观点,选取合适的统计量来说明;但你不可以为了某个目标,去故意修改你的采样方式。(当然,统一,规范的采样方式还是需要的,也就是不同人对相同分数的理解应该大体一致,不能看着还行就打十分。)

你要以平均数为统计量,自然是考虑了所有人的结果,包括了那些声音很大的人。这时候你要逼迫大家修改采样方式,那只能得出你所想要得到的结果。
如果真的有其他特殊的需求,比方说“这部番的上限如何”、“被这部番恶心到的概率有多少”,那自然可以选择其他统计量,比如打十分的比例、打超低分的比例。

其实从做数据挖掘的角度上讲,真正有价值的东西是用户画像,对用户聚类,给你尽可能推送“和你相似的人”可能喜欢的作品与评论,这才是真正有参考价值的东西。到时候分成“婆罗门区、首陀罗区”,不仅避免了无谓的争端,也能给你更具针对价值的推荐意见——番剧的评分不再是“大家喜不喜欢”,而是“你是否有可能喜欢”。
而对你来说,和你聚类的这帮人自然就是你的“受邀打分家”。当然有兴趣的时候,也可以点开“其他人的不同意见”,去开阔自己的视野。

不过因为这种打分站点都不能牵涉商业利益,因此也没人有动力去做这个事情。
#2-1 - 2021-2-10 14:40
足控战神
说的好啊!比我设想的这种模式要强。
“番剧的评分不再是大家喜不喜欢,而是你是否有可能喜欢。”
不过这个就要像音乐app那样利用大数据和算法做推送了。
#2-2 - 2021-2-10 15:00
虚空辉光
足控战神 说: 说的好啊!比我设想的这种模式要强。
“番剧的评分不再是大家喜不喜欢,而是你是否有可能喜欢。”
不过这个就要像音乐app那样利用大数据和算法做推送了。
对。实际上这个推荐系统要求挺高的。尤其是在样本不极端充裕的情况下。
我自己曾经也试着爬数据做过,就差不多把7分作为推荐/不推荐的线,作为二分类……效果emmmm……测试集上大概也就60%多的正确率,勉强比瞎蒙好一点。

像腾讯这种混传媒娱乐圈的,这套引流真是搞得贼6,你男拳和女拳在网上的评论可以永世不见面(滑稽)。
#2-3 - 2021-2-10 15:35
尾巴越大越好吃
这更像是一种推荐,直接按照观众进行筛选消灭了评分机制,把动画爱好者分割成了各种类别的动画爱好者,说不定也挺好的
#3 - 2021-2-10 10:47
(水星不看 人生遗憾https://bangumi.tv/anime/chart ..)
进站就发第一篇帖子 说白了就是专业性的 bgm上打7分的我可能在B站也会打5分 因为B站是一个群体聚集现象 内容是动画本身 而bgm是评分受众 内容是动画质量
#4 - 2021-2-10 12:21
(家に帰るまでが遠足です)
分在推荐度上基本是没有价值的,信息损失早已超出了可接受的范围,看前首先应该参考的是简介和评测。B的问题在于期待值过于接近满分导致没有区分空间,损失的信息更多,当然接近零分的也会有一样结果。另外原始数据都这么糟糕了还要另加处理人工设比重岂不是更失真。
#4-1 - 2021-2-10 14:49
足控战神
是,说的没错。我看了下楼上的回复后感觉推荐度和番剧本身的质量没有强相关性。也就是说推荐度和分数之间没有强相关性。推荐度是好不好这口,应该由懂你喜好,与你喜好类似的人来推荐,而不是由客观的专业的漫评人。
#5 - 2021-2-12 22:23
对大部分路人来说,动画的评价其实只有好看/一般/无聊/垃圾这几档并且无法具体指出问题所在,同时除非作品太烂或者口碑崩盘,评价会高度集中在好看/一般这两档上,一旦口碑崩盘,这些路人认识到了之前只能隐约感觉的问题,观感会从一般降低到无聊/垃圾——尽管片子本身没有变化,这就是舆论崩盘的滚雪球。
我认为这就是猫眼/b站评分偏高的问题,而不是什么打分制度不严谨。
bgm的评价有几点,一是用户群体问题,相比路人稍微有些区分好坏的概念,二是每档打分的称呼,推荐/力荐/不过不失,每一档的指引较为明确,并且也不是纯粹的好看/不好看,三是分数天花板在那,9.1,比较遵守规则的用户会下意识地控制自己给出极高分的行为,最后导致评分看上去比较合理。