#1 - 2018-4-7 21:07
秘则为花 (必须保卫战争)
我记得这是本小组已经讨论过的问题,但鉴于最近几天的情况,再拿出来说一次。
有一部分人认为平均评分是社区所形成的集体共识,这个集体共识因为具备某些个人评分所不具有的突生属性,因此具有相对于个人的独立性。这种难以被个人干涉的属性经由统计学、计算机科学的“加持”,被进一步认为能够反映作品的某种“客观属性”、作品之间的某种“客观秩序”。凡是围绕平均评分展开的争论,背后大多有这种观念的影子。
而另一种更为常见的说法则是,只要我们尽可能的增加“有效评分”,那么通过统计模型或者计算机算法,就可以得到一个能够反映作品内在本质的的“客观评分”。评分警察的“警察权”就来源于此,即指责对方刻意制造“无效评分”,为什么会有xx个1分之类的。而另一方面,评分再平衡战略的执行者们则是在现有模型或算法不能改变的情况下,通过大量1分来手动修正平均评分,进而引发厨黑大战。这就是bgm“评分战争”——总有人想要将评分修正到它应有的位置。
在这种情况下,1分已然不是个人怒气的宣泄,相反是一种理性计算之下的必然结果。再平衡战略的执行者关心的只有平均评分,个人评分反而不再是某种自我表达,追问为什么会有xx个1分,就成了一种无用功。
对于上述观念,我没什么好评价的。就我个人而言,我倾向于对平均评分做概率式的解读。比如天元突破的平均评分8.6只意味着它有86%的几率是一部通常意义上的“好”作品,但这并不意味着它比8.5分的天空之城要强,或者能够带来更丰富的体验(反倒是不如吧)。平均评分只能粗略地描述一般人眼中的“好”与“坏”,并不代表一种内在的、实质性的差异。将评分当“神性”,将排行榜当“神坛”的人,还是省省吧。
---
发现有些人误解了我的意思,补充两点。补充三点。
PS1:如何理解概率式的评分?
因为讨论的是平均评分,也就是bgm最后呈现的统计评分,所以我其实没有讨论太多东西,比如个人评分、小群体评分之类的。我不否认这些东西可以反映更细节的东西,在我的评价体系下,我的8分也是被认为优于我的7分的。
问题在于,现在有一个超出个人的总体评分体系,并且有一个自它延伸出的排行榜,要如何理解这两个东西?首先,我肯定是拒绝那种“内在本质”的解释的。其次,大样本之下,个体的细节差异已经被当作残差排除了,剩下的那个由最显著的统计特征组合而成的概念,我姑且将它称为“一般的人”。这个概念虽然难以克服自身的模糊性,但约略就是这个平均评分的主体,因此我认为评分是在描述这个“一般的人”的“一般好坏”。最后,概率意义上的解释则是在描述主体与这个概念化的“一般的人”的拟合度。我不能完全排除有人对汽车人总动员感兴趣,就像不能完全排除有人讨厌cb一样,这是平均评分1分(10%)和9分(-10%)的意义。当然,汽车人总动员本身又受到了bgm最低1分的评分机制的影响。
PS2:为什么说评分战争没有意义?
因为如果对平均评分做概率式的解读,那么由于极端打分所造成的零点几的分值浮动,本身是不足以在显著程度上承认或拒绝某作品是一部“一般意义上的好作品”的。突生属性是个人无法操纵的,除非是靠结团或小号刷分这种违规手段,不讨论。纠结于零点几的评分,还是有之前的那种本体论观点作祟。评分能够精确显示作品的本质特征、xx的评分不能比xx低之类的。正因为要精确描述,所以要刻意修正。
PS3:为什么说两类人都是“评分警察”?
“评分警察”的权力来自于无由来猜测对方的动机,如典型引战贴“xx个1分是什么心态”。但是,这只是由于bgmer整体评分偏上无意中被突显出的“异常”。基于同样的逻辑,我也可以推断在10分评分中也有类似的策略性打分,并发帖“xx排到xx名是不是过高了”。由于后一种人是广为人知的“评分警察”,基于对等逻辑,我认为第一种人也是“评分警察”,而不是所谓的“客观的纠正者”。同样的,凡是陷入有效性逻辑的人,我都会认为他是潜在的“评分警察”,需要根除的是有效性逻辑和对“有效”的肆意定义。
在这种情况下,一种视点转换,去承认评分本身的模糊性、波动性,反而更好。
有一部分人认为平均评分是社区所形成的集体共识,这个集体共识因为具备某些个人评分所不具有的突生属性,因此具有相对于个人的独立性。这种难以被个人干涉的属性经由统计学、计算机科学的“加持”,被进一步认为能够反映作品的某种“客观属性”、作品之间的某种“客观秩序”。凡是围绕平均评分展开的争论,背后大多有这种观念的影子。
而另一种更为常见的说法则是,只要我们尽可能的增加“有效评分”,那么通过统计模型或者计算机算法,就可以得到一个能够反映作品内在本质的的“客观评分”。评分警察的“警察权”就来源于此,即指责对方刻意制造“无效评分”,为什么会有xx个1分之类的。而另一方面,评分再平衡战略的执行者们则是在现有模型或算法不能改变的情况下,通过大量1分来手动修正平均评分,进而引发厨黑大战。这就是bgm“评分战争”——总有人想要将评分修正到它应有的位置。
在这种情况下,1分已然不是个人怒气的宣泄,相反是一种理性计算之下的必然结果。再平衡战略的执行者关心的只有平均评分,个人评分反而不再是某种自我表达,追问为什么会有xx个1分,就成了一种无用功。
对于上述观念,我没什么好评价的。就我个人而言,我倾向于对平均评分做概率式的解读。比如天元突破的平均评分8.6只意味着它有86%的几率是一部通常意义上的“好”作品,但这并不意味着它比8.5分的天空之城要强,或者能够带来更丰富的体验(反倒是不如吧)。平均评分只能粗略地描述一般人眼中的“好”与“坏”,并不代表一种内在的、实质性的差异。将评分当“神性”,将排行榜当“神坛”的人,还是省省吧。
---
发现有些人误解了我的意思,补充两点。补充三点。
PS1:如何理解概率式的评分?
因为讨论的是平均评分,也就是bgm最后呈现的统计评分,所以我其实没有讨论太多东西,比如个人评分、小群体评分之类的。我不否认这些东西可以反映更细节的东西,在我的评价体系下,我的8分也是被认为优于我的7分的。
问题在于,现在有一个超出个人的总体评分体系,并且有一个自它延伸出的排行榜,要如何理解这两个东西?首先,我肯定是拒绝那种“内在本质”的解释的。其次,大样本之下,个体的细节差异已经被当作残差排除了,剩下的那个由最显著的统计特征组合而成的概念,我姑且将它称为“一般的人”。这个概念虽然难以克服自身的模糊性,但约略就是这个平均评分的主体,因此我认为评分是在描述这个“一般的人”的“一般好坏”。最后,概率意义上的解释则是在描述主体与这个概念化的“一般的人”的拟合度。我不能完全排除有人对汽车人总动员感兴趣,就像不能完全排除有人讨厌cb一样,这是平均评分1分(10%)和9分(-10%)的意义。当然,汽车人总动员本身又受到了bgm最低1分的评分机制的影响。
PS2:为什么说评分战争没有意义?
因为如果对平均评分做概率式的解读,那么由于极端打分所造成的零点几的分值浮动,本身是不足以在显著程度上承认或拒绝某作品是一部“一般意义上的好作品”的。突生属性是个人无法操纵的,除非是靠结团或小号刷分这种违规手段,不讨论。纠结于零点几的评分,还是有之前的那种本体论观点作祟。评分能够精确显示作品的本质特征、xx的评分不能比xx低之类的。正因为要精确描述,所以要刻意修正。
PS3:为什么说两类人都是“评分警察”?
“评分警察”的权力来自于无由来猜测对方的动机,如典型引战贴“xx个1分是什么心态”。但是,这只是由于bgmer整体评分偏上无意中被突显出的“异常”。基于同样的逻辑,我也可以推断在10分评分中也有类似的策略性打分,并发帖“xx排到xx名是不是过高了”。由于后一种人是广为人知的“评分警察”,基于对等逻辑,我认为第一种人也是“评分警察”,而不是所谓的“客观的纠正者”。同样的,凡是陷入有效性逻辑的人,我都会认为他是潜在的“评分警察”,需要根除的是有效性逻辑和对“有效”的肆意定义。
在这种情况下,一种视点转换,去承认评分本身的模糊性、波动性,反而更好。
作为一名评分警察(咦那么快就接受设定了) ,我觉得"评分政协委员"再讨人厌不过。而事实上政协能做的比单单一名警察多多了。一名警察只有一票的影响力,而政协可以拉拢多名厨/黑/警察使评分再次产生变化。
以上来自一名混沌邪恶
在这种情况下,我其实不在意少量刷分。作品零点几的均值浮动不妨害判断它的“一般好坏”。只是,在另一些人眼中,零点几的浮动本身就代表着对“客观秩序”的亵渎,必须要打极端分平衡下或开贴骂两句,也就是“评分战争”。
我倒不否认平均评分是一种集体共识,但因为这个集体共识的突生性而给它附加上太多乱七八糟的东西,就没有意思了。
2. 基于这样的设置下,两个不同作品很难用相似的打分群众基础,导致分数之间的比较没有什么特别大的意义。
3. 几个因素影响之下,【集体共识】会没有办法反应【一般好坏】(其实我不太喜欢使用好坏这样的词,因为很难定义),最多反应打分群体对于作品的认可程度(的某种形式上的加成)。举个极端例子,我们可以看到三狮2的排名和分数明显优于第一季,以及夏目3之余其它季,这些现象能部分由观众过滤与审美疲劳解释(能解释多大比例我就不知道了,我毕竟没有对所有相关评论做自然语言处理与分析)
4. 【概率意义】相关解释本人不敢苟同,难道汽车人跟高铁侠有10%以上的概率是好作品?
5. 其实我觉得,不如关注一些喜好可能与自己相近的人,毕竟确实存在(全站的)平均喜好与某些人(例如我)的喜好有明显差距的情况。
上面的意见指出(以下指现值,不妨相信这几个小时之内数据没有大幅变动):
A. 参与排名的所有作品中,以【评分操作】为单位时,所有评分操作的评分平均介于7.2与7.25之间(#6-2)
B. 参与排名的所有作品中,以【条目】为单位时,所有条目的评分平均,感觉介于6.7~6.8(#6-1,5);这个值我没有概念,也懒得爬(喂),不过个人相信介于6.5~7之间。
C. 所有条目中(包含不参与排名的),以【条目】为单位时,所有条目的评分平均,(个人)感觉不到6.5(#6-7)
感觉你的 7.2 与 6.9 是分别在 A 和 B 的意义下?如果是的话那这层的意见基本没有歧义。
按评分操作来算的平均分确实是7.2
去掉无排名的,按条目来算的平均分是6.75
包含无排名的话是5.36
然后评分操作的话,有没有存在有排名作品跟无排名作品之间的差异(虽然这个我觉得做了也没什么意义
第二个问题需要对数据做一些分析,这个我没研究过
第二个问题也就是随口问问(
但问题是,现在有一个超出个人的总体评分体系,并且有一个自它延伸出的排行榜,要如何理解这两个东西?首先,我肯定是拒绝那种“内在本质”的解释的。其次,大样本之下,个体的细节差异已经被当作残差排除了,剩下的由最显著的统计特征组合而成的概念,我将它称为“一般的人”。这个概念虽然难以克服自身的模糊性,但约略就是这个平均评分的主体了,所以我认为评分是在描述一种“一般好坏”。最后,概率意义上的解释则是在描述主体与这个概念化的“一般的人”的拟合度。我不能完全排除有人对汽车人总动员感兴趣,就像不能完全排除有人讨厌cb一样,这是10%的意义。不过,汽车人总动员本身会受到bgm最低1分的评分机制的影响。
按你的想法,应该是对[1,10]的分数范围进行伸缩到[a,b]的【好作品的可能性的概率】范围,来表示作品之于你定义下所谓【一般的人的一般好坏】,并且应该是一个(非常接近于)单调递增的函数。
那么问题来了,你怎么去决定这个映射结果?
2. 再来是打分群体会大幅度影响打分结果,你很容易找到一群bangumi用户,比较他们的打分结果与全站的打分结果的关系并发现有明显不同。或者我们可以将bangumi与myanimelist的全体用户打分结果进行比较(以下数据全部取自以下时间段: 21:19-21:26, 2018/4/10):
2a. 我们取【銀魂°】(2015年那个)和【攻殻機動隊 SAC】(2002年那个):
前者在bgm分数8.16(四舍五入至小数第二位,下同),排名119(有排名作品4632部,被2.55%其它有排名作品超越),在mal分数9.16,排名3(有排名作品12724部,被0.04%其它有排名作品超越)
后者在bgm是(9.05,3,0.04%),在mal分数(8.46,123,0.96%)
不妨简单感受一下,如何定义这俩作品的【一般好坏】。
2b. 如果嫌上面这个例子不是很明显,以下提供一个极端例子:
【アブソリュート・デュオ 】在bgm是(5.14,4591,99.11%),在mal是(6.76,4466,35.09%)
【To Heart】在bgm是(7.14,1569,33.84%),在mal是(6.67,4904,38.54%)
那么请问两部作品的【一般好坏】是相似的还是有极端差异呢?
3. 由上面叙述容易看出,不考虑评分群体是没有什么实际意义的。你的其它论述我个人非常赞同,诸如你对评分战争的意义解读,你对评分警察的定义与相关行为解读,以及你认同平均评分是一种集体共识的想法。
现在讨论bgm评分带来的冲击,毕竟感觉是有一批新人加入的评分战争,评分b站化,样本数量足够大的话足以让评分体系意义和原来不同。
当然我比较倾向于第一种想法..评分不应该被个人观念干涉 因为它本身就是所有打分者观念的集合..因此, 评分无法代表作品的优劣. 评分与自己心目中的分数有所差距 只应该意味着看过该作品并且为它打过分的大多数人的评价与自己的评价有所差距.
评分只是一个用于参考的指标 也只能是一个指标. 评分从来不存在它"应有的位置". 而也正因为此, 想要评分能够正常发挥其职能, 就不得不要求大家给出的评分是"有效评分". 这里的"有效评分"是指在不受外界干涉的情况下独立给出的评分.
因此我认为打1分或10分没问题, 问题在于是否出于理性的理由给出1分或10分. 理论上应该禁止一切刷分行为的, 但是理性打分很难做到, 也很难界定, 那退而求其次, 至少不应该出现大声嚷嚷着"我要打1分来平衡业界" "这分低了我要打10分"的行为. 而这只能靠社区营造氛围才能做到 我觉得相比放任厨黑挑起战争 这是最合适的解决方法了..
换句话说就是尽可能增加有效评分
然后 我觉得质疑"为什么会有xx个1分"的行为本身就是复杂的..不能简单地认为他们是想增加有效评分..因为
如果厨与黑真的战起来了, 客观上, 极端的打分行为本身确实为维持评分做出了贡献 但是主观上, 这显然仍是个人怒气的宣泄. 此时评分的走势已经不可预测了 即使最终平均评分仍然能够代表作品在打分者心目中的分数, 产生它的过程也不再可信(评分分布图都严重失真了), 那么分数本身也没有一点参考性了.
至于按概率的说法来看待评分..我觉得相当于直接放弃评分了. 毕竟这个做法比较主观 而且含义模糊——把评分看成是概率 意思是说"8.5分=85%的人认为这番值10分"么? 所谓的"85%的人认为它'好' 又是怎么个好法呢?"..况且评分算法不是简单的求和取平均 解释成概率不恰当..
另外, 我认为 一部作品的内容是多元的 把如此丰富的内容映射到一维空间上当然会失真..最简单的区别就在于评分是全序 而多维的数据可不一定有全序. 甚至连偏序都不一定有..因此单看评分并不能完全反应作品信息..按评分分高下是不合理的..
所以把评分看得太重并不好——但是认为评分无意义也不对. 还是应该回归本质 把评分看成是一个粗粒度的参考指标..高评分可以认为大众眼中作品整体素质较高 低评分可以认为整体素质偏低 仅此而已..
评分算法就是简单的求和取平均,只是原数据意义不明确,所以取平均之后的意义也不明确,于是不能解释为概率。
加权分 weighted rank (WR) = (vR + mC) / (v + m)
v:条目总评分人数
R:普通方法计算的平均分
m:进入排行系统的最小所需评分人数,动画区现值为51
C:目前所有评分结果的平均分,动画区现值为C∈(7.2, 7.25),约7.23
在这里,“有效”的概念是模糊的,连带着“应有”的概念也是模糊的。无论是再平衡者还是评分警察都是在这套模糊体系下互殴,我也不知道他们打算得出什么。。。所以,我不觉得有什么准确的评分,它只有概率意义,这种概率本身是可以包容一些极端的。
和我说的基本是一回事 只是换了一种陈述方式..毕竟我也觉得各作品的优劣不构成全序 所以不应该太看重评分 况且理性打分很难做到也很难界定, 所以稍微有一些离群值是没问题的..评分警察太敏感了 本不需要这么介怀..
但我觉得还是不要解释成概率比较好..回归评分本质 就直接解释成是[所有打分者对作品评价的一个粗略描述]就好..说白了评分和概率一样都是一种测度..朴素的解释已经能达到相同目的了→因为是粗略描述, 所以有浮动是正常的.
不过还是要强调大家应该严肃打分就是了..不强调的话极端评分会越来越多, "有效评分"占比会越来越少的..维持评分的氛围 严打随意评分的出头鸟 尽力靠技术手段封禁刷分小号 大概就差不多了..那些默默躲起来乱打分的就管不了了..
bgm有两种评分引战贴。一种是xx个1分什么心理,一种是配不配排到xx名。这两种贴子的背后逻辑是一样的。基于后一种贴子被普遍称作评分警察,前一种我也取同样称呼。我是不希望大家陷入对动机的质疑当中,相反最好对平均评分本身抱有一种模糊性、概率性的看法。至少我是不觉得cl偶尔的小波动足以妨害到判断它的整体品质。
再平衡者何评分警察对“应有”没有异议,矛盾在于“有效”。再平衡者认为10分无脑吹才是“无效”咧。所以,我觉得这是一路人。
而且人们没有说未找到反例就默认某理论正确啊..更准确的说法应该是[未找到反例就默认某理论最接近客观规律, 在发现理论缺陷后寻找新的更准确的理论代替它]
以你的例子来说, 单看12345 当然会认为将来出现的数字是6, 如果第六个数字确实是6 那就说明目前的理论是可靠的, 我们就延用..后来发现第七个数字不是7 那再修正理论也不迟..但是理论有错误并不意味着这个数列就没规律了——即使你是随便写的一串数, 我们也可以说它的规律就是"随机性"..
如果你坚持客观规律不存在, 认为世界就是一团混沌, 那么人们如今利用自己总结出的规律建立起的秩序又该怎么解释呢..
话又说回来,实际上我根本不懂为啥你们要扯这些,层主关心的问题不是规律存不存在,而是对人群心理活动的统计有没有意义或价值。无论你的本体论将科学规律划分为存在或不存在,客观或主观,都对这个问题没有贡献,还是需要更为精细的划分来论述当下的问题
至于我为什么扯这个,因为层主认为自然科学等等的统计结果能反映客观规律,我不同意客观规律一说,但我同意它能反映某些特征和共性,这些东西是有用的,值得研究的,回到人文学和社会学,统计的结果也同样可以反映些什么,同样有用,值得研究。
我不否认平均评分有突生属性,但客观性不等于本质性。
顺带一提,所谓“f=ma正确,是因为每次实验都吻合”也是不存在的,实际上只有在特定条件下F=ma才能成立。你的例子就证明不了你的论点,反而证明了我的论点:要推导出某些结论,必须先承认某些前提。
后面就更没意思了,我一开始就说了是经典力学体系下,光速不变被发现之前可没哪位认为这三定律还有什么条件。只是我一时忘了相对论的表达式罢了。你要较真,那我就说,牛顿力学完全是错的,低速和一定尺度下只是误差小罢了,现在换成v变=|v1-v2|根号下(1-v1v2/c^2),你是不是还要告诉我这个成立需要什么条件?
另外,对于F=ma这条结论,除了低速宏观的条件,还有质点和惯性系,请不要忽略。既然你也认可牛顿定律需要特定条件才能成立,说明你也认同我的一个观点:要推导某些结论,必须先承认某些前提。
不过,本着你“不承认客观规律”的怀疑论精神,或许你应该质疑人们所认定的牛顿定律的适用范围,而不是拿着相对论公式照本宣科。
我对所有的物理学定律都表示怀疑,但暂定它们正确可行,因为我要生存。我不知道我现在从我寝室跳下去会不会死,但跳过的人都死了,经验告诉我我不应该尝试,我不认为我跳下去一定会死,但在没有反例证明人从5楼跳下去会安然无恙的时候,我遵从现有的结论行事。因为按照习得的知识生活没有发生问题,所以我不打算通通实践一遍去证实和证伪,我没有那个时间和精力,既然能用就拿来用。但我时刻怀疑着,万一哪天有人跳下来落到地面上真的安然无恙,我就会抛弃这一常识,当然我会研究案例,而不是立马跳下去。因为牛顿力学有用,在生活中我用它去考虑问题就足够了,不管它的对错,我倒是很期待能找到反例颠覆物理学界。而相对论对我来说没用,压根就不会去管。
人是基于自身想法行动?这里又牵扯到自由意志,怕你开辟毫无意义的新战场按下不表。
然后说说回避你的例子,我指的都是自然科学的定理定律和结论,跳楼别人会死,吃药别人有用,我亦然。(同样的物理法则,同样的生物构造)这和考试一百分有关系?你真的不理解你的例子和我的的差别吗?还觉得我在逃避?那么奉劝你一句,实用主义和经验主义告诉我,好好学习能提升知识量和逻辑水平,对你也一样。
你现在的话也不例外。你为什么要生存?为什么你相信按照习得的知识就不会出问题呢?如果有一天有“专家”告诉你一直以来的官方推荐食谱就是慢性自杀,你会倾向于哪一派,支持或是反对的?要做出这一系列判断,必须事先承认一部分前提,否则什么结论都得不出。你现在这个“暂定习得知识是对的”的判断是怎么得出的?如果你是因为“目前看不到有什么问题”,说明你相信眼见为实。你现在相信人从高楼上跳下来会死,是因为现在你看到有这个事实,对不对?既然你相信眼见为实的话,那是不是可以认为你相信眼前发生的事情即为客观规律之体现?可见你还是相信有客观规律的,否则你“暂时按照习得的知识进行行动”的原因就无法说明了。
不过本着“不相信客观规律”的怀疑论精神,你或许应该说眼前发生的事情也不一定真实;人从高楼上跳下去也不一定真的死了,或许到了另一个世界,在另外的世界里安然无恙……当然,你是不会去验证其真伪的,你会做出的选择肯定是相信目前所习得的知识。
到头来,为了生存,你还是得选择相信某些前提,否则你根本做不到。
首先,我没说我什么都不相信,我只说了我不相信客观规律,我有所相信和这一点不构成矛盾,然后你的结论我做一个反驳,我啥都不信,一切行为都是靠直觉,而我有时按直觉来有时不来,因为我直觉也不相信。。。
但这样很没意思,胡搅蛮缠的真变成我了。
什么都不相信活不下去,如果你想证明这一点,那在我这里,已经得到承认了,而我至始至终也没有反驳的意图。
但是话题已经偏地太远了。我们对话的起点是客观规律的存在性以及统计数据的有用性,很遗憾,这两点立论你未能给出回击我的证明。这是我扣你帽子的原因。
同时,你也不能证明怀疑论者活不下去。怀疑论者一定要怀疑一切?未必吧?从另一个角度说,人们的所作所为也不全是按照自己所相信的来的。
最后不管你信不信,我是理性主义者而不是经验主义者。我非常讨厌实用主义思维,我信的东西,很多很多。
总之不会因为看不出规律就说客观规律不存在 或者世界是无序的..最多也就是还没掌握客观规律..(更何况你提到你用了数学公式..)
其实我觉得其他人的回答比我的好..你先回答他们吧..
这个数列给我室友看,在他眼里就是随意的,类似于一堆乱码,而在我眼里,这是一个有序的递推数列。
我写的时候是编了公式,但自然界本身存在着这样的数呢?
从有神论的角度,人类发现规律,可以认为玩家破解了编程者的程序,规律是宇宙创造者编写的,然后被人类发现了。
但从另一个角度来看,一切都是无序的,人类用归纳法使世界在人类眼里变的有序起来,以语言为媒介的定律就充当着这样的功能。
其实怎么看就是信仰问题,数还是那堆数,客观现象还是客观现象,不同的只是人的思维。
就像也许有大牛可以用另一套公式去诠释那个数列,但我写的时候可没想到,所以如果不能证明宇宙本身是这么想这么做的,我只能认为,一切都是人赋予的,而不是什么客观存在,而这种信仰也不妨碍我相信和使用它们,只要不被证伪。
对了,我不是无神论者,不知道无神论是怎么想的。
我不知道为什么这个你都看不出来,看来你需要补的,不仅是逻辑,还有语文。
因为我没有回应客观规律是否真实存在的问题,只是说必须假定它们存在才能推导结论。所以,如果我被追问“该假定哪些前提成立”的话,那么以我的知识所限,我还真给不出任何合适的观点。如果我要强行解释的话,那么这回就变成我自己自相矛盾了,因为如何假定这份解释的前提是否成立也是个问题。然后可以继续追究,没完没了……这时候你就可以补一句“这样来看你也和我一样不知道该信什么嘛”。那么我就真的憋不出话来了。争论结束。
既然你不知道该如何反驳我,那我就好心教你一下吧。
我复盘一下。
背景:
你从自己的论点纠缠到"定义我啥都不信",然后拼命证明你所定义的我是有矛盾的。
我的回复:
我首先对你的开辟新战场表示遗憾。
然后1.说明,你定义的我不是我。
2.说明,即使被你如此定义,你的攻击还是成立不了,但这个说明不符合事实,有胡搅蛮缠之嫌。我也做了自嘲。
3.我试图纠正你的偏题。
可惜你被我扣的帽子刺痛了。
你如此回复:
1.你把我的1和2两个完全不同语境的东西整合到一起断章取义,试图把帽子扣回来。
2.你总算正面应对了我。
我于是再回复
1.指出你扣回来扣地很没水平。
2.我指出了你的论点是错误的,这就是我的目的。并表示,我不能提出关于评分统计的有价值见解。
我再注释一下:指出错误不代表有正解,举例的话,我知道这道数学题的某个解法是错误的,不意味着我知道正解。因为我不是学统计的,也不是学此类相关的,没有知识积累,我怕说错惹人耻笑。我也挺佩服你敢轻易下论断的勇气。
你看来被我刺激地不轻,继续想把帽子扣回来。
你的再回复:
1.把我的1曲解为我无能为力的逃避。想说:"真正没逻辑的是你。"
2.认为我不知道正解就不能指出错解。
不知道这样你明白了没,如果还不明白的话,请旁观者帮忙吧,我反正是累了。
以语言为媒介的定律充当的功能不是把无序的世界变得有序了 而是把复杂的世界背后隐藏的秩序描述出来了..
如果大牛用另一套公式诠释了你那个数列 那意味着你的公式与他的公式描述的规律是一致的 , 而不是说这串数的规律不是客观规律啊..如果你把所有数全写出来 它背后就是隐藏着规律啊..你可以认为人类的科学理论没法完美描述世界规律 只能无限逼近它, 但是不能因此就说人类的科学理论全是脑补出来的啊..
另外, 你说你觉得一切都是人赋予的, 而不是什么客观存在, 我觉得这么想挺危险的..因为没有客观存在作根基, 看问题时可能会比较飘..
另外,也别幻想旁人一定站在你这一方。做梦还说梦话,说给谁听呢?!
你别曲解我的意思,我可没说一切都是人赋予的(虽然极端地唯心主义者会认为世界不存在),我回复别人有提到,客观的是现象本身,而不是规律。
我说数只是因为我学数学对这个比较敏感,其实它不适合拿来举例。
随意打出的一串数列,你找到了通项公式,那是你为它赋予了规律,数本身之间不应该存在规律一说,它是随机的。物理模型的建立,差不多也就是这个意思。几千年前人们多相信神话,当代人多信科学(也不见得是真信)世界还是那个世界,而人类能用一种更有序地视角去看待它了,我也没觉得这种视角有什么不好,只是它永远都存在更新的可能。
感觉自己无比啰嗦,那么点东西翻来覆去地说,不能认同,还望求同存异。
扣帽子是因为你的行为使然。
别人站在哪边我哪知道,你也没发言权。
我说过,你的逻辑有问题,以及胡搅蛮缠。你气急之下每次都用它们来回敬我,这次更是用了"毫无下限,攻击人品,幻想"等词加大你的攻击力度,当然还是忘不了继续"逻辑有问题的是你,你才胡搅蛮缠"等等,并提出"苏格拉底遭我恨"等论点。到底谁的姿态更难看?甚至我都不知道你是不是心中有数?
至于说我单方面宣布胜利云云,诶等等,我好像没这么说吧?别那么急嘛。
到底是谁把话题转到"我是不是怀疑一切的"?同样的,我不知道你是否真明白。
没有理由的反驳是无效的,我觉得我已经对我的反驳观点做了非常详尽的论证了。读不懂要不多读几遍?
我也不刺激你了,也请你不要像小孩子一样每次都一定要加一句"xx的是你!"会审美疲劳的。
其实你只要讲清楚[为什么你认为世界没有规律, 规律只是人的脑补]或者[为什么混沌的世界就不能存在客观规律]就行了..虽然你各种翻来覆去解释 但一直没解释清楚, 而只是以此为前提不断陈述自己的世界观..
像我的想法就很简单, 我认为世界存在客观规律, 人类只是观察发现并利用了这些客观规律. 因为人的视角是需要根基的 如果世界背后不存在客观规律 那么人的脑补怎么可能总结出规律呢? 即使人类构建秩序的能力再强 人们总结出的规律也不可能解释毫无规律的现象. 所以这些规律能起作用并不是碰巧的 而是因为现象背后的规律被发现了..就是这么简单..
人类能不再用神话解释世界 而是使用更接近真实规律的科学来解释世界, 本身不就意味着人类比以前掌握的规律更多了么..正因为世界还是那个世界 规律没有变化 人类才能不断进步 而不是被混沌一片的世界弄得糊里糊涂啊..
况且你说人能从混沌中抽离出规律 又不承认这混沌中存在规律, 这不是自相矛盾么..莫非你觉得人能凭空创造规律?
另外你真的说了那句"一切都是人赋予的", 因为这句话是我复制粘贴的..
我倒是无所谓你怎么想..只是我觉得你没理解我的想法 仅此而已. 其实我敲这么多字也很累的..现在我觉得我已经解释清楚了 你要是仍然没法认同我 不回复就是了.
我的理解是:
KeepChasing说的是:没有公理(Axiom)的公理系统是不存在的。(“不承认客观规律又承认什么呢”,他所谓的“客观规律”就是公理)
你说的是:定律(Law)是有适用尺度和情况的(“世界本无序换眼光就有序”,那个眼光粗略来说就是一个合适的尺度或情况。)
KeepChasing主楼写的两种情况:决策等情况下的统计和“主观性”统计,我个人理解如下(我搞CS的,算是机器学习视角吧):
sample是否来自于某个(大致)固定的hidden probability
distribution。房价,理财,产品销售等情况下的sample粗略可以认为是来自某固定的distribution——也就是说可以由统计手段得到有用的结论。所谓“主观性统计”,我个人理解,sample是来自于不同的probability distribution,而这些pd之间我们暂未发现有什么规律(比如Dirichlet分布)
欢迎讨论。
其实承认所谓的客观规律一说我的其他看法也能不变地叙述下去,即人的审美也是有迹可循的,它可以被观测到,有着其内在的运行逻辑。统计评分有助于研究人的审美倾向,标准等等,其结果也可以用归纳和演绎等手段来处理。至于说到样本的特殊性,任何统计的样本,都无法代表绝对的全体或者客观世界,都有着适用情况。而一个面向全中国人的网站,样本的代表性应该很不错了。所谓的客观规律在审美中也是可以被抽离出来的。
然后到具体怎么做,我不清楚,也没说明。
不过我执意改变了这个语境,把客观规律这个词换掉了,中间还扯了一些有的没的,算是私货较多。
结果他和另一位注意力全部到我的世界观上了,导致我对此也反复进行了详细的阐释,但这是个信仰问题,很没意思。
另外一个我确实没讲的就是主客观的区别。如果有人声称不相信客观规律但相信其以外的东西,(也不说其相信哪些)同时还滔滔不绝地发表其对客体事物的看法,这种矛盾的说法只能让我感到匪夷所思。我认为自己以外的事物都可以看作是客体,所以凡是观察外部事物的活动都是客观的。(但不代表正确)因此像房价、理财、销售等领域的样本,都属于“客观”的范畴。这里我默认的一个前提是客观规律不以人的意志为转移,因此对客观领域的统计有利于发现更正确的规律。
然而对于主观领域,比如对某一艺术作品的喜爱程度,它不是客观的。所以“客观规律不以人的意志为转移”的前提在这里就不适用,因此任何相关的统计都推导不出任何“客观”的定理。
显然,你的概括比我最开始的论述更为精确一些,所以作为工科大学狗请务必赐教。
论学好英语读原著的必要性
我建议不要把“主观感受”和“主观感受的客观表达”区分的太开,你自己的陈述也属于“客观表达”,它反映你的主观感受。再继续下去就是哲学的范畴了,我无能为力。
对了你最后的问题我当时已经回答过了,不过既然又看到了我就表述地再清楚一点:
因为客观规律的存在性是不可证的,所以它只能被当作公设而非公理,所以是否信其存在就是一个价值观判断的问题,我正好不相信而已。
人为什么能抽离出规律,这个我倾向于解释为归纳类比总结等能力是先验能力,也是思维的起点。
总之你总要信点什么 这也不可信那也不可信那就没啥可信的了
欧拉的分析一向被认为不够严谨,我应该顶着休谟或者罗巴切夫斯基的头像来的
我在你那贴下回复过了追问1分可能是无意义的。这贴则是在讨论到底要怎么看待评分,纠结零点几的平均评分有没有意义,到底要不要对它做精确化的解释。
因此,问题不在于平均评分客不客观、会被会被人为干预,而是我们要不要把平均评分当作作品的某种内在属性,要不要追求在此基础上的“打分有效性”、“最终评分精确性”以及更进一步的高低排序。如果能拒绝,那么问题就解决了。所以说,我觉得这不是一个要靠算法解决的问题,或者说恰恰是对算法的盲信,导致了从客观到本质的第一次逻辑跳跃。
我是支持对平均分数做统计意义的解读的。
一些人认为平均评分背后藏着一个绝对的客体,并通过评分战争对这个绝对标准苦苦追寻。
统计意义的解读指出平均分数来自无数的人,它的意义也应该回到无数的人当中去。这给钻死牛角尖的战争找了出路。
而且这帮人不是希望在平均分计算时去掉outlier,而是要直接在数据库中去掉。
推论统计(Statistical inference)本来就是一门公说公有理婆说婆有理的学科,而在班固米这种地方争就更难争出个东西了。好比冬马党给雪菜党说冬马有多么多么好一样,讲的也许有道理,可人家听吗?
Frequentist And Bayesian Approaches In Statistics
频率学派认为H的答案唯一且固定吧,像如果要拿去假设检验的话,第一步就是假设作品是好还是不好。敢把概率直接套在H上我觉得挺bayesian的啊?
其实本来我想挂他的,所以他被人挂了我就上去(猛烈)抨击,结果很快就走了,我还一直有些愧疚,因为我就算不喜欢也不会屏蔽别人
如果不理解“突生性”,我再举一个直白的例子。勒庞的大众暴民理论就是一种典型的突生性理论。勒庞明确指出,个人在群体中表现出的从众、责任感稀释这些性质,并不能通过个人的心理特性来进行还原解释,因为无论是一个有修养的绅士,还是一个流氓无产者,他们在群体中都会表现出暴民的属性。那么,这个新的暴民属性就不可能是由个人的心理特性顺滑过渡而得的,也不可能再反过来还原回去。暴民属性是人通过集合的方式获得的新性质,是突生属性。
个人评分与平均评分的关系同理。
复杂系统的分类中,不能用还原论方法(统计、近似化处理etc)处理的涌现(突生)属性有一些必要条件:
1.单个节点的状态函数是非线性动力系统(dynamical system)
2.相连的节点间的相互影响是非线性的
第一条的必要性显然,对于第二条,举一个物理上用还原方法处理涌现属性的经典例子:
一张多个小球随机碰撞的台球桌,桌上的 formation 相关的属性都是涌现性的。但是因为小球间的碰撞对小球的状态函数的影响(动能、速度、直径etc)是线性的,这个系统的涌现属性可以用统计方法处理:
-「桌上的 formation 变化的激烈程度」,可以还原为小球的平均动能
-「单位时间内小球的碰撞次数」、「小球在两次碰撞间运动路程的期待值」,可以还原为小球的直径、平均速度、数量
回到 bangumi 的评分系统,体感上占多数的用户是“好评分人”:
1.一次打分,不再更改(状态函数不发生变化,动力系统是线性的)
2.不受其他打分者的影响(所有的节点都是独立的)
再对占少数的“坏评分人”做近似化处理和误差估计,评分系统应该是一个适合以还原论方法理解的对象
(黑屁)
bangumi 的评分要成为不可还原论理解的复杂系统,需要:
-人人都当按他者打分决定自己的分数的警察
-警察不能一日之功,今天打一分明天要改成三分,让自己的分数处于变化之中
1.不对
2.更不对
另外层主提到的突生性据我所知本就是为了研究社会学中不能用还原论解释的现象而提出的概念,我对你使用的模型不熟,但如果你要使用还原论,得首先否定突生性。
我稍微想了下你的模型,只要满足2还原论就必然失效了,特定个体在特定作品的特定分数和打分量下对自己的分数进行的调整,基本上都是复杂到没法用函数拟合的。
而你这个模型的另外一个疏漏之处在于你把每一个作品的评分看作一个孤立的系统,然而bangumi是有rank的,再加上原作衍生作等因素,这些系统彼此之间的作用也是非常复杂的。
至于发生学上,还原论和突生性当然可以兼容,对于暴民这种突生现象就不只一种个体主义解释。
我只是想和喵哥聊一下涌现性的分类问题
(复杂系统的研究相关的数学领域目前是 graph theory 和 dynamical system,计算机领域不太了解,应该是叫 agent based simulation)
如果你只是想说涌现性,那必然有可还原与不可还原之分啊。
层主说bangumi的统计分数不可还原(在他的语境下)是显而易见的(虽然有些解读值得商榷他也说了是个人倾向)。
不过我觉得你的模型是不能用于bangumi评分的基本观点没变,事实上如果评分是一个线性系统,任何关于评分和排名的讨论都不会存在了。
评分警察是在修正什么?如果他们是想修正排名,那就是对整个评分体系不满;如果只是想修正某些作品的分数,那修正到什么地步才能满意?跟他们自己的打分一模一样?那有的警察打9分、有的9.5、9.8,有的10,永远都有警察不满。而且不只是修正分数,是想修人——有人打出了他们无法容忍的分数,他们要去掉。
我同意均分的算法有很大的提升空间,但评分警察根本不关心算法,他们只想执法。
简单的话,获取有效用户评分的均值、中值、标准差甚至是评价数。用聚类分析,比如k-means来分类,然后比较每一类的均分和全站均分,接下来再把每类均分当作features跟全站均分做回归,看看解释度如何。
详细点的话可以按照动画类型以及其他标签再细分,检测scale是否有影响。
其实不管scale是否有影响,现在的均分是否“准确”,对我而言意义不大,但我觉得不管怎样评分警察都是毫无意义。
分数算法不管怎样,都包含一部分信息,你可以解读出来趋势、观众口味等等,你总可以说它具有一定意义,但它只不过是个指标,有一定程度的参考价值。
我觉得能把个人评分管好了就行,觉得指标错误了(出警)就很搞笑了。那么在乎均分,可以自己设计算法啊,不喜欢1分、10分就剃掉(或者说加全站好友,看谁评分不爽把ta删了
9 不一定大于 7
虽然我最近才确立进行语义性评分,但似乎基本没什么要改动的
虽然我认为《全部成为F》在各方面吊打《Nullpeta》,甚至我自身也认为我更喜欢前者,让我选一个看第二遍也会是选前者;但我给《nullpeta》9 ,给《全部成为F》 7。
(例证用作品为随机选取【9分但我不认为有多优秀的】和【6-7分但我觉得很优秀的】比较)
问题是测量物不一样,你测量的是推荐度,其他人测的好看度、还有作画水平度、爽度、制作水平、逼格度等等。这在我看来就是scale不一样。scale差不多得是梯度和测量物都差不多。
你说的没有scale的情况是不打分的。我见过好多只在吐槽箱里写评价。但是通过语义分析也可以把categorical转换成numerical(尽管不总能转换)
話說還有新版本評分?
1.对一部作品进行分解是没有止境的。我还能继续抽出摄影,演出,声优等元素,单就音乐一项,我还能再细分为bgm插入曲oped,或把脚本细分为台词水准,叙事节奏,主题内涵等等。同样可以直接把动画三分为画面情节和音乐,在分类上达成统一共识是不可能的。
此外一个观众初次观看某部作品,根本就不可能有意识地做出这些分解并在每个维度上都得出个人的结论。
2.n维向量进行分量间的运算,绝大多数情况下都是不需要且无意义的,而动画显然属于绝大多数情况之中。
1.2為何提出「初次觀看」?這個和幾個維度評價有啥關係?
1.3在1.2觀點中,即使退一步來講,你怎麼知道觀眾無法認知這幾個維度?就個人經驗,至少各個維度直觀感覺還是能說出來的,比如你在逼站看彈幕,這些反應時間甚至只有幾秒。諸如這裡作畫好厲害啊,演出好好啊,bgm太吵了的評論也是不少的。
1.4大多數人能考慮到的問題也就這幾個基本維度,算是個通用的常識,甚至連專業影評人也是,分類上可以達成統一。
2.1絕大多數為何無意義?為何動畫屬於這種情況?難道比直接給個總評更好?
2.2繼續分解是另一個問題。比如某作中由於世界觀大量加入了環境音效,但另一個作品中是要加強音樂存在感,兩者都有其目的,但效果好壞能看出來,他們都屬於sound裡面的一個子分類(我說的有誤導性,不是音樂,而是sound)。
2不是显然的吗?数学中单个向量不同维度的分量彼此之间做运算有啥意义(除了算模长)?
用拓扑来说明:
1就是将一部作品视为一个拓扑空间,能找到其的有限子覆盖吗?即使找到了,能证明该覆盖的唯一性或最优性吗?再假设确实找到了理想的有限覆盖,交集要如何处理?
实质上我认为是找不到的,层主认为均分具有突生性,在我看来动画也有,音乐和作画联系后的效果是分解后所得不到的。
2就是将动画视为r^2上的欧式拓扑,一部作品视为其过原点的子集,大小代表这部作品的水准而轮廓代表这部作品的特点,比如红线,偶像大师,重启咲良田分别长于作画,演出,脚本,且都为8分作,可以认为大小相近而轮廓迥异,不妨把脚本视为x>=0y>0的部分,那么重启咲良田在第一象限所占的比例就要比前两者大得多。
找出一个唯一确定的函数去为数十万部动画作轮廓拟合就是不可能的事情。
至于你所谓的大多数人,专业影评人,常识如果没有可靠的研究及数据做支撑,不过是空谈罢了。
直接给总评当然更好,因为个人有对自己的评分的解释权,可以认为这个评分是其画出轮廓并丈量大小后的结果。
1.3.1.1我已經舉了b站例子(1.3),閣下看了等於沒看,你閣下的說法更像是自己感覺。補充退一萬步來說,就算一次不面面俱到,人是是會回味作品的,甚至作品重複看的人也是不少的,特別是他們好評的作品。垃圾還是蠻直接的,就是垃圾(當然我不喜歡你駁斥這個退一萬步的觀點,it is a little bit lame)
3.1數學具體的算法可以慢慢優化,閣下一下子就把路子堵了。閣下的意思我懂,我也是學數學的,不過不太了解拓撲,你說貌似用到compactness分析數據我完全沒有背景,很難評論,我比較熟悉代數和一丟丟離散。但請注意了,我在一開始提出的只是一種構想,以及我認為一種可能的方案而已。
現在只討論我說的那個方案,我說的幾個製作細分項以外,還有對全部製作一種綜合評價--製作綜合,觀感,還有總評,難道這三項數據沒用?難道完全不能作為一個有效數據嗎?你可以駁斥我現在這個具體的方案。我想說的是我覺得「通過增加評分維度,準則和算法來提高有效評分」這個想法可以保留並相信其是可以優化的。
關於最後一點,閣下拋出一個新問題,設為第四點:“直接给总评当然更好,因为个人有对自己的评分的解释权,可以认为这个评分是其画出轮廓并丈量大小后的结果”
我有一些說法:
4.1然而大多數人會陷入一種情況,要麼衝動打分,要麼苦苦琢磨如何均衡,甚至會對自己給分後悔。可以說自己的標準都不清晰。回到1.1,我提出問題的初衷,更加有效,依靠可能優化的評價體系和算法,得出排行榜更加精確(當然不可能完美)。
最後,我自己也拋出一個問題,設為第0個問題,也是我在看了上面回覆後的一個想法,這個盡量做到「客觀」的榜單有沒有意義?我個人認為有的,比如,此榜單可以保證八九成信得過,對於剛接觸動畫並且對其感興趣的人是有用的,作為一份合格的經典動畫intro list。我的最終目的也不是宇宙真理啥的,就是一個很樸素的想法而已。
我同意你说的分解可以永无止境,有的长于音效、有的是bgm好、还有oped好、声优演技好,但只设计几个大的分量是可以的,容易从直觉上打分。另外我觉得某些项不打分(nan)也是可以的。
我寻思举报小号刷分的帖,也没被人喷过评分警察吧。。。
因果贯通也是游戏的一环
我以为你说的是“内部程序”的有效,比如你要对一部作品评分,你必须要有一套比较稳定的量表、要综合音、声、画等等各方面给出评分、要预先排除个人成见,等等。你只有经过这个“有效”的内部心理过程,才可以给出一个“有效”的评分。如果你使用了一些“不当”的程序,比如粉丝恩怨,那么你提供的就是“无效”评分。
但我反过来问,如果我经过这一系列内部程序,给巨人打了个1分,我会不会被巨人厨出警?实际上,评分警察在出警时从来都是疑罪从有地认为你使用了“不当”程序,因为你给的评分在他们眼中是“无效”的。所以,我说结果有效肯定在他们的逻辑延长线上,无论他们自己有没有明确意识到。
至于“外部程序”,那是sai老板写算法自动算出来的,有不有效不依评分警察而变,所以在无能狂怒之下,评分警察只能把情绪发泄到用户身上。。。sai老板改算法不大会引发喷sai老板,但很可能引发新一轮的喷用户
最后,问题的重点其实不是精细的,而是“有效”的。之所以说它是精细的,是因为我们一般认为精细的是效度高的一个重要特征。在评分警察看来,恰恰是混入无效评分所造成的粗粒度带来了作品评分的偏移,而在rank前500的作品中,纠结小数点后零点零几的变化,也确实可以导致宏观上作品排名的跃升。总的来说,他们追求精细,不是因为他们完全中立地认为精细是值得欲求的,而是和他们眼中的“有效”一样,这种“精细”满足了他们对作品评分和排名的要求。
这个反过来问的意思是说,实际警察并不知道人们是这么得出的1分,只要敲了1分就出警emmmm
我懂了。反正我心中的警察不是这样的,从主楼说的“指责对方刻意制造‘无效评分’”看来,我就默认正常打出的1分被警察归为有效评分了,不然这警察也太典型反派了一点。。。。
最后一段也一样,我还以为警察好歹在伦理上是中性的,不知道你说的原来是那类打着排除无效评分为幌子,实际只是个人对网站分数不满意的恶警。那其实有效和精细都无所谓了啊,只要分拉低了我的神作就该杀