#1 - 2024-4-14 09:47
1ra
自从有官方wiki dump之后一直想整一个玩玩。原以为拉个表就完事的,但数据清理花了意外多的时间,最主要还是LZ犯懒了。总之先感谢各位维基人提供数据。
这次用的是9/12/23的Archive,至此Bangumi共收录虚拟角色条目数量138034条。
这里根据条目wiki内容划分为以下六个部分:性别、血型、生日·星座、身高、体重、三围。说是人口普查,但感觉更像是体检(
这次用的是9/12/23的Archive,至此Bangumi共收录虚拟角色条目数量138034条。
这里根据条目wiki内容划分为以下六个部分:性别、血型、生日·星座、身高、体重、三围。说是人口普查,但感觉更像是体检(
你要的究极大波妹:19544,33962,57811
至于variation的问题,这已经是数据清理+去除异常值后的结果了。对贫乳来说,胸围最小一般也就50-60,受生理限制不能更小了。相比之下巨乳角色的数据更加放飞自我,标准差也比较高。
数据上我猜超大胸围有一部分abnormality,所以用更多个峰IC还在继续降,我看那些更多的峰都是用来fit更右边更大胸围的abnormality的。同样,3峰的时候大胸分布的方差大也是因为想要fit右边的数据。我觉得简单的处理可以滤出女性数据看看,如果大胸分布的variation变小了,说明我的猜测是对的。另外可能男性数据不是多峰的,使得总体的3峰分布变得不那么漂亮。
模型上,我觉得除了小variation的prior (可以直接用GMM的precisions_init参数设置),还可以加上峰之间尽量要远离的限制:把峰值(即高斯均值)列成一个vector *归一化*后,算和全1 vector之间的距离,把这个距离的负值加入loss作为regularization。(不过这样就不能直接调GMM包了,可能有更好的办法