#1 - 2024-4-14 09:47
1ra
自从有官方wiki dump之后一直想整一个玩玩。原以为拉个表就完事的,但数据清理花了意外多的时间,最主要还是LZ犯懒了。总之先感谢各位维基人提供数据。
这次用的是9/12/23的Archive,至此Bangumi共收录虚拟角色条目数量138034条。
这里根据条目wiki内容划分为以下六个部分:性别、血型、生日·星座、身高、体重、三围。说是人口普查,但感觉更像是体检(
#2 - 2024-4-14 09:48
一、性别
共收录角色条目104715条。

其他性别中,最常见的是雄性50%|雌性50%(各种宝可梦),以及无性别、扶他等等。
面对如此失衡的性别比,二次元美少女会性焦虑吗?
#2-1 - 2024-4-14 21:42
神戸小鳥
你这百分比认真的吗
#3 - 2024-4-14 09:49
二、血型
共收录角色条目13954条。

看起来还挺像那么回事的。其他血型中,最常见的是f型(47),x型(46),以及s型(45)。
#4 - 2024-4-14 09:50
三、生日·星座
共收录角色条目20970条。

最常见的前5种生日依次为:3/3(252),7/7(235),5/5(219),12/24(191),1/1(177)。人数最少的日期是1/26(20)。值得一提的是,生日为2/29的共有62位,在366中生日里排行第89。

虚拟角色星座(由生日推算):
#4-1 - 2024-4-14 10:07
藻寂炔
1,3,5,7,(bgm38)
#5 - 2024-4-14 09:55
四、身高(cm)
共收录角色条目30118条。以下数据依次为平均数,中位数,标准差:
男:188.20, 177.0, 382.70
女:163.16, 158.0, 288.08

最高的前三位:346562712121887
最矮的前三位:473912077520777
#5-1 - 2024-4-14 09:57
缇亚拉
点之前以为是JOJO结果是什么玩意。
#5-2 - 2024-4-14 10:13
1ra
Aya 说: 点之前以为是JOJO结果是什么玩意。
二次元是这样的
#5-3 - 2024-4-14 10:25
简单
海贼里那些动辄好几米的怎么说
#5-4 - 2024-4-14 11:22
Sawarin🎐
什么玩意
#6 - 2024-4-14 09:57
五、体重(kg)
共收录角色条目13055条
男:7408.22, 65.0, 506554.19
女:443945.42, 47.0, 3256462.28
体重部分因为各种奥特曼大怪兽舰娘等等的原因导致平均值/标准差比较离谱。起初还试图清理了一下,但最后还是放弃了。(bgm38)

最重的前三位:121885121884121887
最轻的前三位:5811920311178
#6-1 - 2024-4-14 10:23
naoh
战舰组vs幽灵组(bgm38)
#7 - 2024-4-14 10:06
六、三围(cm)
共收录角色条目10416条。

平均数,中位数,标准差: 85.31, 85.0, 9.99
胸围最大的前三位:73955962999359
胸围最小的前三位:2829856287110951


平均数,中位数,标准差: 57.03, 57.0, 5.33
腰围最粗的前三位:99359739599362
腰围最细的前三位:1109512829876488


平均数,中位数,标准差: 83.60, 84.0, 7.41
臀围最大的前三位:99359739559629
臀围最小的前三位:958862829815267

备注:
1.        有三围数据的角色99%以上都是女性,这里就不统计性别了。
2.        由于舰娘角色的三围指的是本体的长、宽、吞水量,而非一般意义上的三围,所以从统计中排除。
3.        统计方法和身高体重一样,四舍五入到最近的cm。
4.        本次统计的黑名单:[12929, 20960]。

综上,根据中位数来说,一个标准的二次元美少女应该是:158cm,47kg,85/57/84。
#7-1 - 2024-4-14 10:28
Jirehlov
删除了回复
#7-2 - 2024-4-14 11:06
夕凪輪廻
点开胸围最大的我还以为能看到什么究极大波妹,结果都是什么玩意(bgm38)
#7-3 - 2024-4-14 11:24
Sawarin🎐
夕凪輪廻 说: 点开胸围最大的我还以为能看到什么究极大波妹,结果都是什么玩意
+1
#7-4 - 2024-4-14 11:49
1ra
夕凪輪廻 说: 点开胸围最大的我还以为能看到什么究极大波妹,结果都是什么玩意
你就说大不大吧(bgm38)
你要的究极大波妹:195443396257811
#7-5 - 2024-4-14 16:22
jibo babybaka
数据与图像严重不符(bgm51)
#7-6 - 2024-4-14 18:29
シャナ俺の嫁
1ra 说: 你就说大不大吧
就这?(bgm51)
#7-7 - 2024-4-14 19:53
ihanzeng1
nmd,胸围最大能只筛选女性吗?
#7-8 - 2024-4-14 20:54
1ra
ihanzeng1 说: nmd,胸围最大能只筛选女性吗?
已经发了,上面那个就是(bgm38)
#7-9 - 2024-4-17 16:30
桃沢花咲
删除了回复
#8 - 2024-4-14 10:11
七、一些杂七杂八的数据分析
相比身高体重,三围的标准差要小得多,不需使用IQR,一张表就可以涵盖绝大多数的分布(1%~99%)。这大概是因为有三围数据的大多都是人型生物的缘故?

分布方面,可以看出所有定量数据都是大致符合正态分布的。其中,可以很直观的看到性别是衡量虚拟角色身高和体重一个很好的指标:男性集中在(177,65),女性则集中在(158,47)左右。但在几乎只存在一种性别的三围数据中,情况是否也一样呢?
为了验证数据集中是否存在多峰分布,lz跑了次GMM聚类分析 ,结果如下(三行依次为B/W/H):

有意思的是,算法将胸围划分为了三大类。和腰、臀围不同,这是一个很明显的三峰分布,非常直观地反映了不同阿宅们的XP

从上列分析中不难看出:即使是在完全人造、虚构的世界中,只要创作者以及角色够多,最终人口数据也将是符合正态分布的。但与现实世界不同的是,这个分布会受观众的喜好影响而偏移与发散。
#8-1 - 2024-4-14 20:34
胸围的大胸高斯分布显然variation太大,不合理。而且看IC在3那已经骤降了。不如加一个对variation的regularization(就是小variation的prior)重新分析一下。
#8-2 - 2024-4-14 21:40
1ra
说: 胸围的大胸高斯分布显然variation太大,不合理。而且看IC在3那已经骤降了。不如加一个对variation的regularization(就是小variation的prior)重新分析一下。
据我所知,在不overfit的前提下,IC不是越低越好么,正是骤降才说明多峰分布的存在吧。例如腰、臀围,IC在n=8-9的时候才降(此时已经失去了可解释性),就是明显的单峰。
至于variation的问题,这已经是数据清理+去除异常值后的结果了。对贫乳来说,胸围最小一般也就50-60,受生理限制不能更小了。相比之下巨乳角色的数据更加放飞自我,标准差也比较高。
#8-3 - 2024-4-15 07:13
凛華
胸围感觉single Gaussian就够了。臀围有微小skew的可以用skew Gaussian, 也是single.
#8-4 - 2024-4-15 19:39
1ra 说: □ 说: 胸围的大胸高斯分布显然variation太大,不合理。而且看IC在3那已经骤降了。不如加一个对variation的regularization(就是小variation的prior)重新分析...
IC的数值方向是我记错了。不过还是觉得应该能得到更好的结果。数据和模型的方向都可以尝试。

数据上我猜超大胸围有一部分abnormality,所以用更多个峰IC还在继续降,我看那些更多的峰都是用来fit更右边更大胸围的abnormality的。同样,3峰的时候大胸分布的方差大也是因为想要fit右边的数据。我觉得简单的处理可以滤出女性数据看看,如果大胸分布的variation变小了,说明我的猜测是对的。另外可能男性数据不是多峰的,使得总体的3峰分布变得不那么漂亮。

模型上,我觉得除了小variation的prior (可以直接用GMM的precisions_init参数设置),还可以加上峰之间尽量要远离的限制:把峰值(即高斯均值)列成一个vector *归一化*后,算和全1 vector之间的距离,把这个距离的负值加入loss作为regularization。(不过这样就不能直接调GMM包了,可能有更好的办法
#9 - 2024-4-14 10:15
(待:天起凉风,日影飞去)
因为班固米的角色数据一直欠维护(各种格式错误和单位不统一)导致做这个纠错量非常大。你做了我一直想做没做的活(bgm24)
#9-1 - 2024-4-14 10:29
Jirehlov
56287胸围错了,改了
#10 - 2024-4-14 10:26
(心脏要逃走了。)
Mark
有空看看数据归档还能玩出什么花来(bgm24)
#10-1 - 2024-4-14 10:29
Sora
顺带一提我之前模拟打分测出来你站如果完全按照平均分+1-1打分,得出的标准差为1.59-1.6小数点后第二位波动。
#11 - 2024-4-14 10:26
这个人口普查挺有意思的。感觉正态分布挺多的。
#12 - 2024-4-14 11:13
(报与桃花一处开)
建议做个国籍统计
#13 - 2024-4-14 11:25
(轻拢慢捻抹复挑,初为妳尝后六咬,我是河豚我娇㜜!)
好活!资瓷!mark!
#14 - 2024-4-14 11:27
(大地に咲く一輪の花)
好活,辛苦。只可惜沒報戶口的太多了(
#15 - 2024-4-14 11:46
(psi!)
mark了(bgm67)
#16 - 2024-4-14 11:48
(回忆是珍珠。)
和我一样生日为2/29的共有62位...也不少了...
#17 - 2024-4-14 11:57
(喵~又是活力满满的一天,看点什么好呢)
我超,非常感谢
这样我就有办法继续完善我的目录了
#18 - 2024-4-14 12:31
有意思,这下能看出来某些趋势了(bgm36)
#19 - 2024-4-14 16:44
好活
#20 - 2024-4-14 16:52
(现实逃避)
好活
#21 - 2024-4-14 19:29
(一个萌豚)
好活!
#22 - 2024-4-14 19:37
(每个人都是庞然巨物)
好活
#23 - 2024-4-14 20:18
好活!
#24 - 2024-4-14 20:33
(考考你的呀)
(bgm72)mark,数据好活
#25 - 2024-4-14 22:45
(不好说)
好活!大力支持!
#26 - 2024-4-14 23:07
(眩しさだけは、忘れなかった)
好活,这数据还挺有意思
#27 - 2024-4-14 23:28
好活
#28 - 2024-4-15 07:14
赞!
#29 - 2024-4-15 07:23
但数据清理花了意外多的时间
哈哈,研究70%在做data cleaning不是开玩笑的
#30 - 2024-4-15 07:34
(私のツッコミは仕事です(w (吐槽ing)
mark
好活就要狠狠的支持(bgm01)
#31 - 2024-4-15 07:41
(プリズムの煌きよ!)
好好好
#32 - 2024-4-15 10:48
(今日无事,勾栏听曲)
好活,mark
#33 - 2024-4-15 14:31
(616.sb)
好活!
#34 - 2024-4-16 14:38
好!
#35 - 2024-4-17 00:57
想按照这个做一个生日查询了(bgm25)
#35-1 - 2024-4-17 13:09
1ra
说起这个,其实ACDB上已经有类似的功能了,没必要重复造轮子(