#1 - 2018-1-11 23:37
友人Bee⭐️v0.2 (只要能点格子就好了)
是你们在点格子嘛!(bgm38)
#2 - 2018-1-11 23:40
(不想干活)
刚刚去京紫条目页面 500 了一次
#3 - 2018-1-11 23:43
(どんどんドーナツどーんと行こう!)
是的,还让不让人愉快点格子了(bgm38)
#4 - 2018-1-11 23:53
看到你们也这样我就放心了
原来不止我一个(bgm38)
#5 - 2018-1-11 23:56
(请不要在未经许可时在本站外引用我在本站的任何留言 . ...)
我这里也是这样的,也不知道是不是因为设计上比较粗暴二五仔的爬虫变多了…(bgm38)
#5-1 - 2018-1-12 13:11
Franklin Yu
我覺得大多數爬蟲都是粗暴的……
#5-2 - 2018-1-12 16:07
闪耀Ene
什么是爬虫啊
#5-3 - 2018-1-12 17:25
柿子 - ⭐️VIP3
菲莉丝·艾利斯 说: 什么是爬虫啊
baidu.com/s?wd=爬虫
#5-4 - 2018-1-13 00:38
一只火龙果
请问不粗暴的爬虫是啥样的(bgm38)
#5-5 - 2018-1-13 09:22
Rくん
一只火龙果 说: 请问不粗暴的爬虫是啥样的
呃…一秒钟不要爬太多?b38
#5-6 - 2018-1-13 12:24
Vincent
一只火龙果 说: 请问不粗暴的爬虫是啥样的
比如我这种缩手缩脚的,1分钟一次,每次两三个条目,碰到502和404什么的站点爆炸,再休息几分钟...b38
#5-7 - 2018-1-13 13:02
Rくん
Vincent 说: 比如我这种缩手缩脚的,1分钟一次,每次两三个条目,碰到502和404什么的站点爆炸,再休息几分钟...b38
那不就是人肉操作嘛b38
#5-8 - 2018-1-13 13:59
Vincent
Rくん 说: 那不就是人肉操作嘛b38
因为我写脚本的时候就发现每天会炸几次,加上历史网站体验感觉服务器并不是很好,所以不敢太放肆
#5-9 - 2018-1-13 17:49
Rくん
Vincent 说: 因为我写脚本的时候就发现每天会炸几次,加上历史网站体验感觉服务器并不是很好,所以不敢太放肆
我感觉网站这么不稳定爬虫都不好工作(bgm38)
#5-10 - 2018-1-16 01:01
Rくん
Vincent 说: 因为我写脚本的时候就发现每天会炸几次,加上历史网站体验感觉服务器并不是很好,所以不敢太放肆
我想起来啦
去年老板吐槽过爬虫问题b38。
http://bgm.tv/user/sai/timeline/status/11742895
#6 - 2018-1-11 23:58
(中立邪恶)
(bgm38)我觉得各种时不时就爬一堆页面信息的脚本可能是主因(并不是特指,只是个人感觉
#7 - 2018-1-12 12:55
(在前往绝望的路途上闭眼狂奔)
每次都要重新登录,不知道是不是和我切换UA有关
#7-1 - 2018-1-12 13:10
咕咪
是,这里登录会认ua的。
#8 - 2018-1-12 13:55
(媛娇系是检验大法的唯一标准)
感觉不行就把recapcha开开吧
#8-1 - 2018-1-13 08:37
SeiKai
直接排除一堆404。。。
#9 - 2018-1-12 13:59
还以为只有我1个人在502
#10 - 2018-1-12 15:09
(喜欢胡言乱语)
好烦+1
#11 - 2018-1-12 15:13
+1,到底有多少爬虫在爬啊,能不能爱惜下服务器(bgm38)
#11-1 - 2018-1-12 17:26
柿子 - ⭐️VIP3
怎么就默认是爬虫的锅了啊喂(bgm38)
#12 - 2018-1-12 15:15
(你的爱还不够啊!)
会不会各种增强功能的 userjs 也推了一把(bgm38)
#13 - 2018-1-12 15:18
(素晴らしい作品の感動を共有して何が悪い! ... ... .. ...)
点你这帖子就502了一次
#14 - 2018-1-12 15:59
(不要偷懒了)
+2
#15 - 2018-1-12 16:05
(bgm上海努力起床小分队欢迎入驻,群号732285833。 ... ...)
晚上八点左右特别频繁
#16 - 2018-1-12 16:29
我觉得 user script 实际上用的人并不多,而且浏览器会限制同一个域的并发请求数,所以增加的压力应该不会很大(当然,如果一直不停请求也会有一些影响)
#17 - 2018-1-12 16:34
(どんまい、私〜☆)
不是一个人就放心了
#18 - 2018-1-12 17:43
(学会欣赏不完美)
应该不是我的锅巴,我的脚本全站只有不到30个人用(bgm38)
#19 - 2018-1-12 18:20
(Q, ∑, δ, q0, F)
竟然不是墙
#20 - 2018-1-12 20:20
(各种靓仔甜宠一个女主 18禁乙女向后宫即是正义! ... .. ...)
原来不止我一个就放心了
#21 - 2018-1-12 20:59
(《2001》天下第一!)
(bgm38)原来我不是一个人
#22 - 2018-1-12 22:39
(✨️VIP 8✨️)
听大佬说被人做成爬虫练习教程了:http://blog.dimpurr.com/bigdata-gumi/ (bgm38)
#22-1 - 2018-1-12 22:42
owl
一个个爬的那么起劲倒是把轮子弄成型啊(bgm38)
#22-2 - 2018-1-12 22:47
Sai
好了,那怎么判断一下给他塞点脏数据
#22-3 - 2018-1-12 22:53
VAner
我认为需要at一下 @Dimpurr
#22-4 - 2018-1-12 23:11
若卡
VenaR 说: 我认为需要at一下 @Dimpurr
.... 502具体什么原因还是只有能看后台的老板知道,链接纯属转发不代表个人任何意见 (bgm38)
#22-5 - 2018-1-12 23:11
黑藻
很好,下学期照着练手(
#22-6 - 2018-1-12 23:13
Vincent
联动,文章里面的部分参考来源
http://bgm.tv/group/topic/343652

补:感觉这年头看博客的已经很少了……这文章应该拉不了多少人来弄脚本(无责任瞎猜
#22-7 - 2018-1-12 23:31
windrises
2333 拿机器学习做评分预测的挺多呀  前几天在谷歌上搜资料偶然发现另一个大佬也在做bangumi的评分预测
#22-8 - 2018-1-12 23:33
VAner
若卡 说: .... 502具体什么原因还是只有能看后台的老板知道,链接纯属转发不代表个人任何意见
让当事人知情(
#22-9 - 2018-1-13 00:48
豆沙包罐头
我们需要教育一下钉子同学(bgm38)
#22-10 - 2018-1-13 02:53
dhzy
这种机器学习很好玩吗...
#22-11 - 2018-1-13 05:48
iuworks
这时候就显示出了把BGM做成去中心化服务的必要性。(bgm38)
#22-12 - 2018-1-13 20:52
Dimpurr
Sai 说: 好了,那怎么判断一下给他塞点脏数据
其实就爬了一次啦,这就成梗了 (bgm38) Sai 老板饶命
#23 - 2018-1-12 22:58
(ユーフェミア·リ·ブリタニア/Euphemia Li Britannia ...)
原来不止我一个(bgm38)
#24 - 2018-1-12 23:08
(ユーフェミア·リ·ブリタニア/Euphemia Li Britannia ...)
刚才又多次502(bgm38)
#25 - 2018-1-13 00:09
(你老婆真棒)
不能全部怪爬虫啊,被爬被机械学习几乎是没法避免的了,毕竟这种时代除非关站不然人家总有方法能爬到。只要用户能正常用那么爬虫就有方法。

讲真相比之下还不如完善下api,多搞些验证啥的比如开发者想要调用api必须得先申请等等。再针对开发者的请求进行优化,比如非活跃数据比如番组的各种详细介绍和状态等不像用户记录数据那样非得马上更新的可以做成静态页面丢给CDN减少服务器压力(

另外502应该就是chii.in和bangumi.tv这两个反代服务器连不上主机bgm.tv所以报错....如果直接用主域名bgm.tv的话直接看到的是cloudflare的缓存页面提示(也就是顶上有一条东西提示这网站挂了以下是没挂之前的缓存页面尽请欣赏)
#25-1 - 2018-1-13 00:49
豆沙包罐头
感觉应该精简地址选项,搞这么多奇奇怪怪的不是选择困难
#25-2 - 2018-1-13 01:30
GiGaFotress
豆沙包罐头 说: 感觉应该精简地址选项,搞这么多奇奇怪怪的不是选择困难
直接把A记录指向主服务器就好了么`为啥要用反代``
#25-3 - 2018-1-13 04:07
烈之斩
原来bgm.tv才是本体,一直以为bgm.tv是反代
#25-4 - 2018-1-13 05:54
iuworks
定期把数据库里的公开数据打包丢到BT下载里就能解决一切问题了
#25-5 - 2018-1-13 11:59
此间的少年x
iuworks 说: 定期把数据库里的公开数据打包丢到BT下载里就能解决一切问题了
这个主意好,支持
#25-6 - 2018-1-13 16:38
九重凛
豆沙包罐头(id: 36176) 说: 感觉应该精简地址选项,搞这么多奇奇怪怪的不是选择困难
可以多开啊,一个记录表,一个记录里,还可以用来打8.5分(bgm24)
#25-7 - 2018-1-13 16:39
九重凛
支持~
#26 - 2018-1-13 00:15
土豪站长该加服务器了(bgm24)
#27 - 2018-1-13 02:00
(脑洞已经比毛孔多了。)
每个月总有那么几天(bgm38)
#27-1 - 2018-1-13 03:52
padorax
只是这个月来的时间有点久(bgm74)
#27-2 - 2018-1-13 05:06
反手就是两刀
padorax 说: 只是这个月来的时间有点久
哦呀,这个表情难道是很不舒服的意思?(bgm38)
#27-3 - 2018-1-13 15:15
padorax
反手就是两刀 说: 哦呀,这个表情难道是很不舒服的意思?
(bgm70)
#28 - 2018-1-15 12:44
(ユーフェミア·リ·ブリタニア/Euphemia Li Britannia ...)
又502了,留个记录
#29 - 2018-1-15 14:06
(ユーフェミア·リ·ブリタニア/Euphemia Li Britannia ...)
again(bgm38)
#30 - 2018-1-15 14:08
(你的爱还不够啊!)




我算是什么样的 502 都见过了(bgm38)
#31 - 2018-1-16 01:53
(说到底那种现充宅,吾辈是绝对不会认同的! ... ... ... . ...)
程序猿们,是时候拿起你们的键盘,给bgm做几个镜像站了(bgm24)