#1 - 2019-6-28 17:53
windrises (一个纠结的面瘫伪宅)
https://dialogue.moe
简单来说就是查找对白的出处,与saucenao和whatanime类似,不过这个是检索对白的
能检索到具体的动画、集数和具体时间戳(由于没有人力去一个个确认,所以匹配出的动画和集数仅供参考,具体以下面的字幕文件名为准)
支持在特定动画中进行检索,支持去重
字幕文件都是从网上爬取的,目前数据库里有7700多个动画是有字幕的,有6500W多条对白
全文检索是用es实现的,服务器很烂,所以有点慢 求不要把服务姬弄疼了
其实不管是图像检索还是文本的全文检索,都已经有很成熟的算法了。麻烦的还是在于数据收集整理方面
由于文本容易构造,且存在跨作品的情况,所以对白检索能玩的地方就比画面检索多很多
除了可以根据文本在特定动画中检索其出现的时间戳,还可以:
1 、检索对白出现次数,比如千反田一共说了多少次“我很好奇”这种问题
2、 跨作品检索同一句对白,万恶之源到底是谁
3、 帮助寻找特定场景,比如你想做有关下雪的AMV,却不知道去哪找相关的视频素材,就可以以“雪”作为关键词去检索
4、 文本数据要比图像数据更好使用,一方面可以进行分词做些统计分析...
另一方面由于前后的对白是存在逻辑关系的,因此可以拿来训练一些对话模型...
等等
一些碎碎念:
这个项目本来是我另外一个点子的副产品,那个点子做不下去了就想着搞点别的
数据收集整理用了一个星期,然后就进考期了,考完了又花了一星期现学了一下vue,顺便做了一下前后端 不务正业忙这个项目真是罪恶
前端真的丑,移动端适配更丑,先这样了求轻喷
这个项目应该会长期维护下去...吧 后续还会继续完善功能,以及拓展出别的点子
在毕业之前寒酸学生是没啥钱买好服务器了,如果用的人比较多的话,可能要么把之前做的bgmtools给停掉,或者学别人那样开启打钱功能了
由于.moe域名在大陆过不了审核,而国外的服务器又比较贵,同时速度捉急也容易被墙 然后大陆内我还有学生优惠,所以最后是把域名解析到香港的土豆服务器,然后再转发回大陆的服务器这样绕圈子,不知道各位有没有什么更好的解决办法
还有一些想说的都写在网站里了,工地英语见谅 暂时先啰嗦到这里吧
照例开源以及放出数据文件,https://github.com/windrises/dialogue.moe
照例求star以及求分享扩散!
欢迎提建议
简单来说就是查找对白的出处,与saucenao和whatanime类似,不过这个是检索对白的
能检索到具体的动画、集数和具体时间戳(由于没有人力去一个个确认,所以匹配出的动画和集数仅供参考,具体以下面的字幕文件名为准)
支持在特定动画中进行检索,支持去重
字幕文件都是从网上爬取的,目前数据库里有7700多个动画是有字幕的,有6500W多条对白
全文检索是用es实现的,服务器很烂,所以有点慢 求不要把服务姬弄疼了
其实不管是图像检索还是文本的全文检索,都已经有很成熟的算法了。麻烦的还是在于数据收集整理方面
由于文本容易构造,且存在跨作品的情况,所以对白检索能玩的地方就比画面检索多很多
除了可以根据文本在特定动画中检索其出现的时间戳,还可以:
1 、检索对白出现次数,比如千反田一共说了多少次“我很好奇”这种问题
2、 跨作品检索同一句对白,万恶之源到底是谁
3、 帮助寻找特定场景,比如你想做有关下雪的AMV,却不知道去哪找相关的视频素材,就可以以“雪”作为关键词去检索
4、 文本数据要比图像数据更好使用,一方面可以进行分词做些统计分析...
另一方面由于前后的对白是存在逻辑关系的,因此可以拿来训练一些对话模型...
等等
一些碎碎念:
这个项目本来是我另外一个点子的副产品,那个点子做不下去了就想着搞点别的
数据收集整理用了一个星期,然后就进考期了,考完了又花了一星期现学了一下vue,顺便做了一下前后端 不务正业忙这个项目真是罪恶
前端真的丑,移动端适配更丑,先这样了求轻喷
这个项目应该会长期维护下去...吧 后续还会继续完善功能,以及拓展出别的点子
在毕业之前寒酸学生是没啥钱买好服务器了,如果用的人比较多的话,可能要么把之前做的bgmtools给停掉,或者学别人那样开启打钱功能了
由于.moe域名在大陆过不了审核,而国外的服务器又比较贵,同时速度捉急也容易被墙 然后大陆内我还有学生优惠,所以最后是把域名解析到香港的土豆服务器,然后再转发回大陆的服务器这样绕圈子,不知道各位有没有什么更好的解决办法
还有一些想说的都写在网站里了,工地英语见谅 暂时先啰嗦到这里吧
照例开源以及放出数据文件,https://github.com/windrises/dialogue.moe
照例求star以及求分享扩散!
欢迎提建议
可以检索日文吗?这样就可以看看不同的翻译的区别了
[Maho.sub] │пдлдщд║д├д╖дъе▀еыепе▌е├е╚ дкд┴бЁд▌д▀дыдп2▒н─┐
没有刻意去寻找日语字幕,也没有刻意去除日语字幕,这个取决于人家字幕组是否做了双语字幕
2.下载链接放出来很容易,但是我觉得是肯定不能放出来的 首先我觉得把别人翻译的结果展示出来可能就已经有侵权问题了,放出下载链接就更不好了 我也不想这个网站变成一个字幕搜索网站 另外如果想要字幕文件的话,完全可以去专门的字幕下载网站去搜索
3.页面跳转这个受限于es的检索机制,这里不多说,总之要想随便跳转的话代价会比较大,特别是服务器太渣了
4.同1
5.压缩之后一共有6个G吧,邮件是肯定发不了了,网盘分享的话效率也很低,也完全没必要下载这么多的字幕 实际上我在github里提供了几十M大小的字幕基本信息的文件,里面有每个动画对应的字幕,和字幕的下载链接等 我建议根据这个文件进行按照自己需求进行下载
如果匹配出了问题,一方面说明这个动画比较冷门,找不到匹配的字幕
另一方面只能说字幕下载网站的搜索功能太烂了
总之以下面的字幕名为准吧
其实除了字幕不全的问题,字幕与动画匹配的问题更大,因为需要人力去一个个复查
之后打算做个可视化的后台来复查,或者开放接口让网友来帮忙上传和甄选字幕
别人都在好好学习,我却把时间都花在这些上面好罪恶
社畜加油,我其实挺期待社畜生活的
难蚌这才过了多久又找上我了