#1 - 2019-6-28 17:53
windrises (一个纠结的面瘫伪宅)
https://dialogue.moe


简单来说就是查找对白的出处,与saucenao和whatanime类似,不过这个是检索对白的
能检索到具体的动画、集数和具体时间戳(由于没有人力去一个个确认,所以匹配出的动画和集数仅供参考,具体以下面的字幕文件名为准)
支持在特定动画中进行检索,支持去重

字幕文件都是从网上爬取的,目前数据库里有7700多个动画是有字幕的,有6500W多条对白
全文检索是用es实现的,服务器很烂,所以有点慢 求不要把服务姬弄疼了

其实不管是图像检索还是文本的全文检索,都已经有很成熟的算法了。麻烦的还是在于数据收集整理方面
由于文本容易构造,且存在跨作品的情况,所以对白检索能玩的地方就比画面检索多很多
除了可以根据文本在特定动画中检索其出现的时间戳,还可以:
1 、检索对白出现次数,比如千反田一共说了多少次“我很好奇”这种问题
2、 跨作品检索同一句对白,万恶之源到底是谁
3、 帮助寻找特定场景,比如你想做有关下雪的AMV,却不知道去哪找相关的视频素材,就可以以“雪”作为关键词去检索
4、 文本数据要比图像数据更好使用,一方面可以进行分词做些统计分析...
       另一方面由于前后的对白是存在逻辑关系的,因此可以拿来训练一些对话模型...
等等


一些碎碎念:
这个项目本来是我另外一个点子的副产品,那个点子做不下去了就想着搞点别的
数据收集整理用了一个星期,然后就进考期了,考完了又花了一星期现学了一下vue,顺便做了一下前后端 不务正业忙这个项目真是罪恶
前端真的丑,移动端适配更丑,先这样了求轻喷

这个项目应该会长期维护下去...吧  后续还会继续完善功能,以及拓展出别的点子
在毕业之前寒酸学生是没啥钱买好服务器了,如果用的人比较多的话,可能要么把之前做的bgmtools给停掉,或者学别人那样开启打钱功能了
由于.moe域名在大陆过不了审核,而国外的服务器又比较贵,同时速度捉急也容易被墙 然后大陆内我还有学生优惠,所以最后是把域名解析到香港的土豆服务器,然后再转发回大陆的服务器这样绕圈子,不知道各位有没有什么更好的解决办法

还有一些想说的都写在网站里了,工地英语见谅 暂时先啰嗦到这里吧
照例开源以及放出数据文件,https://github.com/windrises/dialogue.moe
照例求star以及求分享扩散!
欢迎提建议
#2 - 2019-6-28 18:11
(学会欣赏不完美)
这个是中文检索?为什么界面不做成中文?
#2-1 - 2019-6-28 18:14
windrises
一开始写的中文,后来感觉有点别扭...
#2-2 - 2019-6-28 18:24
君寻
windrises 说: 一开始写的中文,后来感觉有点别扭...
每部动画有多个版本字幕吗?能显示字幕组吗?
可以检索日文吗?这样就可以看看不同的翻译的区别了
#2-3 - 2019-6-28 18:27
君寻
裹番作品大合集,好像发现了奇怪的东西?
[Maho.sub] │пдлдщд║д├д╖дъе▀еыепе▌е├е╚ дкд┴бЁд▌д▀дыдп2▒н─┐
#2-4 - 2019-6-28 18:27
windrises
君寻 说: 每部动画有多个版本字幕吗?能显示字幕组吗?
可以检索日文吗?这样就可以看看不同的翻译的区别了
有多个版本 字幕组信息一般都写在字幕文件名上了
没有刻意去寻找日语字幕,也没有刻意去除日语字幕,这个取决于人家字幕组是否做了双语字幕
#2-5 - 2019-6-28 18:30
windrises
君寻 说: 裹番作品大合集,好像发现了奇怪的东西?
[Maho.sub] │пдлдщд║д├д╖дъе▀еыепе▌е├е╚ дкд┴бЁд▌д▀дыдп2▒н─┐
这种情况我注意到了,可能是原本的字幕名就这样,也可能是编码有问题。不过比较少见,然后就偷懒没去管
#3 - 2019-6-28 18:12
帅啊
#4 - 2019-6-28 18:28
(いいんです)

抓虫(
#4-1 - 2019-6-28 18:30
windrises
啊 感谢
#5 - 2019-6-28 18:58
(。´-д-)
厉害了!
#6 - 2019-6-28 19:46
(哼,资本主义者,骗得过正义吗)
超强
#7 - 2019-6-28 20:05
1.添加时间点与关键字联合搜索,这个功能实现难吗?这对于想在特定时间范围内查看是否出现对应台词的想法很有用
2.是否可以添加检索到的字幕文件的下载链接?如果服务器无法承受高流量,是否可以导向原始的下载地址?
3.是否可以显示直接跳转的页数,否则只能多次点击next page?
4.是否可以提供更多排序方式,如按出现时间先后,bgm的ID大小,动画名的升降序?
5.最后~这些字幕总共多大?如果在邮箱附件大小的限制范围内的话,也给我发一份好不好:)
#7-1 - 2019-6-28 20:07
yuzhan1990
哦还有一点,是否可以提供同一动画的字幕文件的去重功能?选中Remove duplication后还是有些字幕是对应同一个动画的
#7-2 - 2019-6-28 20:39
windrises
1.dialogue.moe其实是对标的saucenao和whatanime,他们的检索功能都很单一,我也不打算做的太复杂了 之前做的bgmtools就提供了一堆小功能,费时费力结果作用还不怎么大....
2.下载链接放出来很容易,但是我觉得是肯定不能放出来的 首先我觉得把别人翻译的结果展示出来可能就已经有侵权问题了,放出下载链接就更不好了 我也不想这个网站变成一个字幕搜索网站 另外如果想要字幕文件的话,完全可以去专门的字幕下载网站去搜索
3.页面跳转这个受限于es的检索机制,这里不多说,总之要想随便跳转的话代价会比较大,特别是服务器太渣了
4.同1
5.压缩之后一共有6个G吧,邮件是肯定发不了了,网盘分享的话效率也很低,也完全没必要下载这么多的字幕 实际上我在github里提供了几十M大小的字幕基本信息的文件,里面有每个动画对应的字幕,和字幕的下载链接等 我建议根据这个文件进行按照自己需求进行下载
#7-3 - 2019-6-28 20:40
windrises
yuzhan1990 说: 哦还有一点,是否可以提供同一动画的字幕文件的去重功能?选中Remove duplication后还是有些字幕是对应同一个动画的
这个我再考虑考虑有没有必要做
#8 - 2019-6-28 20:26
(总得做点什么)
牛逼网站。
#9 - 2019-6-28 20:55
反馈一个问题,我搜"龙破斩"的结果里有柯赛特的肖像这部动画的字幕,但我正好看过,完全没有龙破斩这个词,你看下哪里出问题了,为啥subtitle的ep是不对应的~
Subtitle: コゼットの肖像/珂赛特的肖像/Cossette no Shouzou
ep: [アニメ] スレイヤーズNEXT 第13話 「墜落寸前!野望のついえる時!」 (LD 640x480 WMV9)
#9-1 - 2019-6-28 21:36
windrises
谢谢 很神奇的问题,总之我手动修复了
#10 - 2019-6-28 21:01
(プリキュアなりたい)
#10-1 - 2019-6-28 21:08
windrises
名字匹配这个不是我做的,我是以动画名为关键词去搜的字幕
如果匹配出了问题,一方面说明这个动画比较冷门,找不到匹配的字幕
另一方面只能说字幕下载网站的搜索功能太烂了(bgm38)
总之以下面的字幕名为准吧
#10-2 - 2019-6-28 21:11
CureDovahkinn🤔
windrises 说: 名字匹配这个不是我做的,我是以动画名为关键词去搜的字幕
如果匹配出了问题,一方面说明这个动画比较冷门,找不到匹配的字幕
另一方面只能说字幕下载网站的搜索功能太烂了
总之以下面的字幕名为准吧
关键第一个是对的……
#10-3 - 2019-6-28 21:19
windrises
CureDovahkinn🤔 说: 关键第一个是对的……
我以火焰战士为关键词去字幕下载网站搜索,结果人家给我返回了游戏王的字幕,其实就是这么一回事
#10-4 - 2019-6-30 15:23
烈之斩
windrises 说: 我以火焰战士为关键词去字幕下载网站搜索,结果人家给我返回了游戏王的字幕,其实就是这么一回事
感觉这个的错误率过于高,可能后期用字幕文件名字重新索引一下比较好
#11 - 2019-6-28 21:22
这个搜索框不支持更多语法吗?我加双引号跟不加结果一样,加-号反而出更多结果了...
#12 - 2019-6-28 21:31
(www~)
mark
#13 - 2019-6-29 00:02
(Kill Ttsuxx.)
码住。
#14 - 2019-6-29 00:04
(Q, Σ, Γ, δ, q0, Z0, F)
不错,
#15 - 2019-6-29 01:04
(障子を開けよ、外の世界は広いぞ——豊田佐吉 ... ... ...)
很有意思的项目,已start
#16 - 2019-6-29 15:52
(怠け者)
支持啊,我很早之前就希望能有个这类的了(bgm90)
#17 - 2019-6-29 18:01
(希望你的明天也是幸福的一天)
搜高达W的人名/台词会同时搜出来铁甲飞天侠
bgm.tv/subject/37231
Subtitle处显示正常(也许是个别字幕的问题)
#18 - 2019-6-29 19:41
(动画党,喜补不喜追,偶尔碰下已/快完结漫画和无内购游戏 ...)
想搜“蛤”然后以后回避这些字幕组。结果出来不少乱码。
#18-1 - 2019-6-29 20:50
Cedar
原来还能这么用
#18-2 - 2019-6-30 11:49
windrises
编码问题确实头疼,我又检查了一遍,发现是一开始解压字幕压缩包时就出问题了 只能等下一次更新数据库时想办法解决了
#19 - 2019-6-30 12:20
(想找到那只蓝色猫)
等等没有截图吗
#20 - 2019-6-30 13:35
呜 我也在学information retrieval,我怎么就没想出来这么好的点子(bgm38)
#21 - 2019-6-30 15:24
(V1046-R MAHORO)
"remove duplication"这个说法很奇怪,个人觉得应该说“remove duplicates”。
#22 - 2019-7-1 04:43
(楼主的es是跑在什么上的
#22-1 - 2019-7-1 10:11
windrises
es和后端跑在内地的机器上,前端在香港
#23 - 2019-8-11 20:01
(动画党,喜补不喜追,偶尔碰下已/快完结漫画和无内购游戏 ...)
又发现一个字幕网站,供楼主补充。(bgm39)https://forer.cn/%E5%AD%97%E5%B9%95%E4%B8%8B%E8%BD%BD
《夏之岚》的外挂字幕在射手网和VCB都找不到,在这里找到了。试着dialogue里“给点盐”搜不到夏之岚,应该是库里没有。
#23-1 - 2019-8-11 20:16
windrises
感谢 我先收藏着
其实除了字幕不全的问题,字幕与动画匹配的问题更大,因为需要人力去一个个复查
之后打算做个可视化的后台来复查,或者开放接口让网友来帮忙上传和甄选字幕(bgm38)
#24 - 2019-8-11 20:18
(爱动漫,宅!‮‮‮‮‮‮‮‮‮‮‮‮ ... ... )
给大佬点赞! 学生时代真好~ 有idea就去实现

社畜之后,真的被社会折磨的只想咸鱼了。。。
#24-1 - 2019-8-11 20:30
windrises
(bgm38)
别人都在好好学习,我却把时间都花在这些上面好罪恶
社畜加油,我其实挺期待社畜生活的(bgm38)
#24-2 - 2019-8-11 20:32
≮雪月秋水☆
windrises 说:
别人都在好好学习,我却把时间都花在这些上面好罪恶
社畜加油,我其实挺期待社畜生活的
我大学时代也是这么想的 (bgm38)
#24-3 - 2019-8-11 20:34
windrises
≮雪月秋水☆ 说: 我大学时代也是这么想的
(bgm38)
#25 - 2019-8-11 20:49
(醒着笑了,哭了累了,困了睡着,不都妈生的 ... ... ... ... ...)
战略性mark!