#1 - 2022-3-30 13:38
冈崎羽未鹰原汐 (二阶堂芽爱 小河坂青空)
Umi-OCR 批量文字识别工具

这是一个适用于 Win10 x64 平台的离线OCR文字识别软件。支持截屏识别、粘贴图片,支持批量导入本地图片,将OCR结果输出到软件面板或本地文件。

项目地址:https://github.com/hiroi-sora/Umi-OCR

2022.11.4 更新v1.3.1版本:

    · 修Bug:解决截图快捷键几率失效、录制不正确等Bug。
    · 新功能:添加开机自启,桌面快捷方式,开始菜单快捷方式。
    · 新功能:截图时隐藏窗口。
    · 优化:`横排-合并多行-自然段` 优化逻辑,支持0~2全角空格首行缩进。

2022.9.29 更新v1.3.0版本:

    · 框选截屏:即时截屏,框选想要的区域,调用OCR。
    · 系统托盘:可将软件最小化到系统托盘区隐藏。
    · 进程常驻:省去零碎任务的初始化时间。截图识别/剪贴板识别的耗时比前代减少50%以上。
    · 文本块后处理:智能匹配并合并同一段落不同行的文字。可识别自然段。支持对竖排文本的排序和整理。
    · 重制UI:各功能按钮及参数配置页有了更直观的UI,鼠标悬停可显示提示框。
    · 自定义字体:软件输出面板的字体样式、大小可修改。


本来只是我一时兴起写的娱乐性质的小软件,不知不觉已经2.4k⭐了。经过几个月的迭代,尤其是9月份的爆肝,她的功能越来越丰富,成长得越来越完善。不少我最初根本没有预想的功能,也在用户的要求下加入了项目。总之挺感慨(bgm38)


惯例,夏兜镇楼:


==========以==下==原==贴==================

"为了管理几千张图片,写了个批量离线文字识别(OCR)软件"

我喜欢玩游戏或看番的时候截图,像拍摄下旅途的风景一样,以后翻看是一份美好的回忆。不知不觉已经积累了 7000 9000 10000 多张。带来了一个问题,如果想根据某段台词找到某张截图需要一张张翻找,很麻烦。
于是就写了个批量文字识别软件,把图片译为文本。然后直接在文本中Ctrl+f,很方便。

本软件拥有专门针对视频截图和游戏截图特化的功能:忽略区域。可以屏蔽掉视频右上角水印和游戏的UI,输出干干净净的台词文本。



除了上述简单用法外,还有配置“条件判断双重忽略区域”的进阶功能,专门针对批量处理Galgame截图,能有效地清除“对话模式”和“历史模式”这两种界面下的不同UI。



如果你有将本地图片转为文字的需求,如果你有大量视频、游戏、漫画、三次元照片想建立文本索引以方便查找,如果你有一堆小说截图想转换为文本——欢迎尝试本软件。
识别引擎是离线 PaddleOCR ,无需联网。本软件无需安装,解压即用。自带中文+日文识别库,支持添加别国语言的 Paddle 官方模型或自己训练的模型,详见项目页面。

下载地址及详细使用说明:https://github.com/hiroi-sora/Umi-OCR

As you like my pleasure.
#2 - 2022-3-30 13:50
(二阶堂芽爱 小河坂青空)
前 情 提 要 :

一年前我就写了个简单的ocr程序,当时用的是百度云在线OCR接口,直到半年前发生了这档事
于是 痛(咕)定(了)思(半)痛(年) 后,终于换成了离线OCR模块,自己编译的 PaddleOCR C++版。还写了图形界面,完善了“忽略区域”功能。
惊喜地发现,无论是速度还是识别准确率,离线OCR都优于原先的百度云在线接口。

终于可以愉快地浏览珍藏的本地图库了!(bgm24)

如果你也想用python或其他语言方便地调用离线PaddleOCR,又不想花成吨的时间搭建开发环境,可以尝试下我编译好的命令行程序:https://github.com/hiroi-sora/PaddleOCR-json。它接受图片路径输入,然后输出识别结果json字符串。(我c++写得很烂,求轻喷(bgm38))
#3 - 2022-3-30 13:54
(二阶堂芽爱 小河坂青空)
@hikki- 这就是你要的管理截图程序……虽然已经是半年后了(bgm38)
感谢 @frank1998sj 当初的提议,梦开始的地方(bgm31)
以及 @狂犬榨汁姬艾莉丝
#3-1 - 2022-3-30 15:42
hikki-
俺都忘了这事了来着。。阿里嘎多(bgm38)晚上试试
#3-2 - 2022-4-8 09:50
frank1998sj
牛哇牛哇
#4 - 2022-3-30 13:56
(小圣杯邀请码: whyjxz14#576501)
你能不能演示一下。




不要停下来啊!
#5 - 2022-3-30 14:01
(宅男会虚构虚构老婆倒贴给虚构自己这件事究竟有什么错)
可以的,这个点赞。
#6 - 2022-3-30 14:03
(‮ ‮))))))))))))))))))))))))))))))))‮)
好东西(bgm38)
#7 - 2022-3-30 14:14
(追番日益,补番日损)
好!想要这样的东西很久了
#8 - 2022-3-30 14:15
(已淡出bgm38)
我记得有个可以搜动漫台词的网站
#9 - 2022-3-30 14:15
(好)
好东西!
#10 - 2022-3-30 14:16
(miaow~~~)
马克
#11 - 2022-3-30 14:21
(。´-д-)
看番时有考虑过直接搜索字幕么?
#11-1 - 2022-3-30 14:25
冈崎羽未鹰原汐
其实这个软件最初的目的就只是为了处理galgame截图(bgm38)看番的时候我反而不会截那么多图……
#11-2 - 2022-3-30 15:28
Cedar
冈崎羽未鹰原汐 说: 其实这个软件最初的目的就只是为了处理galgame截图看番的时候我反而不会截那么多图……
啊..gal截图那还是得OCR
#12 - 2022-3-30 14:22
(‮rettiw‭t)
删除了回复
#13 - 2022-3-30 14:43
(永远热爱)
强!标记一下,以后说不定用得上
#14 - 2022-3-30 14:48
(nobody cares.)
you need an iphone, but anyway gj.

#14-1 - 2022-4-9 17:02
W
+1 這個意外得好用, 而且是用已有設備的 ML 加速晶片離線計算的.
#14-2 - 2022-10-28 23:16
頂上ノ月🌙
iPhone每次保存图片都会自动ocr嘛?
#15 - 2022-3-30 16:22
(这世上只有一种英雄主义。)
好东西 支持!
#16 - 2022-3-30 16:56
工作上感觉也很有用(bgm38)
#17 - 2022-3-30 19:12
mark
#17-1 - 2022-3-30 19:15
你好F8
头像是不笑猫吗
#17-2 - 2022-3-30 19:39
ceng网
你好F8 说: 头像是不笑猫吗
是的
#18 - 2022-3-30 19:15
(整衣正色 往南三拜 焚琴煮鹤 挂印封金 ... ...)
好东西
#19 - 2022-3-30 19:31
加星先(bgm105)
#20 - 2022-3-30 19:34
好的 前来支持(
#21 - 2022-3-30 19:37
好东西 mark
#22 - 2022-3-30 20:02
#23 - 2022-3-30 20:19
(是萌豚哒❗)
看看
#24 - 2022-3-30 20:25
(縱置身於極限狀態下,仍抱持意誌與尊嚴,此姿態堪稱美妙 . ...)
mark
#25 - 2022-3-30 20:58
(世界以其不变的意志,将你我于时间上涂写为痕 ...)
感谢你做出贡献(bgm24)
#26 - 2022-3-30 21:07
(月之背面研习中~~)
mark
#27 - 2022-3-30 21:47
(神圣从未远去,神圣一直都在。)
这可是好东西啊!
#28 - 2022-3-30 22:29
(点格子用户)
mark
#29 - 2022-3-30 22:29
(水、食物、住所)
mark,同样有截屏的习惯(bgm62)
#30 - 2022-3-30 22:35
mark一下,十分感谢分享
#31 - 2022-3-30 22:44
mark~
#32 - 2022-3-30 23:01
好顶赞!感觉用来 OCR 视频的硬字幕会非常好用

(再稍微加点料好像真的能做出来……直接识别整个视频字幕的 OCR 软件

另外请问能添加支持 win7 吗?
#32-1 - 2022-3-30 23:32
熏橗
已经有非常好用的硬字幕提取软件
#32-2 - 2022-3-31 00:11
冈崎羽未鹰原汐
同楼上,实时屏幕识别的工具已经有很多,不止视频硬字幕,对gal生肉的实时屏幕OCR翻译也有现成的工具。

至于win7,我没测过支持不支持。反正python相关的主界面模块肯定是没问题(大不了换成py3.8版本),但c++的PaddleOCR引擎不保证能跑起来。不过,一些可能依赖win10的运行库我也已经扔到发行版里面去了,也许能在缺失这些库的系统上跑起来?帮我试试?(bgm38)

隔壁某些采用PaddleOCR引擎的天若OCR开源版本也更新了win7支持,所以理论上是没有阻碍的。
#32-3 - 2022-3-31 02:27
弥御水Scyiki
熏橗 说: 已经有非常好用的硬字幕提取软件了
这软件的设置太复杂了吧?(bgm38)有空再研究研究
#32-4 - 2022-3-31 02:38
弥御水Scyiki
冈崎羽未鹰原汐 说: 同楼上,实时屏幕识别的工具已经有很多,不止视频硬字幕,对gal生肉的实时屏幕OCR翻译也有现成的工具。

至于win7,我没测过支持不支持。反正python相关的主界面模块肯定是没问题(大不了换成py...
我的 win7 先是报错:



下载好相应的 dll 文件后,又报错:



win7 想要跑起来得换 py3.8,py3.9 以上不支持 win7 运行。后面还有没有坑就不知道了(bgm38)

另外我的意思不是实时识别,是把一个下载好的视频(尤其是古老的内嵌字幕的动画)识别出有字幕的帧并输出成图片,然后批量提取字幕出来,把内嵌的字幕转换成外挂字幕。你的这个工具简单易用,更好上手,我实际体验了之后感觉可行。
#32-5 - 2022-3-31 08:13
冈崎羽未鹰原汐
弥御水Scyiki 说: 后面还有没有坑就不知道了
嗯,整了个虚拟机试了下,PaddleOCR引擎也没能跑起来。有空我会研究研究的(bgm38)
#33 - 2022-3-30 23:31
(Dream a dream)
太好了,先mark
#34 - 2022-3-30 23:54
客户买的百度的ocr识别发票,每个月总能出两三次幺蛾子(bgm38)
#34-1 - 2022-3-31 00:19
冈崎羽未鹰原汐
而且我之前一直认为百度在线OCR的准确度肯定比本地强的,毕竟专门的商用服务器有更大的算力,可以跑最新的完整版模型。结果发现本地跑轻量级模型准确度也完全不输在线,速度还更快,惊了(bgm38)
#35 - 2022-3-31 00:09
考虑过上微软商店末(bgm38)
#35-1 - 2022-3-31 00:16
冈崎羽未鹰原汐
好像只能上架UWP应用?(bgm38)
#35-2 - 2022-3-31 09:26
persona
冈崎羽未鹰原汐 说: 好像只能上架UWP应用?
(学一下,很快的啦(bgm38)
#35-3 - 2022-3-31 09:29
persona
冈崎羽未鹰原汐 说: 好像只能上架UWP应用?
已给星星(bgm85)
#36 - 2022-3-31 00:25
牛啊牛啊
#37 - 2022-3-31 00:34
(✨️make bangumi great again✨️)
(bgm37)支持自己动手丰衣足食
#38 - 2022-3-31 00:45
感谢分享。
能写出满足自己需求的工具真好。
#38-1 - 2022-3-31 00:49
腾文鱼
话说ocr结束后是在哪里保存文字与图片的映射吗?还是每次搜索重新识别?
#38-2 - 2022-3-31 08:18
冈崎羽未鹰原汐
滕文鱼 说: 话说ocr结束后是在哪里保存文字与图片的映射吗?还是每次搜索重新识别?
默认存放在第一张图片的根目录下。你也可以去软件的“设置”选项卡里,设置想要的存放路径和文件名;或者禁用本地文件输出(bgm24)

这个软件的定位只是“转换”;没有“搜索”的功能。用记事本或者vscode来在文本中搜索吧

(当然也想过做个图片浏览器的机能,软件里可以搜索文本、预览对应的图片。不过好像没太大必要?(bgm38)
#39 - 2022-3-31 08:42
(That can not continue.)
可以,要是半年前有这个就可以让同事拿去改改提取数据了惹(bgm38)
#40 - 2022-3-31 12:24
(二阶堂芽爱 小河坂青空)
TODO:又想到了一个点子,输出文本改为markdown格式,嵌入图片地址。这样就可以用浏览器或vscode查看图文并茂的内容了!ctrl+f之后也能快速预览这张图片是不是自己想要的。

2022.4.8 本功能开发完毕 √
#40-1 - 2022-5-31 15:20
冈崎羽未鹰原汐
新功能get √
#41 - 2022-3-31 17:33
(为了理解彼此,反复交换各式各样的话语吧 ...)
拍砖mark,睡醒了上去star
#42 - 2022-3-31 20:10
mark。。。
#43 - 2022-4-1 15:49
(不要指导捏)
mark
#44 - 2022-4-2 04:05
(子供ですが何か?)
mark
#45 - 2022-4-2 04:36
(公众号:冷静的历史碎片。B站:满舰饰假子。 ... ... ...)
看不懂,只能高呼斯国一,斯巴拉西
#46 - 2022-4-3 21:30
(你好贱哦(挖坟回复放题)
今天拿来抄作业用了,谢谢老板(bgm24)
#47 - 2022-4-4 01:14
(運命の果実を…一緒に食べよう!)
mark
#48 - 2022-4-8 11:24
(在水中思考)
挺好用的,但是很多图也没文字,对于一个仓鼠来说,我也很愁手机电脑里的上万张图该怎么处理
#49 - 2022-4-8 12:46
(あの女の子は過酷な戦場に舞う、まるで精霊のようだっ ...)
厉害...
#50 - 2022-4-8 19:43
哇 好东西 厉害!
#51 - 2022-4-8 19:55
干得好,真的干得好。
非常有趣,非常有用。
这是否意味着我可以将整个 pdf 书籍导出为图像,然后将它们转换为文本文档?
#51-1 - 2022-4-9 00:13
冈崎羽未鹰原汐
感谢(bgm105)

pdf转文字有很多方案,比如OCRmyPDF。网上也能搜到各种在线工具~~这些工具可以提取文字在原文档中的位置,或干脆嵌入原文档,让你可以在图片pdf里面ctrl+f。
当然,如果只想生成纯文本,我的软件应该也挺好用的(bgm38)
#52 - 2022-4-8 20:01
(Make that money;Watch it burn)
感觉会很有用!
#53 - 2022-4-10 16:19
#54 - 2022-4-11 22:44
(好累)
mark
#55 - 2022-4-12 21:56
Mark
#56 - 2022-4-12 23:06
#57 - 2022-5-31 15:37
(chanceyan)
mark
#58 - 2022-6-7 19:08
(都是异端!)
还有多语言和文本方向识别。。
我感觉比我现在买的ocr还好用。。。之前买的itext一个月几块钱 还不支持竖排文字(bgm35)(bgm38)
#59 - 2022-6-14 22:10
mark,我也是有转文字的需求,这工具好有用!感谢开发(bgm32)
#60 - 2022-6-14 22:21
(憎恨所憎恨)
mark,回头安装试试管理别的东西。
#61 - 2022-6-14 22:28
(๑•̀ω•́๑)
mark一下
#62 - 2022-9-1 19:35
(二阶堂芽爱 小河坂青空)
啊哈哈哈,新版本来咯!(bgm38)
#63 - 2022-9-1 19:41
(追番日益,补番日损)
果然二次元头像的github开发者都很厉害!
#63-1 - 2022-9-1 23:38
冈崎羽未鹰原汐
厉害算不上,只是小二次元才喜欢整这些花里胡哨的玩意而已(bgm38)
#64 - 2022-9-1 20:32
(不跌落底层。和爱的人同在。保持尊严,承担责任,尽量善良 ...)
标记一下
#65 - 2022-9-2 06:09
(Search your feelings. You know it to be true.)
mark
#66 - 2022-9-2 06:30
(more power!)
好东西,爱了。
#67 - 2022-9-29 03:09
(二阶堂芽爱 小河坂青空)
9月底爆肝更新完毕!

这个月业余时间全在写这家伙,动画片都没怎么看了,555 (bgm38)
#67-1 - 2022-11-4 21:44
冈崎羽未鹰原汐
10月份修Bug更新完毕。
#68 - 2022-10-28 22:01
(尊重,理解,包容)
mark
#68-1 - 2022-10-30 17:30
#69 - 2022-10-28 22:06
(Im/possible.)
支持支持~
#70 - 2022-10-28 23:05
说,感谢umi酱(bgm24)
#70-1 - 2022-10-30 17:19
#71 - 2022-10-29 01:30
mark
顺便说一句,已经2.5star了。
#72 - 2022-10-29 13:59
感谢umi酱!
#73 - 2022-10-29 14:17
(まずはその幻想をぶち殺す)
mark
#74 - 2022-10-30 17:47
#75 - 2022-11-4 23:16
#76 - 2022-11-6 00:48
(社畜です。)
手抄党的大胜利(bgm38)
#77 - 2022-11-6 01:14
mark
#78 - 2023-10-3 22:07
mark,感谢捏