～技术宅真可怕～ » 讨论
Umi-OCR 离线文字识别软件 [ 2022.11.4 更新v1.3.1]

#1 - 2022-3-30 13:38

冈崎羽未鹰原汐 (二阶堂芽爱小河坂青空)

Umi-OCR 批量文字识别工具

这是一个适用于 Win10 x64 平台的离线OCR文字识别软件。支持截屏识别、粘贴图片，支持批量导入本地图片，将OCR结果输出到软件面板或本地文件。

项目地址：https://github.com/hiroi-sora/Umi-OCR

2022.11.4 更新v1.3.1版本：

· 修Bug：解决截图快捷键几率失效、录制不正确等Bug。
· 新功能：添加开机自启，桌面快捷方式，开始菜单快捷方式。
· 新功能：截图时隐藏窗口。
· 优化：`横排-合并多行-自然段` 优化逻辑，支持0~2全角空格首行缩进。

2022.9.29 更新v1.3.0版本：

· 框选截屏：即时截屏，框选想要的区域，调用OCR。
· 系统托盘：可将软件最小化到系统托盘区隐藏。
· 进程常驻：省去零碎任务的初始化时间。截图识别/剪贴板识别的耗时比前代减少50%以上。
· 文本块后处理：智能匹配并合并同一段落不同行的文字。可识别自然段。支持对竖排文本的排序和整理。
· 重制UI：各功能按钮及参数配置页有了更直观的UI，鼠标悬停可显示提示框。
· 自定义字体：软件输出面板的字体样式、大小可修改。

本来只是我一时兴起写的娱乐性质的小软件，不知不觉已经2.4k⭐了。经过几个月的迭代，尤其是9月份的爆肝，她的功能越来越丰富，成长得越来越完善。不少我最初根本没有预想的功能，也在用户的要求下加入了项目。总之挺感慨 (bgm38)

惯例，夏兜镇楼：

==========以==下==原==贴==================

"为了管理几千张图片，写了个批量离线文字识别(OCR)软件"

我喜欢玩游戏或看番的时候截图，像拍摄下旅途的风景一样，以后翻看是一份美好的回忆。不知不觉已经积累了 7000 9000 10000 多张。带来了一个问题，如果想根据某段台词找到某张截图需要一张张翻找，很麻烦。
于是就写了个批量文字识别软件，把图片译为文本。然后直接在文本中Ctrl+f，很方便。

本软件拥有专门针对视频截图和游戏截图特化的功能：忽略区域。可以屏蔽掉视频右上角水印和游戏的UI，输出干干净净的台词文本。

除了上述简单用法外，还有配置“条件判断双重忽略区域”的进阶功能，专门针对批量处理Galgame截图，能有效地清除“对话模式”和“历史模式”这两种界面下的不同UI。

如果你有将本地图片转为文字的需求，如果你有大量视频、游戏、漫画、三次元照片想建立文本索引以方便查找，如果你有一堆小说截图想转换为文本——欢迎尝试本软件。
识别引擎是离线 PaddleOCR ，无需联网。本软件无需安装，解压即用。自带中文+日文识别库，支持添加别国语言的 Paddle 官方模型或自己训练的模型，详见项目页面。

下载地址及详细使用说明：https://github.com/hiroi-sora/Umi-OCR

As you like my pleasure.

#2 - 2022-3-30 13:50

冈崎羽未鹰原汐 (二阶堂芽爱小河坂青空)

前情提要：

一年前我就写了个简单的ocr程序，当时用的是百度云在线OCR接口，直到半年前发生了这档事。
于是痛(咕)定(了)思(半)痛(年) 后，终于换成了离线OCR模块，自己编译的 PaddleOCR C++版。还写了图形界面，完善了“忽略区域”功能。
惊喜地发现，无论是速度还是识别准确率，离线OCR都优于原先的百度云在线接口。

终于可以愉快地浏览珍藏的本地图库了！ (bgm24)

如果你也想用python或其他语言方便地调用离线PaddleOCR，又不想花成吨的时间搭建开发环境，可以尝试下我编译好的命令行程序：https://github.com/hiroi-sora/PaddleOCR-json。它接受图片路径输入，然后输出识别结果json字符串。(我c++写得很烂，求轻喷 (bgm38)

)

#3 - 2022-3-30 13:54

冈崎羽未鹰原汐 (二阶堂芽爱小河坂青空)

@hikki- 这就是你要的管理截图程序……虽然已经是半年后了 (bgm38)

感谢 @frank1998sj 当初的提议，梦开始的地方 (bgm31)

以及 @狂犬榨汁姬艾莉丝

#3-1 - 2022-3-30 15:42

hikki-

俺都忘了这事了来着。。阿里嘎多 (bgm38)

晚上试试

#3-2 - 2022-4-8 09:50

frank1998sj

牛哇牛哇

#4 - 2022-3-30 13:56

OH_toothache (小圣杯邀请码: whyjxz14#576501)

你能不能演示一下。

不要停下来啊！

#5 - 2022-3-30 14:01

板砖加身 (宅男会虚构虚构老婆倒贴给虚构自己这件事究竟有什么错)

可以的，这个点赞。

#6 - 2022-3-30 14:03

匿名入土69602 (‮ ‮))))))))))))))))))))))))))))))))‮)

好东西

#7 - 2022-3-30 14:14

Another (追番日益，补番日损)

好！想要这样的东西很久了

#8 - 2022-3-30 14:15

君寻 (已淡出bgm38)

我记得有个可以搜动漫台词的网站

#9 - 2022-3-30 14:15

ぁまぃあゃ (好)

好东西！

#10 - 2022-3-30 14:16

MousHu (miaow~~~)

马克

#11 - 2022-3-30 14:21

Cedar (｡´-д-)

看番时有考虑过直接搜索字幕么？

#11-1 - 2022-3-30 14:25

冈崎羽未鹰原汐

其实这个软件最初的目的就只是为了处理galgame截图 (bgm38)

看番的时候我反而不会截那么多图……

#11-2 - 2022-3-30 15:28

Cedar

冈崎羽未鹰原汐说: 其实这个软件最初的目的就只是为了处理galgame截图看番的时候我反而不会截那么多图……

啊..gal截图那还是得OCR

#12 - 2022-3-30 14:22

‭ (‮rettiw‭t)

删除了回复

#13 - 2022-3-30 14:43

春雀 (永远热爱)

强！标记一下，以后说不定用得上

#14 - 2022-3-30 14:48

徒手开根号二 (nobody cares.)

you need an iphone, but anyway gj.

#14-1 - 2022-4-9 17:02

+1 這個意外得好用, 而且是用已有設備的 ML 加速晶片離線計算的.

#14-2 - 2022-10-28 23:16

頂上ノ月🌙

iPhone每次保存图片都会自动ocr嘛?

#15 - 2022-3-30 16:22

ETO灬XL (这世上只有一种英雄主义。)

好东西支持！

#16 - 2022-3-30 16:56

牛马

工作上感觉也很有用

#17 - 2022-3-30 19:12

ceng网

mark

#17-1 - 2022-3-30 19:15

你好F8

头像是不笑猫吗

#17-2 - 2022-3-30 19:39

ceng网

你好F8 说: 头像是不笑猫吗

是的

#18 - 2022-3-30 19:15

你好F8 (整衣正色往南三拜焚琴煮鹤挂印封金 ... ...)

好东西

#19 - 2022-3-30 19:31

LitLow

加星先

#20 - 2022-3-30 19:34

无碍一

好的前来支持（

#21 - 2022-3-30 19:37

piglalala

好东西 mark

#22 - 2022-3-30 20:02

晴天你好

mark

#23 - 2022-3-30 20:19

己注销 (是萌豚哒❗)

看看

#24 - 2022-3-30 20:25

幻影Locus (縱置身於極限狀態下，仍抱持意誌與尊嚴，此姿態堪稱美妙 . ...)

mark

#25 - 2022-3-30 20:58

Nonexistentx (世界以其不变的意志，将你我于时间上涂写为痕 ...)

感谢你做出贡献

#26 - 2022-3-30 21:07

小翼龙 (月之背面研习中~~)

mark

#27 - 2022-3-30 21:47

V×L (神圣从未远去，神圣一直都在。)

这可是好东西啊！

#28 - 2022-3-30 22:29

lian (点格子用户)

mark

#29 - 2022-3-30 22:29

末旅猫 (水、食物、住所)

mark，同样有截屏的习惯 (bgm62)

#30 - 2022-3-30 22:35

verdurewind

mark一下，十分感谢分享

#31 - 2022-3-30 22:44

Acylation

mark~

#32 - 2022-3-30 23:01

弥御水Scyiki

好顶赞！感觉用来 OCR 视频的硬字幕会非常好用

（再稍微加点料好像真的能做出来……直接识别整个视频字幕的 OCR 软件

另外请问能添加支持 win7 吗？

#32-1 - 2022-3-30 23:32

熏橗

已经有非常好用的硬字幕提取软件了

#32-2 - 2022-3-31 00:11

冈崎羽未鹰原汐

同楼上，实时屏幕识别的工具已经有很多，不止视频硬字幕，对gal生肉的实时屏幕OCR翻译也有现成的工具。

至于win7，我没测过支持不支持。反正python相关的主界面模块肯定是没问题（大不了换成py3.8版本），但c++的PaddleOCR引擎不保证能跑起来。不过，一些可能依赖win10的运行库我也已经扔到发行版里面去了，也许能在缺失这些库的系统上跑起来？帮我试试？ (bgm38)

隔壁某些采用PaddleOCR引擎的天若OCR开源版本也更新了win7支持，所以理论上是没有阻碍的。

#32-3 - 2022-3-31 02:27

弥御水Scyiki

熏橗说: 已经有非常好用的硬字幕提取软件了

这软件的设置太复杂了吧？ (bgm38)

有空再研究研究

#32-4 - 2022-3-31 02:38

弥御水Scyiki

冈崎羽未鹰原汐说: 同楼上，实时屏幕识别的工具已经有很多，不止视频硬字幕，对gal生肉的实时屏幕OCR翻译也有现成的工具。

至于win7，我没测过支持不支持。反正python相关的主界面模块肯定是没问题（大不了换成py...

我的 win7 先是报错：

下载好相应的 dll 文件后，又报错：

win7 想要跑起来得换 py3.8，py3.9 以上不支持 win7 运行。后面还有没有坑就不知道了 (bgm38)

另外我的意思不是实时识别，是把一个下载好的视频（尤其是古老的内嵌字幕的动画）识别出有字幕的帧并输出成图片，然后批量提取字幕出来，把内嵌的字幕转换成外挂字幕。你的这个工具简单易用，更好上手，我实际体验了之后感觉可行。

#32-5 - 2022-3-31 08:13

冈崎羽未鹰原汐

弥御水Scyiki 说: 后面还有没有坑就不知道了

嗯，整了个虚拟机试了下，PaddleOCR引擎也没能跑起来。有空我会研究研究的 (bgm38)

#33 - 2022-3-30 23:31

镜子阁 (Dream a dream)

太好了，先mark

#34 - 2022-3-30 23:54

客户买的百度的ocr识别发票，每个月总能出两三次幺蛾子 (bgm38)

#34-1 - 2022-3-31 00:19

冈崎羽未鹰原汐

而且我之前一直认为百度在线OCR的准确度肯定比本地强的，毕竟专门的商用服务器有更大的算力，可以跑最新的完整版模型。结果发现本地跑轻量级模型准确度也完全不输在线，速度还更快，惊了 (bgm38)

#35 - 2022-3-31 00:09

persona

考虑过上微软商店末

#35-1 - 2022-3-31 00:16

冈崎羽未鹰原汐

好像只能上架UWP应用？ (bgm38)

#35-2 - 2022-3-31 09:26

persona

冈崎羽未鹰原汐说: 好像只能上架UWP应用？

（学一下，很快的啦

）

#35-3 - 2022-3-31 09:29

persona

冈崎羽未鹰原汐说: 好像只能上架UWP应用？

已给星星

#36 - 2022-3-31 00:25

山田家

牛啊牛啊

#37 - 2022-3-31 00:34

咕咕子❶ (✨️make bangumi great again✨️)

支持自己动手丰衣足食

#38 - 2022-3-31 00:45

腾文鱼

感谢分享。
能写出满足自己需求的工具真好。

#38-1 - 2022-3-31 00:49

腾文鱼

话说ocr结束后是在哪里保存文字与图片的映射吗？还是每次搜索重新识别？

#38-2 - 2022-3-31 08:18

冈崎羽未鹰原汐

滕文鱼说: 话说ocr结束后是在哪里保存文字与图片的映射吗？还是每次搜索重新识别？

默认存放在第一张图片的根目录下。你也可以去软件的“设置”选项卡里，设置想要的存放路径和文件名；或者禁用本地文件输出 (bgm24)

这个软件的定位只是“转换”；没有“搜索”的功能。用记事本或者vscode来在文本中搜索吧

（当然也想过做个图片浏览器的机能，软件里可以搜索文本、预览对应的图片。不过好像没太大必要？ (bgm38)

）

#39 - 2022-3-31 08:42

方面包 (That can not continue.)

可以，要是半年前有这个就可以让同事拿去改改提取数据了惹 (bgm38)

#40 - 2022-3-31 12:24

冈崎羽未鹰原汐 (二阶堂芽爱小河坂青空)

TODO：又想到了一个点子，输出文本改为markdown格式，嵌入图片地址。这样就可以用浏览器或vscode查看图文并茂的内容了！ctrl+f之后也能快速预览这张图片是不是自己想要的。

2022.4.8 本功能开发完毕 √

#40-1 - 2022-5-31 15:20

冈崎羽未鹰原汐

新功能get √

#41 - 2022-3-31 17:33

提辖 (为了理解彼此，反复交换各式各样的话语吧 ...)

拍砖mark，睡醒了上去star

#42 - 2022-3-31 20:10

ywgs

mark。。。

#43 - 2022-4-1 15:49

再见五月 (不要指导捏)

mark

#44 - 2022-4-2 04:05

ItoshikiGen (子供ですが何か？)

mark

#45 - 2022-4-2 04:36

满舰饰假子 (公众号：冷静的历史碎片。B站：满舰饰假子。 ... ... ...)

看不懂，只能高呼斯国一，斯巴拉西

#46 - 2022-4-3 21:30

ハローチープヲ (你好贱哦（挖坟回复放题)

今天拿来抄作业用了，谢谢老板 (bgm24)

#47 - 2022-4-4 01:14

吾妻サラ (運命の果実を…一緒に食べよう！)

mark

#48 - 2022-4-8 11:24

SeniY (在水中思考)

挺好用的，但是很多图也没文字，对于一个仓鼠来说，我也很愁手机电脑里的上万张图该怎么处理

#49 - 2022-4-8 12:46

工口卿 (あの女の子は過酷な戦場に舞う、まるで精霊のようだっ ...)

厉害...

#50 - 2022-4-8 19:43

luna

哇好东西厉害！

#51 - 2022-4-8 19:55

用户

干得好，真的干得好。
非常有趣，非常有用。
这是否意味着我可以将整个 pdf 书籍导出为图像，然后将它们转换为文本文档？

#51-1 - 2022-4-9 00:13

冈崎羽未鹰原汐

感谢

pdf转文字有很多方案，比如OCRmyPDF。网上也能搜到各种在线工具~~这些工具可以提取文字在原文档中的位置，或干脆嵌入原文档，让你可以在图片pdf里面ctrl+f。
当然，如果只想生成纯文本，我的软件应该也挺好用的 (bgm38)

#52 - 2022-4-8 20:01

Nevermore (Make that money；Watch it burn)

感觉会很有用！

#53 - 2022-4-10 16:19

EternalEngine

mark

#54 - 2022-4-11 22:44

没事了 (好累)

mark

#55 - 2022-4-12 21:56

Jones

Mark

#56 - 2022-4-12 23:06

咕叽咕叽

mark

#57 - 2022-5-31 15:37

chanceyan (chanceyan)

mark

#58 - 2022-6-7 19:08

矮木油希希 (都是异端！)

还有多语言和文本方向识别。。
我感觉比我现在买的ocr还好用。。。之前买的itext一个月几块钱还不支持竖排文字 (bgm35)

#59 - 2022-6-14 22:10

SaraKale

mark，我也是有转文字的需求，这工具好有用！感谢开发 (bgm32)

！

#60 - 2022-6-14 22:21

热爱所热爱 (憎恨所憎恨)

mark，回头安装试试管理别的东西。

#61 - 2022-6-14 22:28

秋桦 (๑•̀ω•́๑)

mark一下

#62 - 2022-9-1 19:35

冈崎羽未鹰原汐 (二阶堂芽爱小河坂青空)

啊哈哈哈，新版本来咯！ (bgm38)

#63 - 2022-9-1 19:41

Another (追番日益，补番日损)

果然二次元头像的github开发者都很厉害！

#63-1 - 2022-9-1 23:38

冈崎羽未鹰原汐

厉害算不上，只是小二次元才喜欢整这些花里胡哨的玩意而已 (bgm38)

#64 - 2022-9-1 20:32

Phlins (不跌落底层。和爱的人同在。保持尊严，承担责任，尽量善良 ...)

标记一下

#65 - 2022-9-2 06:09

kami (Search your feelings. You know it to be true.)

mark

#66 - 2022-9-2 06:30

庄生晓梦 (more power!)

好东西，爱了。

#67 - 2022-9-29 03:09

冈崎羽未鹰原汐 (二阶堂芽爱小河坂青空)

9月底爆肝更新完毕！

这个月业余时间全在写这家伙，动画片都没怎么看了，555 (bgm38)

#67-1 - 2022-11-4 21:44

冈崎羽未鹰原汐

10月份修Bug更新完毕。

#68 - 2022-10-28 22:01

Vestellung (尊重，理解，包容)

mark

#68-1 - 2022-10-30 17:30

冈崎羽未鹰原汐

#69 - 2022-10-28 22:06

Ahsのフクロウ (Im/possible.)

支持支持~

#70 - 2022-10-28 23:05

Earendil_C

说，感谢umi酱

#70-1 - 2022-10-30 17:19

冈崎羽未鹰原汐

Umi酱：

#71 - 2022-10-29 01:30

wlx321

mark
顺便说一句，已经2.5star了。

#72 - 2022-10-29 13:59

luna

感谢umi酱！

#73 - 2022-10-29 14:17

夏娜的蜜瓜包 (まずはその幻想をぶち殺す)

mark

#74 - 2022-10-30 17:47

いいよ恋よ

马克

#75 - 2022-11-4 23:16

海与椰子

mark

#76 - 2022-11-6 00:48

秋人 (社畜です。)

手抄党的大胜利

#77 - 2022-11-6 01:14

Moeloli

mark

#78 - 2023-10-3 22:07

非战斗人员

mark，感谢捏

/ 返回～技术宅真可怕～小组

～技术宅真可怕～ » 讨论Umi-OCR 离线文字识别软件 [ 2022.11.4 更新v1.3.1]

～技术宅真可怕～ » 讨论
Umi-OCR 离线文字识别软件 [ 2022.11.4 更新v1.3.1]