четверг, 24 августа 2017 г.

Как очистить текст в GIMP для для последующего OCR...

Synopsis in English: a small lifehack for cleansing blurred scans in GIMP (for further OCR in scan editors). 

Сканирую сейчас небольшую заметку из #Saptagiri#, но скан смазан и даже ABBYY FineReader выдает ошибки при OCR. На самом деле, подобные сканы очень легко очистить с помощью
фильтра Curves из GIMP.

Алгоритм.
Скрин текста, как видно скан очень сильно смазан, его нужно выправлять
1. Захватываем скрин с текстом любым скриншотером (в моем случае это либо #lightshot# либо скриншотер, встроенный в яндекс-диск). Вставляем скрин в GIMP с помощью "Shift+Ctrl+V" (либо просто жмем File - Create from - from Clipboard). 

Фильтр Curves 
2. Запускаем фильтр Curves (находится на вкладке Colors). 


3. Хватаем левой кнопкой мышки точки графика (по одной) и начинаем поднимать точки в левый верх. Как видно на рисунке выше я подняла 3 точки для того, чтобы скан стал намного прозрачнее. Жмем ОК. Всё, после этого копируем рисунок и вставляем либо в ABBYY FineReader либо просто сохраняем рисунок в PNG (File  - Export to png) и сканим png-файл в онлайн (например, через https://www.onlineocr.net/)

Вишнудутка1926, Москва, август 2017