OCR
< Soft
Программы для подготовки изображений
Scan Tailor Advanced
| Scan Tailor | |
|---|---|
| Разработчик(и) | Virgil Grigoras |
| Первый выпуск | 2022 |
| Лицензия | GNU GPL v3 |
| Сайт | github.com |
| Репозиторий | scantailor |
ScanTailor - программа для подготовки изображения к распознаванию.
Когда вы отсканировали изображение, оно:
- цветное
- может быть не достаточно контрастным
- с неправильной ориентацией
и пр.
ScanTailor пошагово поможет вам максимально подготовить изображение к тому, чтобы OCR как можно лучше распознал текст.
Установка:
# apt-get install scantailor
Программы для распознавания файлов
Коммерческие
SETERE OCR
| SETERE OCR | |
|---|---|
| Разработчик(и) | Группа компаний СЕТЕРЕ (SETERE Group) |
| Первый выпуск | 2015 |
| Лицензия | проприетарная, платная |
| Сайт | seteregroup.ru |
| Репозиторий | нет |
Установка:
1. Перейдите на страницу https://www.seteregroup.ru/ocr
2. Выберите "Для Linux"
3. Скачайте дистрибутив из раздела "Дистрибутивы для установки SETERE OCR (версия 1.0.11−7) для ОС АЛЬТ"
4. Распакуйте в отдельную папку
5. Откройте консоль
6. Повысьте права
$ su -
7. Перейдите в каталог с распакованным дистрибутивом, например:
# cd /home/petr/Загрузки/setereocr-1.0.11-7-x86_64-altlinux/
8. Запустите файл:
# ./install.sh
9. Все, программа установлена, идите покупать лицензию и разворачивать сервер лицензий)
Стабильные
Cuneiform-qt
| Cuneiform-qt | |
|---|---|
| Разработчик(и) | Андрей Черепанов |
| Первый выпуск | 2009 |
| Лицензия | GNU GPL v3 |
| Сайт | github.com |
| Репозиторий | cuneiform-qt |
Для успешного распознавания подготовьте изображение с помощью Scan Tailor Advanced.
Установка:
# apt-get install cuneiform-qt
gImageReader
| gImageReader | |
|---|---|
| Разработчик(и) | Sandro Mani |
| Первый выпуск | 2009 |
| Лицензия | GNU GPL v3 |
| Сайт | github.com |
| Репозиторий | gimagereader |
Установка:
# apt-get install gimagereader-qt5
или
# apt-get install gimagereader-gtk
- Программа корректно распознает скан книги в простой неформатированный текст, если выбрать:
- режим распознавания "простой текст"
- русский язык
- режим hOCR, PDF - как и следует - больше подходит для PDF
OCRFeeder
| OCRFeeder | |
|---|---|
| Разработчик(и) | Joaquim Rocha (GNOME) |
| Первый выпуск | 2009 |
| Лицензия | GNU GPL |
| Сайт | wiki.gnome.org |
| Репозиторий | ocrfeeder |
Установка:
# apt-get install ocrfeeder
Экспериментальные
VietOCR
| VietOCR | |
|---|---|
| Разработчик(и) | Quan Nguyen |
| Первый выпуск | 2008 |
| Лицензия | Apache v2.0 |
| Сайт | vietocr.sf.net |
| Репозиторий | нет |
VietOCR - GUI для OCR Tesseract. Имеет интерфейс на Java и .NET. Обе версии имеют схожий графический интерфейс пользователя и способны распознавать текст из изображений распространенных форматов.
Версия Java использует Tess4J - Java JNA wrapper для Tesseract OCR API.
Установка вручную
Установка:
- Посмотрите версию tesseract в вашей платформе
- Посмотрите, какая версия Tess4J соответствует версии tesseract
- Посмотрите, какая версия VietOCR соответствует версии tesseract и tess4J
- Скачайте VietOCR с sourceforge под версию
- Пропишите в файле .bashrc, который находится в домашней папке:
export TESSDATA_PREFIX=/usr/share/tesseract
- В распакованном каталоге VietOCR3 запустите файл VietOCR.jar
$ java -jar '/home/test/Загрузки/VietOCR3/VietOCR.jar'
Версии
| Версии для VietOCR | ||||||
|---|---|---|---|---|---|---|
| Платформа | Tesseract | tess4J | VietOCR | |||
| P10 | 5.2.0 | 5.3 | 6.3 | |||
| P11 | 5.3.0 | 5.5 | 6.6 | |||
| Sisyphus | 5.5.1 | 5.16 | 6.17 | |||
Готовые пакеты
- Версия для P11
https://altlinux.space/petr-akhlamov/vietocr-p11
- Версия для Sisyphus
https://altlinux.space/petr-akhlamov/vietocr-sisyphus
OCRmyPDF
| OCRmyPDF | |
|---|---|
| Разработчик(и) | James R. Barlow |
| Первый выпуск | 2023 |
| Лицензия | MPL v2 |
| Сайт | ocrmypdf.readthedocs.io github.com |
| Репозиторий | ocrmypdf |
OCRmyPDF - консольная утилита, которая получает на вход "pdf с картинками", обрабатывает его с помощью Tesseract и формирует "pdf с текстом". Чем выше разрешение картинки/скана - тем выше точность распознавания.
Установка
Повторюсь, пока есть только в Сизифе!
# apt-get install ocrmypdf
Использование
$ ocrmypdf -l rus '/home/user/Загрузки/praktika dogovor.pdf' '/home/user/praktika dogovor_fix.pdf
- -l - язык, в ISO-формате
- сначала указывается "входной файл", потом "выходной"
Вывод команды:
$ ocrmypdf -l rus '/home/user/Загрузки/praktika dogovor.pdf' /home/user/text-test.pdf
Scanning contents ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━ 100% 7/7 0:00:00
Start processing 7 pages concurrently ocr.py:96
OCR ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━ 100% 7/7 0:00:00
Postprocessing... ocr.py:144
PDF/A conversion ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━ 100% 7/7 0:00:00
Linearizing ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━ 100% 100/100 0:00:00
Recompressing JPEGs ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━ 0% 0/0 -:--:--
Deflating JPEGs ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━ 100% 7/7 0:00:00
JBIG2 ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━ 0% 0/0 -:--:--
Image optimization ratio: 1.02 savings: 1.6% _pipeline.py:994
Total file size ratio: 1.01 savings: 1.1% _pipeline.py:997
Output file is a PDF/A-2B (as expected) _common.py:474
Сравнение
| OCR | ||||||
|---|---|---|---|---|---|---|
| 13-25 декабря 2024 | ||||||
| Параметры | ||||||
| Cuneiform-qt | gImageReader | OCRFeeder | VietOCR | OCRmyPDF | ||
| 0.1.4 | 3.4.2 | 0.8.5 | 6.3.0 | 16.7.0 | ||
| Движки | Движок Cuneiform | |||||
| Движок Tesseract | ||||||
| Движок Gocr | ||||||
| Движок Ocrad | ||||||
| Импорт | Импорт изображений | |||||
| Импорт PDF | ||||||
| Экспорт | Экспорт в txt | |||||
| Экспорт в html | ||||||
| Экспорт в rtf | ||||||
| Экспорт в tex | ||||||
| Экспорт в odt | ||||||
| Экспорт в pdf | ||||||
| Возможности | Возможность сканирования | |||||
| Поворот изображения | ||||||
| Автоповорот изображения | ||||||
| Настройка яркости-контраста | ||||||
| Выбор области | ||||||
| Автовыбор области | ||||||
| Unpaper | ||||||
| Устранение перекосов | ||||||
| Ручное удаление переносов | ||||||
| Изменение регистра | ||||||
Программы для распознавания экрана
TextSnatcher
| TextSnatcher | |
|---|---|
| Разработчик(и) | Solai Raj |
| Первый выпуск | 2022 |
| Лицензия | GNU GPL v3 |
| Сайт | textsnatcher.rf.gd github.com |
| Репозиторий | textsnatcher |
TextSnatcher - аналог ABBYY Screenshot Reader для Linux от RajSolai из Индии на основе Tesseract.
Установка:
- Sisyphus/P11
# apt-get install textsnatcher
- P10/ранее:
Самая последняя версия с Flatpack:
# apt-get install flatpak # flatpak install https://flathub.org/repo/appstream/com.github.rajsolai.textsnatcher.flatpakref
Программа распознает текст:
- с изображения из буфера обмена
- из файла
- из скриншота - создает сама
- поддерживает русский язык
- результат копирует в буфер обмена
