Переходите на новый сайт Базы знаний. Актуализация контента происходит теперь там.
Перейти в новую Базу знаний
Tesseract провайдер
Активность предназначена для создания провайдера, который будет использован в других активностях.
Свойства
Язык - язык для распознавания. Дополнительные языковые пакеты требуется скачивать и размещать в папку установки Pix;
Масштаб - коэффициент масштабирования изображения (от 0 до 1 - уменьшение размера в пикселях, больше - увеличение);
Исправить перекос - определить перекос изображения и исправить его, если он достаточно высок;
В градациях серого - Преобразование изображения в режим градаций серого (8 бит на пиксель). Данный режим необходим для корректной работы некоторых других фильтров, таких как удаление линий или шума;
Удалить линии - удалить горизонтальные линии с изображения в градациях серого. Алгоритм основан на Leptonica;
Удалить шум - удалить шум с изображения в градациях серого. Алгоритм основан на Leptonica.
Движок - Движок OCR:
TesseractOnly - только классический Tesseract,
LstmOnly - только LSTM (на основе нейронных сетей),
TesseractAndLstm - гибрид Tesseract и LSTM,
Default - по умолчанию (LSTM).
Режим сегментации страниц - представляет возможные режимы анализа макета страниц:
OsdOnly - определение ориентации и скрипта (OSD),
AutoOsd - автоматическая сегментация страниц с помощью OSD,
AutoOnly - автоматическая сегментация страниц, но без OSD, или OCR,
Auto - полностью автоматическая сегментация страниц, но не OSD,
SingleColumn - предположение об одном столбце текста переменного размера,
SingleBlockVertText - предположение об одном едином блоке текста, выровненном по вертикали,
SingleBlock - предположение об одном едином блоке текста,
SingleLine - изображение рассматривается как одна строка текста,
SingleWord - изображение рассматривается как одно слово,
CircleWord - изображение рассматривается как одно слово в круге,
SingleChar - изображение рассматривается как один символ,
SparseText - разреженный текст,
SparseTextOsd - разреженный текст с OSD,
RawLine - изображение рассматривается как одна текстовая строка, минуя хаки, характерные для Tesseract.
Разрешенные символы - разрешенные символы (whitelist). Заполняются подряд в виде строки;
Запрещенные символы - запрещенные символы (blacklist). Заполняются подряд в виде строки;
Провайдер - переменная, где будет храниться провайдер для использования в других активностях.