Переходите на новый сайт Базы знаний. Актуализация контента происходит теперь там.

Модуль IDP
IDP - новый модуль PIX Master и компонент PIX RPA.
  • IDP предназначен для централизованного распознавания документов, извлечения сущностей и их верификации.
  • IDP дает возможность создания шаблонов для распознавания документов в WEB-интерфейсе.
  • IDP предоставляет API для запуска синхронного и асинхронного распознавания.
PIX IDP находится на стадии активной разработки, и пока имеет базовый функционал, поэтому мы рассчитываем, что PIX-сообщество примет активное участие в его развитии, присылая нам свои пожелания.
IDP - модуль для обработки документов
Модуль IDP – это решение для интеллектуальной обработки документов (англ: Intelligent Document Processing), известной также как «Конвейер распознавания», «OCR-конвейер».

IDP - это технология автоматизации процессов, которая сканирует, читает, извлекает, классифицирует и упорядочивает информацию из документов различного типа.
Модуль IDP (beta) выпущен в виде предварительной версии и находится на стадии активной разработки. Текущий функционал – базовый и предполагает извлечение сущностей (ключ-значение) из отсканированных образов документов.

Модуль включает три функциональных блока:

IDP Шаблоны – раздел для создания, редактирования и тестирования шаблонов распознавания
(1 шаблон = 1 тип/вид документа);

IDP Процессы – раздел для создания конвейеров распознавания (1 конвейер = 1 шаблон);

IDP API – методы запуска синхронного, асинхронного распознавания, получения статусов распознавания из IDP процесса, получения результатов асинхронного распознавания.
Подключение модуля IDP осуществляется добавлением настройки в appsettings.json вашей установки PIX Master:

"Idp": {
    "IsEnabled": true,
    "Storage": {
      "Path": "IdpStorage"
    }
  }

Ограничение: На данный момент IDP работает только при использовании PIX Master, установленного на ОС Windows и работающего с СУБД MS SQL.
После настройки вы увидите новые разделы в меню PIX Master:

1. Работа с шаблонами
В разделе IDP шаблоны можно создавать, редактировать и тестировать шаблоны для распознавания разных видов документов.

Каждый шаблон имеет свое название, описание и набор образцов, по которым можно настраивать извлечение данных:


Интерфейс редактирования шаблона

1 Кнопка добавления поля для извлечения данных;
2 Выделение прямоугольной области для Значения на образе документа;
3
Наименование для поля для извлечения данных;
4
Кнопка добавления якоря для поля извлечения данных;
5 Выделение прямоугольной области поля извлечения данных на образе документа;
6
Кнопка [Тест] для запуска тестового извлечения данных из текущего образа документа;
7 Окно с результатами извлечения данных в виде поле-значение.
Работа с полями
Для добавления поля извлечения текста необходимо нажать кнопку (1), после чего на области с документом появится прямоугольник зеленого цвета:

Зажимая левую кнопку мыши его необходимо переместить на ту область, где расположен необходимый для распознавания текст (2).
Для поля извлечения текста также необходимо указать название на панели настроек справа (3).
Для добавления якоря необходимо нажать кнопку (4), после чего на области с документом появится прямоугольник красного цвета:

Зажимая левую кнопку мыши необходимо переместить его на ту область, где расположено якорное значение.
Для якоря необходимо ввести регулярное выражение (или просто текст), которое будет соответствовать тексту области, на которую настроен якорь:

Для установки связи между якорем и полем извлечения текста необходимо зажать левую кнопку мыши на синей точке в центре якоря и перевести указатель мыши к синей точке в центре поля извлечения данных, после чего отпустить левую кнопку мыши.
Связанные якорь и поле будут выглядеть так:

Тестирование шаблона
Для того, чтобы проверить корректность настройки шаблона, необходимо нажать кнопку «Тестировать» в списке шаблонов на странице «IDP Шаблоны».

На открывшейся странице необходим выбрать файл для тестирования шаблона, после чего запуститься его распознавание и извлечение данных.
Извлеченные данные будут отображены в левой части страницы, а образ – в правой.

2. Работа с процессами
Процессы предназначены для формирования конвейеров распознавания, куда можно отправить множество документов. В текущей версии процессы могут быть настроены на использование конкретного шаблона. В будущих версиях процессы будут обладать возможностью настройки классификации документов с автоматическим выбором шаблонов, OCR-движков, а также настройки параметров валидации извлеченных данных.


По кнопке «Элементы» можно ознакомиться с документами, которые попадали в этот процесс, а также посмотреть результаты извлечения.

3. IDP API

Для выполнения распознавания документов необходимо обращаться к PIX IDP через API PIX Master. В текущей версии доступно 4 метода:

POST /api/Idp/Recognize/{Название шаблона}
Данный метод вызывает распознавание графического изображения в синхронном режиме – распознавание будет выполнено непосредственно при получении запроса и после его завершения будет возвращен ответ с извлеченными сущностями в json-формате.

POST /api/Idp/Files/{Название процесса}
Данный метод помещает графическое изображение в очередь элементов IDP процесса и возвращает Id этого элемента. Распознавание будет выполнено асинхронно, робот или программный модуль, вызвавший этот метод может продолжать работать дальше вне зависимости от скорости и результатов распознавания.

GET /api/Idp/ResultById/{Id элемента в IDP процессе}
Данный метод возвращает результат распознавания с извлеченными сущностями в json-формате. В случае, если распознавание этого элемента еще не выполнилось – будет возвращен пустой ответ.

GET /api/Idp/ResultByProcess/{Название процесса}
Данный метод возвращает последовательно распознанные элементы из IDP-процесса от первого до последнего. В случае завершения списка распознанных элементов будет возвращен пустой ответ.