Технологии ввода и обработки данных в электронном документообороте

Технологии ввода и обработки данных в электронном документообороте Портал DocFlow опубликовал материал, посвященный одному из элементов системы электронного документооборота – технологии ввода и обработки данных. Предлагаем Вам ознакомиться с одной из глав обзора.

Следует разделять понятия «ввод документов» (Document capture) и «ввод данных» (Data capture).

Ввод документов – это процесс преобразования бумажной версии документа в электронное изображение, происходящий, чаще всего, с помощью сканирования. При этом процесс ввода документов часто содержит в себе еще и фазу простого распознавания текста, когда в дополнение к электронному изображению документа также получается его текстовое содержимое, однако без выделения в нем каких-либо структурных единиц или логических блоков.

Ввод данных предполагает, что из обрабатываемого документа необходимо извлечь какую-то структурированную информацию, поля, атрибуты, чтобы в последующем передать эти реквизиты документа на обработку в другую информационную систему. Процессы ввода данных могут применяться как к бумажным документам, так и к электронным, в случае если формат последних не подходит для последующей обработки данных из них в других
информационных системах.

Чтобы проиллюстрировать разницу между понятиями ввода документов и ввода данных рассмотрим несколько примеров. Ввод документа: сканирование журнальной статьи, распознавание ее и сохранение полученных изображения и текста в формате PDF. Ввод данных: распознавание полученного по электронной почте PDF-документа с счетом на оплату товара, определение в полученном тексте таких атрибутов как наименование поставщика, дата счета, сумма счета, срок оплаты для последующей передачи их в бухгалтерскую систему. Еще один пример ввода данных: сканирование уже упомянутой
выше журнальной статьи, но кроме простого распознавание ее, еще и нахождение в тексте названия статьи, ее автора, даты подготовки статьи, сохранение изображения статьи, ее текстового содержимого и найденных информационных атрибутов в базе данных о публикациях в прессе.

Также говоря о терминологии важно отметить, что многие специалисты не видят точного аналога англоязычному понятию Capture в российской документоведческой практике. При подготовке данного Обзора и работе с англоязычными источниками, в качестве перевода термина «Capture», использовано определение «ввод данных».

Организация процесса ввода и распознавания данных – это комплекс мероприятий, связанных со сканированием бумажных документов, обработкой полученных изображений и/или электронных документов, распознаванием текстовых и цифровых значений полей документа, штрих-кодов и последующей конвертацией распознанной информации в нужный формат для передачи на хранение в архив или в другие информационные системы.

Ввод и распознавание данных включают следующие этапы работы с данными.

Для начала рассмотрим этапы, характерные для работы с бумажными документами:

Выбор подхода к сканированию, модели ввода данных.
Выбор схемы, по которой будет реализовано сканирование и ввод, может осуществляться с учетом организационных задач на предприятии, а также исходя из типа технологической реализации.

Первый подход к определению модели ввода исходит из стратегических задач организации, специфики ее рабочих процессов. Он подразумевает выбор между обработкой документов по мере их поступления, либо по мере накопления. К примеру, в случае если характер деятельности организации требует, чтобы клиенты вносили данные и получали отклик оперативно по месту их обращения, потребуется обработка по мере поступления, реализованная во фронт-офисе (от англ. front-office) – точке непосредственного контакта с клиентом или поставщиком, например, это может быть отдел приема заказов или другое подразделение организации, где происходит непосредственное общение с контрагентом.

Если рабочий процесс не предполагает немедленной обратной связи с контрагентами, то также можно рассмотреть возможность организации ввода в бэк-офисе (от англ. back-office), то есть во внутреннем операционно-учётном подразделении. Подробнее о этих подходах вы можете узнать в статье «Особенности организации ввода данных во фронт-офисе и бэк-офисе» на портале DocFlow.

Способы организации ввода данных также делятся по модели технологической реализации. Среди них выделяют модели трех видов: централизованная,
децентрализованная и распределенная, в которой совмещены подходы из первых двух моделей.

Подробнее о технологических моделях ввода речь идет в статье «Выбор модели ввода данных: централизованный, децентрализованный, распределенный ввод».

Сортировка документов.
Определение типов документов, которые должны подлежать вводу. Современные системы ввода документов и данных предлагают возможности для автоматического определения типа и последующей сортировки документов. Однако в некоторых случаях может понадобиться и ручная предварительная сортировка.

Подготовка документов.
Физическая или логическая подготовка документов для последующего сканирования и распознавания. Данный этап позволяет уменьшить количество ошибок при переводе данных в электронный вид, определить важность документов, сократить необходимость повторного сканирования.
Подробнее об этапе в статье «Подготовка документов к переводу в электронный вид».

Выбор оборудования для ввода данных.
В этот этап входят все шаги по определению требований к аппаратному обеспечению (сканеры, МФУ), приобретение и настройка самих устройств.

Сканирование.
Перевод документов из бумажного в электронный формат с помощью соответствующих аппаратных и программных средств.

Этапы перечисленные далее применяются как для электронных образов документов, полученных в результате сканирования, так и для электронных документов, полученных альтернативными путями, например, изображения из факс-сервера или изображения, полученные путем преобразования документов из других электронных форматов с целью извлечения данных из них.

Обработка изображений.
Данный этап позволяет улучшить качество полученного документа, с тем, чтобы сократить количество неточностей при распознавании и уменьшить риск утери важной информации. К этапу обработки изображений относятся такие операции как, например, коррекция возможных перекосов изображения, неравномерности освещения, если документ был снять цифровой камерой или мобильным телефоном, удаление из изображения документа цветных печатей и штампов, которые могут мешать процессу распознавания.

Распознавание.
Данный этап позволяет перевести обработанные и подготовленные изображения в редактируемые форматы и/или извлечь нужные данные из документа с помощью специального программного обеспечения.

Верификация.
На этом этапе проводится проверка извлеченных при распознавании данных на корректность распознанной информации и на соответствие правилам перекрестных проверок. Данные операции проводятся в основном в автоматическом режиме, с предложением оператору проверить лишь те случаи, по которым правила автоматической проверки документа показывают либо недостаточную уверенность в качестве распознавания либо несоответствие полученных данных правилам перекрестных проверок.

Индексирование.
Это процесс проставления условных обозначений, атрибутов и составления указателей, служащих для упрощения доступа к документам и (или) информации.

Сохранение данных, размещение информации.
Завершающий этап процесса ввода, когда обработанные данные либо сохраняются в формате, пригодном для дальнейшего использования в рабочих процессах организации, либо отправляются на обработку в другую информационную систему (например ERP, CRM или бухгалтерскую) либо публикуются в том или ином виде.

Обычно к система ввода данных предъявляются требования по наличию единых инструментов управления процессами ввода и распознавания, возможностям настройки системы на новые виды документов, а также возможностям настройки процедур сохранения полученных данных и передаче их в другие информационные системы на предприятии.

Ознакомиться с обзором полностью Вы можете на портале DocFlow

    
Другие новости по теме:
  • СЭД DIRECTUM в компании ООО "Грундфос"
  • ABBYY купила американскую компанию
  • Сканирование и распознавание
  • Потоковый ввод в Летограф
  • ЛЕТОГРАФ.Архив
  • IBM: Lotus Domino решаемые задачи, архитектура, особенности
  • Кондиционер напольный без воздуховода.{mtn}