В отличие от
бумажных документов, электронные могут
обрабатываться более эффективно
(тиражироваться, рассылаться, храниться
и т.п.). В настоящее время активно
развиваются технологии перевода бумажных
документов в электронную форму с целью
реализации электронного документооборота.
Остановимся подробнее на применяемых
технологиях и используемой терминологии.
На первом этапе
перевода документа в электронную форму
производится его сканирование и создается
электронная копия документа в виде
изображения. Изображение, полученное
в результате сканирования, также называют
образом документа. Сканирование является
начальным этапом любой системы
автоматизированного ввода документов.
В процессе
сканирования может выполняться
программная обработка изображения, а
также производится визуальный контроль
качества (рис. 3.6).
Рис.
3.6.
Схема перевода бумажного документа в
электронный вид
Если речь идет о
промышленном вводе документов, то
сканеры обычно предоставляют ряд
дополнительных функций, например
возможность подачи разноформатных
документов.
Обычно процесс
сканирования — это промежуточная стадия
получения электронного документа.
Очевидно, что с электронным изображением
документа гораздо удобнее работать,
чем с бумажным (его можно копировать,
отправлять по сети и т.д.).
Однако в большинстве
случаев само по себе изображение (образ
документа) дает мало преимуществ. Для
того чтобы можно было редактировать
документ, осуществлять поиск по нему
или использовать его фрагменты при
подготовке новых документов и т.д.,
необходимо перевести полученный образ
в текстовый документ, понятный офисным
программам. Поэтому следующая задача
заключается в распознавании отсканированных
документов.
Для этого необходим
специальный инструмент, способный
перевести изображение в текстовый
редактируемый электронный документ.
Такие инструменты существуют, их общее
название — программы оптического
распознавания символов (optical character
recognition, OCR). C помощью OCR-программы компьютер
сможет «прочесть» на отсканированной
странице текст, отделив его от иллюстраций
и прочих элементов оформления, найти
таблицы и «разобраться» в их
содержимом. А затем скомпоновать все
это заново, воссоздав внешний вид
страницы.
С точки зрения
перевода документов в электронный вид
(ввода документов в компьютер) их условно
делят на формализованные, неформализованные
и специальные (рис. 3.7).
Рис.
3.7.
Классификация документов с точки зрения
специфики перевода в электронный вид
Формализованные
документы — это документы, в которых
заранее определена форма: расположение
обязательных полей, в которые заносятся
данные. Например, бланки, накладные,
анкеты, картотеки и т.д. Неформализованные
документы — это документы произвольной
формы: договоры, письма и т.д. К
специализированным относятся такие
документы как, например, карты и отпечатки
пальцев.
Перевод каждого
из перечисленных видов документов имеет
свою специфику. Если вводятся фотографии,
то достаточно электронного изображения,
если документ содержит текст, его
необходимо распознать, если это
форматированный текст с рисунками, то
нужно не только распознать текст, но и
восстановить формат документа, а если
это анкета, то, скорее всего, сам документ
вообще не нужен, важна только содержащаяся
в нем информация. Например, при обработке
листов для голосования обычно не
требуется изображения самого документа,
достаточно информации о том, за кого
отдан голос.
Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]
- #
- #
- #
- #
- #
- #
- #
- #
- #
- #
- #
Технологии перевода бумажных документов в электронные
Имиджинг
Задачи распознавания при вводе документов
Ввод формализованных документов
Ввод обычных документов
Технологии OCR/ICR
Классификатор рынка систем ввода документов
Классификатор International Data Corp (IDC)
Классификатор, учитывающий масштаб технологии
Продукты для персонального ввода документов
Продукты для промышленного ввода документов
ПО для ввода документов и данных под маркой Ascent Capture
Оборудование для сканирования и обработки изображений под
марками Adrenaline и VRS
Продукты для ввода форм
ABBYY FormReader
Система Cognitive Forms
Продукты для промышленного ввода форм
Гибридные комплексные решения
В данной статье пойдет речь о современных методах перевода
бумажных документов в электронную форму с целью реализации электронного документооборота.
Тема эта весьма актуальна. В отличие от бумажных документов, электронные могут
обрабатываться более эффективно, по ним возможен поиск, их можно легко использовать
в Интернет- и интранет-решениях. Безбумажные технологии активно развиваются,
однако, несмотря на интенсивный перевод документов в электронную форму, по свидетельству
ведущих специалистов, до сих пор в этой области не существует устоявшихся терминов,
а потому в ряде случаев наблюдается изрядная путаница. Поэтому в данной статье
мы попытаемся не только рассказать о применяющихся технологиях, но и обсудить
используемую в данной индустрии терминологию.
Имиджинг

первом этапе перевода документа в электронную форму производится его сканирование,
которое позволяет получить электронную копию документа в виде изображения. Данный
процесс называют имиджингом (imaging). Таким образом, имиджинг — это процесс
получения аутентичных изображений бумажных документов. Термин пришел из микрофильмирования,
однако сегодня применяется именно к электронным изображениям. Имиджинг является
начальным этапом любой системы ввода документов. На этом этапе выполняются задачи
сканирования, обработки изображения и контроля качества (рис.
1).
Сканеры позволяют оцифровывать изображения, а также предоставляют ряд дополнительных
возможностей, таких как аппаратная поддержка качества изображения и выравнивание
страниц.
Выравнивание страниц может производиться как аппаратно, так и программно (рис.
2).
Если речь идет о промышленном вводе документов, то сканеры обычно предоставляют
ряд дополнительных функций, например возможность подачи разноформатных документов
в одной пачке, а также позволяют использовать большие пачки документов и т.д.
Обработка изображений
Как уже было отмечено, часть функций обработки изображений может быть реализована
аппаратно в сканере, а может производиться на станции сканирования. Улучшение
изображения включает программное выравнивание, конвертирование с улучшением
качества, удаление шумовых и фоновых элементов, улучшение качества передачи
текста и т.д.
На рис. 3 показан исходный документ, на рис.
4 — его отсканированная копия, а на рис. 5 — отсканированное
изображение, прошедшее обработку изображения с помощью специальной программы
Virtual Rescan компании Kofax (более подробно об этой программе будет рассказано
ниже).
При определении понятия имиджинга важно отметить, что, как правило, это промежуточная
стадия получения электронного документа. Очевидно, что с электронным изображением
документа гораздо удобнее работать, чем с бумажным: его можно копировать, отправлять
по сети и т.д. Однако в большинстве случаев само по себе изображение (особенно
если мы работаем с текстовыми документами) дает не слишком много преимуществ.
Тот факт, что изображение на экране абсолютно точно передает символы, вовсе
не означает, что компьютер «понимает», какие слова содержатся в документе. Значит,
документ нельзя редактировать, осуществлять по нему контекстный поиск и пр.
Поэтому следующая задача заключается в распознавании документов.
Задачи распознавания при вводе документов

огромное количество типов документов, и естественно, что распознавание различных
типов документов обладает своей спецификой. Если вы вводите фотографии, то вам
достаточно электронного изображения, если это сплошной текст, возникает задача
его распознавания, а если это форматированный текст с рисунками, то вам необходимо
не только распознать текст, но и восстановить формат документа. Сложность задач
распознавания может варьироваться в самых широких пределах. Например, если речь
идет о листе для голосования, где в определенном поле нужно распознать наличие
или отсутствие символа, то эта задача намного проще, чем, скажем, распознавание
сложной формы, где необходимо распознать не только служебное поле, но и впечатанный
в него от руки текст. В принципе, принято делить все документы на формализованные,
неформализованные и специальные.
Формализованные документы — это документы, в которых заранее определена форма:
расположение обязательных полей. Формализованными документами являются различные
бланки, накладные и т.п. Обычные документы — это документы произвольной формы:
договора, письма и т.д. Примером специализированных документов являются, например,
отпечатки пальцев.
Ввод формализованных документов
Одной из задач ввода формализованных документов является индексирование — присвоение
каждому документу набора атрибутов с возможностью автоматического ввода индексных
полей с помощью распознавания. На рис. 6 показаны основные
этапы ввода формализованных документов. После контроля данные отправляются в
базу данных. Таким образом, результатом ввода форм чаще всего является не сам
документ в исходном виде, а определенная запись в некоторой базе данных. Особенностью
ввода форм является необходимость ввода полей, заполненных от руки. Причем обычно
на формализованных документах заполняющего просят ввести текст печатными буквами
— такой текст называют рукопечатным. Технологии распознавания рукопечатных символов
обозначаются термином ICR (Intelligent Character Recognition). Задачи распознавания
при вводе форм не обязательно связаны с распознаванием текста. При вводе форм
может потребоваться распознавание различных меток и знаков, для которого тоже
существует свой термин: OMR (Optical Mark Recognition).
Ввод обычных документов
При вводе обычных документов индексирование представляет собой более сложную
процедуру. Например, схема индексирования может быть следующей: для того чтобы
рассортировать вводимые документы произвольной формы по папкам с учетом тематики
документа, производится распознавание текстов всех документов, осуществляется
контекстный поиск по ключевым словам, автоматически принимается решение, к какой
из заранее выбранных тем относится данный документ, после чего документ помещается
в соответствующую папку. Схема основных этапов ввода обычных документов показана
на рис. 7. При вводе обычных документов важно реализовать
возможность экспорта в различные форматы: PDF, HTML, MS Office. Если при вводе
формализованного документа размеры его определены заранее, то при вводе документа
произвольной формы в ряде случаев требуется специальное оборудование (рис.
8).
Наиболее важной технологией на стадии распознавания документов является технология
OCR, о которой следует рассказать более подробно.
Технологии OCR/ICR
Традиционный подход к проблеме распознавания заключается в сведении задачи распознавания
к задаче классификации некоторого набора признаков. Идея проста: по изображению
определяется некоторый набор признаков, который сравнивается с каждым из имеющихся
образцов, так называемых эталонов. По результатам сравнения находится эталон,
с которым этот набор признаков совпадает лучше всего, и изображение относится
к соответствующему классу. Таким образом, все решение заключается в сравнении
предлагаемого изображения с образцами и выборе наиболее подходящего; иначе говоря,
производится некий перебор возможных вариантов. Проблема имела бы простое решение,
если бы не существовало сотен шрифтов, полученных по факсу текстов с плохо читаемыми
символами и т.д.
В качестве основных алгоритмов решения данной задачи выделяют multifont (шрифтовые)
и omnifont (шрифтонезависимые) алгоритмы. В случае multifont растровое изображение
накладывается на шаблон, и соответственно наиболее подходящим шаблоном считается
тот, у которого наименьшее количество точек отличается от исследуемого изображения.
Omnifont-алгоритмы идентифицируют символ по правилам его написания. В этом случае
эталон, с которым производится сравнение, содержит в себе информацию о правилах
написания символа. Оба алгоритма имеют вероятностную природу и позволяют сделать
предположение о принадлежности данного символа. Основная задача при распознавании
текстов — это повышение вероятности принятия правильного решения, то есть уменьшение
доли ошибок. Существует несколько подходов к повышению качества распознавания.
Например, алгоритм может содержать комбинацию шрифтового и шрифтонезависимого
подхода. Существенное увеличение точности распознавания достигается за счет
использования самообучения системы. Это позволяет, например, распознавать плохо
пропечатанные символы с помощью шрифта, созданного на основе достаточно хорошо
пропечатанных символов. Следует отметить, что на текстах хорошего качества лучше
работают одни алгоритмы, на текстах плохого качества — другие, а для распознавания
табличных форм удобнее использовать третьи и т.д. Существуют подходы, при которых
экспертная система, встроенная внутрь ядра распознавания, сама выбирает оптимальный
для данного текста алгоритм.
Альтернативой традиционному шаблонному методу распознавания стало распознавание
на основе принципов целостности, целенаправленности и адаптивности, так называемая
IPA-технология, на которой основана система распознавания компании ABBYY — FineReader.
Согласно принципу целостности, распознаваемый объект рассматривается как целое,
состоящее из частей, связанных между собой пространственными отношениями. Изображение
интерпретируется как определенный объект, только если на нем присутствуют все
структурные части этого объекта и эти части находятся в соответствующих отношениях.
Указанные части получают интерпретацию только в составе гипотезы о предполагаемом
объекте.
По принципу целенаправленности распознавание строится как процесс выдвижения
и целенаправленной проверки гипотез о целом объекте. Источниками гипотез являются
признаковые классификаторы и контекстная информация. Части картинки анализируются
не априори, а только в рамках выдвинутой гипотезы о целом. Традиционный подход,
состоящий в интерпретации того, что наблюдается на изображении, заменяется подходом,
состоящим в целенаправленном поиске того, что ожидается на изображении.
Принцип адаптивности подразумевает способность системы к самообучению.
Именно использование этих основополагающих принципов помогло добиться высочайшего
качества распознавания, которое демонстрирует система ABBYY FineReader.
Отдельной задачей является распознавание рукопечатных символов, заключающееся
в необходимости распознать символ, несмотря на особенности почерка человека.
Классификатор рынка систем ввода документов
начале статьи мы упомянули о некоторой терминологической путанице и до сих пор
не привели примеров. Дело в том, что упоминаемые выше термины, которые мы ввели
при описании технологических процессов, используются также для определения соответствующих
секторов рынка и здесь часто имеет место неоднозначность.
Для того чтобы разобраться в терминологии применительно к описанию рынка систем
ввода документов, следует отметить, что помимо технологических аспектов, о которых
мы говорили выше, существует также специфика, связанная с масштабом использования
технологии. Действительно, когда говорят о домашних или о персональных системах
ввода документов, то обычно подразумевают именно распознавание неформализованных
документов, при незначительном количестве ввода документов за единицу времени.
В данном случае на первое место выходит именно технология OCR. Поэтому когда
речь идет о рынке OCR, то обычно имеют в виду рынок коробочных программ распознавания
неформализованных документов для персонального применения. Напротив, ввод формализованных
документов — это технология, которая обычно используется в организациях и имеет
массовый характер. В данном случае наряду с распознаванием текстов встает масса
технологических проблем — организация поточного сканирования, распределенной
обработки, встраивание решения в корпоративные системы документооборота и т.д.
Этот сектор обычно называют Document Capture.
В технологическом смысле Document Capture — это комплекс мероприятий по переводу
бумажных документов в электронный архив для хранения и обеспечения доступа к
ним. А в отношении доли рынка под этим понимают проектный рынок ввода документов,
а не коробочные решения. Согласно вышеописанной классификации объем мирового
рынка OCR составляет порядка 80 млн. долл. При этом лидером этого рынка является
компания ScanSoft, имеющая оборот около 60 млн. долл. Рынок Data Capturing в
несколько раз больше — порядка 300 млн. долл. Поскольку рынок Data Capturing
является более проектным бизнесом, здесь нет столь явного лидера, как на рынке
OCR. Около 50% серьезных контрактов получают четыре крупные компании: Cardiff
Software, ReadSoft, Kofax, TIS. Поскольку в проектном бизнесе географическая
близость к заказчику имеет чрезвычайно важное значение, выйти на западный рынок
российским компаниям весьма сложно. Напротив, говоря о мировом рынке OCR, необходимо
отметить выдающиеся успехи отечественной компании ABBYY: доля ее на мировом
рынке в последние пять лет постоянно растет. На сегодняшний день компания имеет
лучшие по качеству распознавания системы в мире. В 2001 году компания ABBYY
оценивала свою долю на мировом рынке OCR в размере 10-12%, а в 2002 году она
намеревается выйти на уровень 15 млн., что составит порядка 15-20% мирового
рынка. Также ABBYY сейчас активно продвигает свои технологии на мировом рынке
ICR — продукт ABBYY FormReader позволяет эффективно обрабатывать большие объемы
различных форм: анкет, опросных листов, бланков, заявлений клиентов и т.д. На
рынке OCR также активно работает компания Cognitive Technologies, которая в
меньшей степени делает упор на рынок коробочного продукта и больше ориентирована
на рынок OEM и на проектный отечественный рынок.
Руководство Cognitive Technologies максимальное внимание уделяет вопросам встраивания
технологии OCR в интеграционные решения с элементами архивного хранения и обеспечения
документооборота. Системами распознавания Cognitive Technologies комплектуется
продукция ведущих мировых производителей офисной техники: Hewlett-Packard, Seiko
Epson, Canon, Oki, Olivetti. Cognitive Technologies активно развивает направление,
связанное с распознаванием форм.
Классификатор International Data Corp (IDC)
Как мы уже отмечали, при оценках объема рынка систем ввода документов встречаются
различные подходы. Выше мы привели оценку компании ABBYY, согласно которой объем
рынка Document Capture составляет примерно 300 млн. долл. При этом следует иметь
в виду, что данная цифра относится к стоимости программного обеспечения. Существуют
и другие подходы. В частности, в подходах оценки рынка IDC нет разделения на
программную и аппаратную часть, а рассматривается стоимость решения, куда включаются
все элементы. Видимо, именно по этой причине оценки мирового рынка имиджинга,
по данным IDC, имеют на порядок большие значения (рис. 9).
По методике IDC системы имиджинга и ввода документов рассматриваются как составляющие
рынка систем управления документами и бизнес-процессами (рис.
9). Согласно исследованию IDC, эти рынки в год растут примерно на 30% и
к концу 2002 года в сумме достигнут 32 млрд. долл.
На рис. 9 показана динамика роста пяти сегментов рынка:
Full-text, COLD, Imaging, Workflow, EDM. Поясним данные термины.
Full-text — технология, при которой после сканирования происходит распознавание
текстов документа.
Imaging (имиджинг) — сканирование изображений с ручным или автоматическим индексированием.
COLD (Computer Output to Laser Disk) — система архивирования данных (бизнес-отчетов,
архивов делопроизводства и т.п.) на CD с высокой степенью компрессии и с возможностью
быстрого извлечения. Система COLD позволяет перевести около миллиона бумажных
страниц на один CD. Программное обеспечение позволяет не только архивировать,
но и индексировать документы. Обычно под системами COLD понимают и программную,
и аппаратную части.
Workflow (документооборот) — это процесс организации электронных документов,
при котором документы движутся от сотрудника к сотруднику по схемам маршрутизации
на основе заранее определенной логики (жесткая маршрутизация) или по маршрутам,
заданным самими сотрудниками (гибкая маршрутизация). Сейчас этот термин стал
шире и понимается как обозначение механизмов, осуществляющих верхний уровень
интеграции в рамках информационных систем уровня предприятия.
EDM (Electronic Document Management) — системы управления документами. Вообще
говоря, Workflow является частным случаем EDM, хотя в IDC этот факт почему-то
игнорируют. В индустрии давно уже перестали разделять эти термины. Видимо, в
данном контексте под термином EDM подразумевается в узком смысле система хранения
документов и обеспечения коллективного доступа к ним для совместной работы.
Различия в терминологии и методиках определения объемов рынка связаны с тем,
что разные группы компаний пришли на рынок ввода документов, так сказать, с
разных сторон, причем каждая со своим видением методов решения задач. Но сегодня
разделить эти рынки, как это пытается сделать IDC, достаточно сложно. Например,
в ближайшие три-четыре года хранение документов на CD и DVD, скорее всего, станет
частью истории, поскольку стоимость хранения на жестких дисках постоянно приближается
к стоимости самих этих носителей, в то время как жесткие диски позволяют организовать
намного более оперативный доступ и обеспечивают, хоть это и может показаться
странным, существенно большую надежность хранения (за счет использования RAID-массивов).
Но сложность здесь в том, что если произойдет полный переход на системы хранения
информации на жестких дисках, то аналитики из IDC не смогут определить, куда
пошел конкретный RAID-массив: на архивное хранение или, например, на работу
на сервере баз данных. Короче говоря, терминология и разделение сегментов рынка,
с одной стороны, не стандартизованы, а с другой — быстро стареют.
Возможно, более корректный классификатор можно представить, объединив понятия
Workflow, EDM в одну группу, Imaging и Full-text — в другую, а COLD — в третью.
Говоря о вертикальном делении рынка, аналитики IDC свидетельствуют, что около
70% представленного на рис. 9 рынка приходится на четыре
основных сегмента: страхование, госсектор, банки и финансовые услуги. Другие
15% делятся между здравоохранением, управлением непрерывным и дискретным производством.
Таким образом, рынок коробочных OCR-продуктов в этом классификаторе просто отсутствует.
Из изученных нами подходов к определению рынка систем ввода документов наиболее
полезным нам показался тот, что учитывает масштаб ввода документов, о котором
мы и расскажем подробнее.
Классификатор, учитывающий масштаб технологии
На наш взгляд, произвести наиболее удачное деление рынка продуктов для систем
ввода документов можно на основании двух факторов: масштаба производства и типа
вводимых документов — формализованных и неформализованных. Согласно данному
подходу рынок систем ввода документов можно разделить на пять основных секторов:
- Продукты для персонального ввода документов.
- Продукты для промышленного ввода документов.
- Продукты для ввода форм.
- Продукты для промышленного ввода форм.
- Гибридные комплексные решения.
Продукты для персонального ввода документов
В этом сегменте рынка следует прежде всего выделить продукт FineReader — программу,
которая отличается лучшей в мире точностью распознавания текстов. В этом году
появилась очередная, шестая версия FineReader (об этом продукте можно прочитать
в КомпьютерПресс, № 7’2002, а также найти на нашем CD-ROM). У компании Cognitive
Technologies в этом секторе тоже есть свое решение — продукт CuneiForm. Это
система распознавания текстов, обеспечивающая преобразование бумажных документов
и электронных графических файлов в редактируемый текст, (об этом продукте мы
тоже уже писали в КомпьютерПресс № 9’2001). В этом году вышла новая версия системы
CuneiForm — V10. Следует отметить, что эта версия обладает более высоким уровнем
пользовательских свойств и по качеству распознавания русскоязычных текстов и,
согласно утверждениям разработчиков, по функциональным возможностям не уступает
FineReader.
Продукты для промышленного ввода документов
На российском рынке промышленные системы ввода документов представлены решениями
компании Kofax, о которых мы почти не упоминали в нашем журнале, поэтому хотели
бы остановиться на них более подробно. Компания Kofax специализируется на системах
ввода документов для проектов малых и средних масштабов. Основные отличительные
особенности технологии — это мощные системы поддержки сканирования и обработки
изображений, возможность встраивания дополнительных модулей, возможность работы
через Интернет.
Kofax предлагает следующие семейства продуктов.
ПО для ввода документов и данных под маркой Ascent Capture
Ascent Capture предназначен для потоковой обработки сканируемых документов и
извлечения данных. Максимальный эффект от применения этой системы отмечается
при ежесуточных объемах поступления новых документов — от 1000 до 100 тыс. страниц
в сутки и более. Ascent Capture позволяет сканировать большие объемы форм и
документов и преобразовывать их в изображения, затем индексирует их, так что
в дальнейшем они легко могут быть экспортированы в указанную СУБД, использованы
в системе управления документами различных производителей.
Использование Ascent Capture позволяет снизить расходы на операции ввода документов
за счет использования технологий пакетной обработки, улучшения качества изображений,
оптического распознавания текста и обеспечения интеграции с системами управления
документами и бизнес-процессами.
Архитектура DDI (Document-Data-Internet) позволяет использовать Ascent Capture
для распределенного ввода по Интернету. Данное решение дает возможность применять
недорогие станции сканирования, которые могут быть разбросаны по всему миру
и соединяются с центральным сервером по Интернету. Эта технология обеспечивает
возможность решения сезонных проблем с рабочей силой, 24-часовой режим работы
и увеличение мощности систем при пиковых нагрузках.
Kofax специализируется именно на промышленных системах ввода документов, и несмотря
на то, что компания реализует полный цикл ввода, включая распознавание текстов,
нельзя сказать, что в области OCR она занимает лидирующие позиции. Именно поэтому
в Ascent Capture используется встраиваемый модуль распознавания ABBYY FineReader.
Встроенный модуль предоставляет возможность полнотекстового распознавания печатных
документов, обеспечивает возможность ввода индексных полей (в том числе рукописных),
экспорт в PDF, HTML, RTF, TXT, а также поддержку 176 языков распознавания.
Ascent Capture поставляется с 1995 года и на сегодняшний день является наиболее
широко используемым в мире приложением для промышленного ввода — свыше 6 тыс.
пользователей в 2 тыс. организаций по всему миру. Цена на Ascent Capture варьируется
в интервале от 895 долл. до 14 тыс. долл. за лицензию.
В России дистрибьютором Kofax является компания «Весть-Метатехнология» (http://www.vest.msk.ru/),
которая выполняет локализацию продукта и обеспечивает его техническую поддержку.
Недавно компания «Весть-Метатехнология» завершила локализацию программного продукта
Ascent Capture 5.5 с применением OCR-технологий компании ABBYY. Ascent Capture
работает с системами документооборота таких производителей, как Documentum,
Hummingbird, IBM, Microsoft, и со многими другими. Именно возможности сопряжения
Ascent Capture с продуктами сторонних фирм представляют особый интерес для потенциальных
клиентов в России.
Новая версия программного продукта Ascent Capture содержит усовершенствованные
средства администрирования системы. Расширены возможности модуля импорта данных
в формате XML.
Оборудование для сканирования и обработки изображений под
марками Adrenaline и VRS
Продукты Adrenaline и VRS предназначены для того, чтобы повысить качество изображений
документов, получаемых с высокоскоростных промышленных сканеров.
Контроллеры Adrenaline устанавливаются в слот PCI в любом стандартном PC под
управлением Windows и соединяются с высокоскоростным сканером.
VRS (VirtualReScan) — это OEM-продукт, который устанавливается в сканер и позволяет
получать изображения более высокого качества. В результате значительно снижается
стоимость операции ввода за счет уменьшения ручного труда.
Adrenaline и VRS поддерживают практически все популярные имиджинг-системы для
ввода документов, включая продукты фирм Kofax, IBM, FileNET, Optika, Cardiff,
Captiva, Microsystems, Datacap, icomXpress и многих других компаний.
Цены на контроллеры Adrenaline — от 1395 до 3595 долл.
В настоящее время компания Cognitive Technologies разрабатывает собственное
решение в области промышленного ввода документов. Планируется, что оно будет
обладать теми же функциональными возможностями, что и решения Kofax, при более
доступной цене.
Продукты для ввода форм
ABBYY FormReader
ABBYY FormReader, основанный на технологии FineReader, обеспечивает высокую
степень распознавания печатных символов, меток и штрих-кодов. Уровень корректного
распознавания рукописных символов достигает по ряду проектов 98%, в зависимости
от качества заполнения. Автоматический контроль результатов распознавания с
помощью проверок по словарям и базам данных обеспечивает высокую корректность
информации.
ABBYY FormReader позволяет легко настраиваться на новые формы. Создание шаблона,
в соответствии с которым будет обрабатываться форма, происходит в редакторе,
который не требует навыков программирования (рис. 10).
Использование ABBYY FormReader, установленного на один компьютер, позволяет
ежедневно вводить от 500 до 1000 страниц, в зависимости от сложности формы и
аппаратной конфигурации.
Процедура создания шаблона формы в большинстве случаев достаточно проста. Программа
позволяет создать до 99 различных шаблонов форм на один пакет, то есть ABBYY
FormReader способен различить и идентифицировать в едином потоке указанное число
форм.
Процедура ввода документа включает следующие этапы: вначале производится сканирование
незаполненной формы. Затем система находит такие элементы форм, как линии, текст,
повторяющийся на всех формах, штрих-коды, что позволяет избежать их ручного
выделения.
Далее пользователь указывает поля, которые должны содержать текст для распознавания,
и для каждого из этих полей определяет колонку в таблице базы данных, соответствующую
этому полю.
На следующем этапе определяются языки распознавания, типы данных для полей и
правила контроля. ABBYY FormReader предлагает большое число готовых правил контроля,
которые позволяют гарантировать правильность ввода информации.
Система Cognitive Forms
Cognitive Forms обладает основными возможностями ABBYY FormReader, а также
включает возможность обрабатывать различные типы форм в одном потоке и позволяет
осуществлять автоматическую проверку корректности данных (рис.
11).
Cognitive Forms также может обрабатывать различные типы форм в одном потоке
и осуществлять автоматическую проверку корректности данных.
В системе реализована уникальная функция Drag&Recog, которая существенно
упрощает процедуру распознавания для пользователя. Для этого пользователю нужно
лишь с помощью мыши выделить требуемый фрагмент отсканированного документа и
перетащить его в поле распознавания.
В программный комплект Cognitive Forms входит отдельный модуль «Дизайнер форм»,
с помощью которого пользователь сам может создавать формы документов, задавать
описания полей и варианты контекстных проверок. Таким образом система позволяет
не только обрабатывать формы, но и создавать их.
В новой версии системы, вышедшей в апреле текущего года, реализована возможность
единовременной обработки не только бумажных, но и электронных форм документов
в форматах HTML и PDF. На сегодняшний день это единственная российская система,
позволяющая осуществлять подобную операцию. Это значительно расширяет функциональные
возможности системы, разрешая осуществлять сбор и обработку документов как посредством
сканирования бумажных копий, так и через Интернет. В настоящее время большая
часть корпоративных участников российского рынка перешла на одновременное использование
как бумажных, так и электронных форм документов, и поэтому появление подобной
системы крайне актуально.
Корпоративная система Cognitive Forms установлена более чем в 400 российских
организациях, в числе которых Пенсионный фонд РФ, Газпром, Сбербанк РФ, Газпромбанк.
К настоящему моменту с помощью системы было обработано более 100 млн. различных
документов.
Продукты для промышленного ввода форм
В этом секторе также можно указать решения на базе вышеописанных технологий
CuneiForm и ABBYY FormReader, которые адаптированы для промышленного использования,
а также для систем потокового сканирования и распределенной обработки.
Например, система Cognitive Forms, установленная в Пенсионном фонде, ежедневно
обрабатывает около 50 тыс. различных документов. При необходимости возможности
системы позволяют обрабатывать до миллиона документов в день.
Работа системы включает потоковое сканирование, сортировку и контроль качества
изображения, автоматическое распознавание, верификацию, экспорт в базу данных.
Гибридные комплексные решения
В данном секторе можно выделить решение InputAccel компании ActionPoint. Приобретя
компанию Captiva, компания ActionPoint получила мощное комплексное решение,
включая развитые средства ввода форм. Решение фирмы ActionPoint достаточно широко
применяется в мире, однако мало распространено в России. Поэтому охарактеризуем
его очень кратко: мощная система для проектов среднего и крупного масштаба,
которая обладает соответствующими встроенными средствами разработки, а также
средствами поддержки распределенной работы и кластеризации на серверах.
Автор благодарит компании ABBYY и Cognitive Technologies за предоставленные
материалы.
КомпьютерПресс 9’2002

Лекция 3. Технологии перевода бумажных документов в электронные

На первом этапе перевода документа в электронную форму производится его сканирование и создается электронная копия документа в виде изображения. Изображение, полученное в результате сканирования, называют образом документа. Сканирование является начальным этапом любой системы автоматизированного ввода документов. В процессе сканирования может выполняться программная обработка изображения, а также производится визуальный контроль качества.

Схема перевода бумажного документа в электронный вид

Для того чтобы можно было редактировать документ, осуществлять поиск по нему или использовать его фрагменты, необходимо перевести полученный образ в текстовый документ, понятный офисным программам. Поэтому второй этап заключается в распознавании отсканированных документов и осуществляется с помощью программы оптического распознавания символов (optical character recognition, OCR).

С точки зрения перевода документов в электронный вид их условно делят на формализованные, неформализованные и специальные.

Формализованные документы — это документы, в которых заранее определена форма: расположение обязательных полей, в которые заносятся данные. Например, бланки, накладные, анкеты, картотеки и т. д. Неформализованные документы — это документы произвольной формы: договоры, письма и т. д. К специализированным относятся такие документы как, например, карты и отпечатки пальцев. Перевод каждого из перечисленных видов документов имеет свою специфику.

Ввод формализованных документов Задача ввода формы (например анкеты) состоит в превращении образа документа в строчку базы данных, содержащую соответствующую информацию. При этом особенностью ввода форм в компьютер является необходимость распознавания текстов, заполненных от руки.

Если форма должна распознаваться компьютером, заполняющего просят ввести текст раздельными буквами, и такой текст называют рукопечатным. Технологии распознавания рукопечатных символов обозначаются термином ICR (Intelligent Character Recognition). Распознавание рукопечатных символов представляет собой более сложную задачу, поскольку требуется распознать символ, вписанный в форму от руки с учетом возможных его отклонений, обусловленных индивидуальными особенностями почерка.

При вводе форм также может потребоваться распознавание различных меток и знаков, для которого тоже существует свой термин: OMR (Optical Mark Recognition). Например, в бюллетенях для голосования голосующего просят поставить любой знак напротив фамилии кандидата, и задача компьютера — распознать, есть в определенном поле какой-нибудь знак или нет.

При распознавании неформализованных документов и незначительном количестве ввода документов за единицу времени на первое место выходит технология OCR. Напротив, ввод формализованных документов — это технология, которая обычно используется в организациях и имеет массовый характер. В данном случае наряду с распознаванием текстов встает масса технологических проблем: организация поточного (массового) сканирования, распределенная обработка и т. д. Технологии, обеспечивающие решение данного набора задач, называют технологиями Data Capture.

Data Capture (дословно «захват данных») — это комплекс мероприятий по переводу бумажных документов в электронный архив для хранения и обеспечения доступа к ним. На рынке ввода и распознавания документов и форм наиболее активно работают фирмы ABBYY и Cognitive Technologies.

Системы ввода документов с учетом масштаба технологии можно разделить на четыре вида:

Для персонального ввода неформализованных документов следует прежде всего выделить продукт Fine. Reader. Программу отличает высокая точность распознавания и оформления документа; большое количество языков распознавания, интеграция с Microsoft Office. Для промышленного ввода неформализованных документов можно выделить Ascent Capture — программа, предназначенная для потоковой обработки сканируемых документов и извлечения данных. Максимальный эффект от применения этой системы отмечается при объемах документов — от 1000 до 100 000 страниц в сутки. Среди российских разработок промышленного ввода документов можно выделить систему электронного архива на базе ЕВФРАТ компании Cognitive Technologies.

Для персонального ввода формализованных документов наиболее известными являются ABBYY Form. Reader и система Cognitive Forms. ABBYY Form. Reader обеспечивает высокую степень распознавания печатных символов, меток и штрих-кодов. Автоматический контроль результатов распознавания с помощью проверок по словарям и базам данных обеспечивает высокую корректность информации. Программа легко настраивается на новые формы. Использование ABBYY Form. Reader, установленной на один компьютер, позволяет ежедневно вводить от 500 до 1000 страниц. Cognitive Forms осуществляет автоматическую проверку корректности данных и позволяет вводить от 2000 до 3000 страниц ежедневно.

Для промышленного ввода формализованных документов можно выделить решения на базе технологий Cunei. Form и ABBYY Form. Reader, которые адаптированы к промышленному использованию, а также ориентированы на системы потокового сканирования и распределенной обработки.

Лекция 4. Документационное обеспечение управления

Процесс организации работы с документами, включая их создание, регистрацию, контроль, продвижение, систематизацию и хранение, называют делопроизводством. Каждый документ в процессе движения должен проходить через три операции: 1) регистрация 2) контроль 3) направление в дело. Дело — это совокупность документов, относящихся к определенному вопросу. По истечении установленного срока дела передаются на хранение в архив.

Схема документационного обеспечения управления

Документооборот — это движение документов от момента их создания до момента окончания работы с ними. Различают внешний и внутренний контуры документооборота. Внешний контур начинается с входящих документов, которые поступают на предприятие извне. Входящие документы — это документы, поступающие на предприятие от других организаций(приказы, постановления, письма от заказчиков и т. п. ) Исходящие документы — это документы, которые предприятие отправляет в другие организации (телеграммы, отчеты, и т. п. ) Если документ создан в самой организации, то возникает внутренний контур прохождения документа.

Виды классификации документов Принцип классификации Подклассы По происхождению Служебные, личные По срочности Срочные, несрочные По гласности Секретные, сов. секретные, для служебного пользования, несекретные По форме Типовые, индивидуальные По срокам хранения Временного хранения, долговременного, постоянного По характеру информационных связей Входящие, исходящие и внутренние По типу носителей Бумажные, электронные

Особенно следует выделить класс управленческих документов, к которым относятся: • организационные документы (устав предприятия, штатное расписание, должностные инструкции сотрудников); • распорядительные (распоряжения, приказы, решения); • информационно-справочные (письма, факсы, докладные записки, телефонограммы); • документы по личному составу (трудовые книжки, контракты с сотрудниками, личные дела сотрудников).

Нормативная база делопроизводства — это законы и иные правовые акты, которые регламентируют создание и продвижение документов, описывают структуру и функции служб делопроизводства. Единые требования к оформлению документов зафиксированы в Государственном стандарте (ГОСТ).

Основные требования к оформлению документов

Служебные документы оформляются на бумаге стандартных форматов. Основные форматы документов Обозначение Размеры, мм А 0 841 х1189 А 6 105 х148 А 1 594 х841 А 7 74 х105 А 2 420 х594 А 8 52 х74 А 3 297 х420 А 9 37 х52 А 4 210 х297 А 10 26 х37 А 5 148 х210 А 11 18 х26

Чаще всего используются форматы А 4 и А 5. Документы, содержащие большие таблицы и схемы, могут оформляться на бумаге формата A 3. Каждый документ должен иметь поля. Согласно ГОСТу верхнее и нижнее поля составляют 20 мм, левое 20 мм и правое 10 мм. На практике левое поле иногда устанавливают размером 35 мм для удобства переплета. Большая часть документов оформляется на бланках организации. Бланк — это стандартный лист бумаги с воспроизведенной на нем постоянной информацией документа и местом, отведенным для переменной информации.

Информацию в документе несут не только текстовые фрагменты, но и все элементы оформления текста — реквизиты. Для каждого вида документов существует свой набор реквизитов, предусмотренный ГОСТом. Реквизит (от лат. Requisitum — необходимое) это обязательный информационный элемент документа, строго закрепленный за определенным местом на бланке, листе.

Схема расположения реквизитов

Пример использования реквизитов в письме

Описание реквизитов 01 02 03 04 05 06 07 08 09 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 Государственный герб Герб субъекта Эмблема организации или товарный знак (знак обслуживания) Код организации Основной государственный регистрационный номер (ОГРН) юридического лица Идентификационный номер налогоплательщика/код причины постановки на учет (ИНН/КПП) Код формы документа Наименование организации Справочные данные об организации Наименование вида документа Дата Регистрационный номер документа Ссылка на регистрационный номер и дату документа Место составления или издания документа Адресат Гриф утверждения документа Резолюция Заголовок к тексту Отметка о контроле Текст документа Отметка о наличии приложения Подпись Гриф согласования документа Визы согласования документа Оттиск печати Отметка о заверении копии Отметка об исполнителе

Каждый документ имеет: Заголовочную часть (содержит реквизиты, расположенные до текста) Основную часть (текст по сути документа) Оформляющую часть (реквизиты, расположенные после текста). В зависимости от типа и назначения, документ может содержать разный набор реквизитов. Однако есть группа обязательных реквизитов, необходимых для обеспечения юридической силы документа.

Обязательные реквизиты Наименование организации — составителя документа (реквизит 08) должно соответствовать полному официальному названию, зарегистрированному в учредительных документах. Наименование вида документа (реквизит 10) должно соответствовать его содержанию (акт, приказ, протокол, справка и т. п. ). Название записывается прописными буквами и выделяется полужирным начертанием шрифта. Для писем вид документа не указывается.

Дата документа (реквизит 11) обеспечивает его юридическую силу. Датой документа является: — дата подписания (для приказов, писем, факсов, справок); — дата утверждения (для планов, отчетов, правил, инструкций); — дата события, которое зафиксировано в документе. Дат на документе может быть несколько. Основной считается дата подписания документа.

Регистрационный номер документа (реквизит 12) — это условное буквенно-цифровое обозначение, которое присваивается документу при регистрации. Для внутренних документов это обычно порядковый номер, считая от начала года. Заголовок к тексту (реквизит 18) отражает основное содержание документа, например «о совместной деятельности». Короткие документы, выполненные на бумаге формата А 5 (извещения, телеграммы, справки и т. п. ), создаются без заголовка. Текст документа (реквизит 20) — основная часть документа, несущая информацию. Текст печатается с полуторным межстрочным интервалом (для документов формата А 5 допускается одинарный межстрочный интервал).

Подпись (реквизит 22) — обязательный реквизит, который включает: — наименование должности официального лица; — личную подпись; — расшифровку — инициалы и фамилию подписавшего документ должностного лица. Согласно ГОСТу, инициалы (буквы имени и отчества) пишутся перед фамилией. Если документ подписывается несколькими равными по должности лицами, то их подписи располагаются на одном уровне, если документ подписывается несколькими разными по должности лицами, то их подписи располагаются последовательно, в порядке убывания значимости занимаемой должности.
В этой статье мы обсудим ключевые вопросы понимания перевода документов в электронный вид и расскажем о том, что стоит знать о формах и форматах, и какими нормативными актами это урегулировано.
Электронный документ может применяться в любых правоотношениях, если законодательство РФ не содержит прямого запрета на их использование. В противном случае законодательство должно указать:
- возможность составления (выставления, заключения) документов в электронном виде;
- возможность подписания электронных документов электронной подписью;
- кроме этого могут быть дополнительные требования к форме, порядку и т.д.
Центральный гарант юридической силы электронного документа – это электронная подпись (ЭП). Однако сама по себе ЭП является лишь частью целого ряда мероприятий по обеспечению документов юридической силой. Что-то вы можете сделать самостоятельно, например, обеспечить соответствие форматам, а часть – только с помощью специалистов.
Например, неформализованные документы – письма, договора, доверенности, техническая документация и другая корреспонденция – свободны от жесткого регулирования со стороны государства. Поэтому их юридическая сила определяется соглашением об обмене, в котором могут быть прописаны все требования к реквизитам, форме и формату, и наличием электронной подписи, не обязательно квалифицированной.
Другое дело, когда речь идет о формализованных документах. Эти документы называются формализованными именно потому, что для них в отдельных законодательных актах прописаны жесткие требования к формату и регламенту передачи. Эти документы напрямую влияют на правильность налоговых расчетов, поэтому соблюдение всех процедур передачи для них критически важно.
Формат и форма
Часто бухгалтеры путают формат и форму документа. В понимании оператора ЭДО формализованный документ – документ, созданный по формату ФНС. Фактически, это структурированный набор данных, который можно визуально отобразить в любой форме. А форма – это то, как зрительно документ должен выглядеть, то есть, по сути, его печатная форма.
Форма счета-фактуры определяется в законе ФЗ 402 «О бухгалтерском учете», формат отдельным приказом ФНС.
Когда говорим о форматах и формах, мы всегда четко расставляем понятия. Формат – это контейнер для информации, а форма – ее визуальное отражение.
А теперь, когда основополагающие понятия мы рассмотрели, давайте кратко рассмотрим основные НПА и виды электронных документов.
Электронный договор
|
Законодательство |
Комментарии |
|
|---|---|---|
|
Составление (выставление, заключение) |
Договор в письменной форме может быть заключен путем обмена документами посредством электронной или иной связи (п. 2 ст. 434 ГК РФ). |
С 1 июня 2015 года вступили в силу поправки к данному пункту, он стал более «современным» и детализированным: «Договор в письменной форме может быть заключен путем обмена электронными документами, передаваемыми по каналам связи». |
|
Подписание |
Использование при совершении сделок электронной подписи допускается в случаях и в порядке, предусмотренных законом, иными правовыми актами или соглашением сторон (п. 2 ст. 160 ГК РФ). |
При использовании квалифицированной ЭП соглашение заключать не обязательно. В соответствии с п. 1 ст. 6 ФЗ №63 «Об электронной подписи» квалифицированная ЭП признается равнозначной собственноручной подписи, то есть этот пункт выполняет функцию указанного в п. 2 ст. 160 ГК РФ соглашения сторон. |
|
Дополнительные требования |
— |
Зависит только от отрасли. В общем случае дополнительных требований нет. |
Электронная первичка
|
Законодательство |
Комментарии |
|
|---|---|---|
|
Составление (выставление, заключение) |
Первичный учетный документ составляется на бумажном носителе и (или) в виде электронного документа, подписанного электронной подписью (п. 5 ст. 9 ФЗ от 06.12.11 №402 «О бухгалтерском учете»). |
Есть рекомендуемые форматы ТОРГ-12 и Акта о выполнении работ (оказании услуг), утвержденные Приказом ФНС РФ от 21.03.2012 г. №ММВ-7-6/172@. Они не обязательны к использованию, но обладают рядом преимуществ, например, простота автоматизации и возможность представления в госорганы в электронном виде по ТКС. Кстати, поддержкой форматов занимаются операторы ЭДО СФ, и самим пользователям не нужно думать о реализации. |
|
Подписание |
Жестких требований о подписании первички каким-либо видом ЭП нет, но мы рекомендуем использовать квалифицированную ЭП — при представлении формализованной первички ФНС сможет проверить только ее. |
|
|
Дополнительные требования |
— |
— |
Электронный счет-фактура
|
Законодательство |
Комментарии |
|
|---|---|---|
|
Составление (выставление, заключение) |
Счет-фактура может быть выставлен на бумажном носителе и (или) в электронной форме (п. 1 ст. 169 НК РФ). |
|
|
Подписание |
Счет-фактура, составленный в электронной форме, подписывается усиленной квалифицированной электронной подписью руководителя организации либо уполномоченных на это лиц (п. 6 ст. 169 НК РФ). |
|
|
Дополнительные требования |
Счета-фактуры составляются в электронной форме соответствии с установленными форматами и порядком (п. 1 ст. 169 НК РФ). Порядок выставления электронных счетов-фактур утвержден Приказом Минфина от 25.04.2011 №50н. Форматы электронных счетов-фактур, в том числе корректировочных, утверждены Приказом ФНС от 04.03.2015 №ММВ-7-6/93@. |
Форматы и порядок поддерживают операторы ЭДО СФ, то есть самим компаниями не нужно думать о том, как реализовать их исполнение у себя. |
Итак, все нужные положения указаны, дополнительные требования описаны и уже реализованы и можно начинать обмен. Сам порядок обмена ЭСФ доступен и понятен.
Порядок предоставления электронных счетов-фактур в контролирующие органы
Процесс представления электронных документов в налоговые органы уже выстроен и работает. Порядок истребования и представления документов в электронном виде и формат описи, которая прикладывается к представляемым документам, уже не первый год поддерживаются операторами ЭДО, через которых сдается отчетность. Указанная ниже таблица поможет вам сориентироваться, когда придет время представлять электронные документы.
|
В каком виде пришло требование/Представляемый эл. документ создан |
На бумаге |
В электронном виде |
|---|---|---|
|
По форматам ФНС |
Распечатать, сделать отметку о подписании квалифицированной ЭП, заверить штампом «Копия верна» и подписью руководителя, представить в бумажном виде. |
Выгрузить из системы оператора ЭДО СФ файлы счета-фактуры и ЭП, загрузить в систему сдачи отчетности, составить опись в системе сдачи отчетности, подписать ЭП и отправить. |
|
Не по форматам ФНС |
Распечатать, сделать отметку о подписании квалифицированной ЭП, заверить копию штампом и подписью руководителя, представить в бумажном виде. |
Суды начали переход к ЭДО чуть позже, но набирают скорость очень быстро. В соответствии с п. 3 ст. 75 АПК РФ электронные документы могут использоваться в качестве письменных доказательств в арбитражных судах. Сканы бумажных документов можно подать с помощью специального сервиса. И один из самых важных законопроектов в этой области позволит использовать электронные документы в разных судах, не только в арбитражном. Подробно об ЭДО в судебном делопроизводстве эксперты Synerdocs и ООО «КРИПТО-ПРО» рассказали на вебинаре, запись которого доступна на сайте.
Будущее
Как мы видим, уже есть основа законодательства, порядки и форматы. Сервисы, через которые ведется обмен, сами поддерживают эти технологии и разрабатывают разнообразные решения, максимально упрощающие работу пользователей.
Ждут изменений те отрасли, в которых еще не введен ЭДО, именно поэтому государство начало уделять внимание этому вопросу. Например, в нотариате и кадрах и других сферах уже постепенно идет переход. Частично это связано, конечно, с гонкой за хорошее место в рейтинге стран мира по уровню развития электронного правительства, поэтому как минимум в ближайшее время развитие будет продолжаться в активном темпе.
С чего начать перевод в электронный вид распорядительных документов организации? Как регламентировать новые правила оформления документов? Как внести изменения в инструкцию по делопроизводству? Ответы на эти вопросы – в статье.
Электронные документы в организации
К электронным служебным запискам все уже привыкли. Теперь все чаще встречаются электронные приказы и распоряжения. Многие организации экспериментируют, полностью или частично переводя в электронный вид свои распорядительные документы.
Можно «потренироваться» на некоторых видах распорядительных документов, если организация практикует их разделение. Например, в 2022 году перевести в электронный вид только распоряжения руководителей по направлениям деятельности и приказы по административно-хозяйственным вопросам. А если эксперимент удастся, то с 2023 года можно будет сделать электронными и приказы по основной деятельности.
Таким образом, перед секретарем стоит задача подготовить перевод в электронную форму некоторых разновидностей распорядительных документов организации и внести соответствующие изменения в инструкцию по делопроизводству, чтобы они вступили в силу с 01.01.2022. Расскажем, как последовательно подойти к ее решению.
Определение категорий распорядительных документов
Если в электронный вид переводят не абсолютно все распорядительные документы, а только некоторые их разновидности, то эти разновидности нужно установить и определить. Что такое распоряжение именно в этой организации и что его отличает от приказа? Какие вопросы относятся к административно-хозяйственным? О носителе документа пока речь не идет. Задача – уточнить, есть ли в инструкции по делопроизводству соответствующие определения, и если нет, подготовить их.
Традиционно в инструкции по делопроизводству распорядительным документам посвящается соответствующий подраздел. В нем раскрывают особенности оформления приказов и, если организация их использует, распоряжений. Определения терминов вносят в раздел «Термины, определения и сокращения». Необходимо проследить, чтобы:
- в разделе «Термины, определения и сокращения» были определения приказа, распоряжения и административно-хозяйственных вопросов, а среди сокращений – аббревиатура АХВ;
- в разделе «Распорядительные документы» был приведен конкретный перечень ситуаций, при которых издают приказы и распоряжения.
Обратите внимание на то, что при формулировании определений нужно учитывать особенности именно вашей организации. Так, если общее определение распоряжения подразумевает только издание в целях разрешения оперативных вопросов[1], то в локальном нормативном акте (далее – ЛНА) конкретной организации нужно адаптировать его и написать, кто, например, имеет право издавать распоряжения (Таблица).
Перевод распорядительных документов в электронный вид: на что обратить внимание
При переводе распорядительных документов в электронный вид нужно обратить особое внимание на некоторые очень важные процессы их создания.
К таким процессам относятся:
- оформление;
- подписание;
- ознакомление;
- хранение.
Оформление
Бланки распорядительных документов утверждены на локальном уровне инструкцией по делопроизводству – той самой, что предстоит изменить. До сих пор эти бланки были рассчитаны на бумажный носитель. Предстоит внести бланк в систему электронного документооборота (далее – СЭД) и, возможно, изменить его под электронный формат. Также в СЭД нужно задать настройки для автоматического заполнения полей бланка. За это несет ответственность техническая поддержка СЭД или ИТ-отдел.
В инструкции по делопроизводству после изменений должны остаться утвержденные бланки:
- приказа по основной деятельности (для подготовки на бумажном носителе);
- распоряжения (электронный);
- приказа по административно-хозяйственным вопросам (электронный).
[1] Словарь видов и разновидностей современной управленческой документации (ВНИИДАД, 2014).
Материал публикуется частично. Полностью его можно прочитать в журнале «Секретарь-референт» № 12, 2021.
Конвертация текста с бумажных носителей в электронный вид
Привет друзья. По окончанию последней статьи пришла идея написать о «Конвертации текста с бумажных носителей в электронный вид» так как о переделке PDF в FB2 я уже писал. Думаю, что и данная статья будет уместной.
На сегодняшний день достаточно актуальна проблема конвертации текста с бумажных носителей в электронный вид. Особенно это трудозатратно в промышленных масштабах.
В конце двадцатого века появились специализированные системы, занимающиеся оптическим распознаванием символов. Все, что необходимо для их работы, это полученные путем сканирования или фотографирования изображения текстовых данных.
Система несколькими этапами обрабатывает изображения, сопоставляя каждому участку соответствующий символ, и сохраняет результат в выбранный пользователем формат.
Однако, такие системы не всегда точны, в среднем они удачно переводят около 99% данных. Правильность конвертации зависит от многих факторов: угол сканирования документа, пятна, надломы и другие физические повреждения. Поэтому результат работы таких программ нуждается в человеческом вмешательстве.
Но существуют и многоязычные документы. Качество их перевода зависит от способности системы правильно и в нужный момент определять язык текста. Для этого в системах существуют группы языков и встроенные словари, занимающиеся идентификацией слов.
На данный момент существует достаточно большое число коммерческих и открытых для общего пользования программ, таких как “ABBYY FineReader Online”, “Readiris Pro”, “OmniPage”, “CuneiForm” и других, профессионально занимающихся оптическим распознаванием текстов.
Все эти программы используют технологию оптического распознавания символов (ОРС).
ОРС – электронный перевод с бумажного носителя в текстовые данные, которые, могут быть представлены в любом текстовом редакторе.
Этот термин возник в 1929 году, а в 1935 году появилось механическое устройство, работавшее с документами с помощью метода ОРС. Далее этот метод совершенствовался и развивался.
В 90-ых годах российская компания “ОКРУС” создала программу “AutoR”, которая распознавала кириллицу. На тот момент алгоритм был в полной мере «умным» и работал быстро.
Вскоре еще одна компания “ABBYY” создала новую технологию распознавания, которая стала популярной и массово использовалась как обычными пользователями, так и компаниями.
Современные системы, ориентированные на задачу оптического распознавания символов, работают с большими растровыми изображениями источника информации, занимающими до 1Мб памяти.
Работа проводится в несколько этапов.
На первом этапе программа разбивает изображение на блоки текста, опираясь на выравнивание текста и колонки.
Следующий этап заключается в том, что полученные блоки разбиваются на строки. На данном этапе существуют проблемы с восприятием текста по причине того, что страница может иметь физические повреждения или отсканирована под каким-либо углом, тогда, например, у таких букв, как «ё», «j» верхние знаки строки №2 могут быть восприняты как точки для верхней строки №1.
На последнем этапе строки разбиваются на изображения и сопоставляются с определенными символами. Таким образом, ОРС по буквам восстанавливает страницу текста.
Не забудьте оставить свой комментарий. У меня на сегодня все, до встречи в новых статьях.
Как перевести печатный текст в электронный?
Для того чтобы перевести отсканированный или сфотографированный печатный текст, а также pdf-файлы в электронный вариант, существуют специальные программы для распознавания текста. Скачать самые популярные из них вы сможете на этом сайте.
Сфотографированный текст, который распознали подобным образом, можно легко редактировать в ворде, что сэкономит ваше время и силы, так как отпадает нужда вручную печатать нужный вам фрагмент из книги или журнала.
При покупке сканера должен быть установочный диск, в котором есть программа функция распознавания текста. Для перевода печатного текста в электронный нужно отсканировать в этой программе и нажать кнопочку «распознавание». Текст сохранится в формате выбранной программы (обычно это Ворд).
Но бывают случаи, когда у нас нет сканера под рукой, а есть только фотография с текстом. В этом случае нужно воспользоваться специальными программами, которые предназначены для перевода печатного текста в электронный. Например, такой программой является CuneiForm.
Как сделать электронную копию документа
Содержание статьи
- Как сделать электронную копию документа
- Как создать электронный документ
- Как вставить подпись в электронный документ
Электронная копия документа
Сегодня существует множество способов создать копию бумажного документа, перевести с бумажного формата в электронный и т.п. Если для создания копий бумажных документов требуется только ксерокс, то для перевода бумажного документа в его электронный формат потребуется не только специальное оборудование, но и программное обеспечение.
Как создать электронный вариант документа?
Для того чтобы создать электронную копию документа, пользователю потребуется сканер или МФУ (многофункциональное устройство). Разумеется, если потребности в МФУ нет, то и покупать его не стоит, проще обойтись именно сканером. Во-первых, он обойдется гораздо дешевле, а во-вторых, он будет выполнять именно ту функцию, которую надо пользователю, а именно сканировать документ и переводить его в электронный формат.
Для работы сканера потребуется специальное программное обеспечение — драйвер. Обычно он идет в комплекте с устройством, но если его нет, то всегда можно найти в интернете. Можно воспользоваться универсальной программой ABBY Finereader, с помощью которой производится непосредственно сканирование и распознавание текста.
Вся процедура перевода бумажного документа в электронный формат сводится именно к этим двум процедурам (сканированию и распознаванию текста). Длят ого чтобы сделать электронную копию документа, необходимо: перейти в меню «Пуск», а в списке всех программ найти либо драйвер от сканера или МФУ, либо программу ABBY Finereader и запустить ее. После запуска программы и сканера можно открывать крышку и класть на нее бумажный документ текстом вниз. Документ следует расположить на поверхности сканера максимально ровно по отношению к краям рабочей поверхности устройства. Далее требуется как можно плотнее прижать крышку, чтобы освещение не попадало на рабочую поверхность. В противном случае электронный документ получится засвеченный, то есть часть текста, на которую попал свет, не будет видна.
Далее в настройках следует выбрать оптимальные параметры сканирования, такие как цвет, выходной размер, разрешение вывода и др. Когда все будет готово, можно нажимать на кнопку «Сканировать». Когда процедура завершится, следует нажать на «Распознавание», с помощью которого текст будет преобразован в электронный формат, например .doc, и документ можно будет открывать в текстовом редакторе для внесения изменений.







