Комплексное решение для перевода больших
бумажных архивов в электронную форму


Одно из направлений деятельности многопрофильной фирмы Эврика - системная интеграция. Мы являемся одним из основных поставщиков Министерства обороны РФ и Министерства внутренних дел РФ. Иногда нашими заказчиками выступают и крупные гражданские организации - например, Российская Национальная библиотека в Санкт-Петербурге и ГосКомСтат.

В свое время для решения ряда задач, связанных с хранением очень больших объемов информации и выдачи их в режиме реального времени, нами была разработана и создана специальная программно-аппаратная технология под общим названием MediaStream Server. Эта технология использовалась для хранения видео и фотоинформации. Прочитать о ней можно в газете "Компьютер-Информ" N19/97, стр. 29 или на web-сайте газеты по адресу www.neva.ru/compinf.html.

В связи с тем, что все большее число организаций переходит на безбумажные или малобумажные технологии работы с документами, нами было предложено применение этой технологии для создания электронных архивов. Электронные технологии позволяют быстро и эффективно найти нужные документы и легко составить новые, указав ссылки на другие источники. К сожалению, многие фирмы в своих архивах уже содержат десятки и сотни тысяч страниц, и даже при условии прекрасного ведения картотек, необходимо достаточно много времени для их поиска. Кроме того, архивы занимают многие десятки и сотни квадратных метров столь не дешевых нынче помещений. Хранить документы надо в электронной форме.

Неотъемлемым моментом безбумажных технологий является перевод документа в электронную форму. Для того, чтобы предложить заказчику полное решение, нам пришлось заняться также проблемой перевода документов с бумажных носителей на электронные. Существует несколько таких методов, и в каждом конкретном случае надо выбирать либо один из них, либо комбинацию. Самым очевидным решением является сканирование.

Выбор сканера для конкретного варианта - вопрос серьезный. Он определяется объемом накопленного архива, качеством и видом документов, Иногда можно использовать только медленные планшетные сканеры, а если документы отпечатаны на хорошей бумаге, имеют один и тот же формат, то задача выбора сканера обычно не стоит. Можно взять практически любой, устраивающий по скорости сканирования, и как можно дешевле.

Какие же требования выдвигаются к быстрым сканерам, обеспечивающим обработку более 30 листов формата А4 в минуту? Дальнейшее изложение относится именно к ним.

В конструкции любого сканера есть изнашивающиеся детали, подлежащие периодической замене. И очень часто в дешевом сканере приходится менять многие детали после сканирования нескольких тысяч листов.

Другой аспект выбора сканера - стабильность полученного изображения. Это означает, что если вы получили образ какого-либо документа в начале рабочего дня, а потом просканировали его в конце дня, то электронные образы документов должны совпасть. К сожалению, наш печальный опыт говорит, что у 95% быстрых сканеров этого совпадения не будет. Нам также неоднократно приходилось сталкиваться с ситуацией, когда через 15-20 минут работы приходилось останавливать сканер и пылесосом очищать его поверхности, потому что архивные документы содержат очень много пыли.

Итак, можно кратко сформулировать требования, предъявляемые к быстрым сканерам:

Мы долго разыскивали быстрые и мощные сканеры, удовлетворяющие вышеперечисленным требованиям. В конце концов, остановились на сканерах американской фирмы BancTec. Производительность сканеров серии S этой фирмы позволяет сканировать до 220 документов формата А4 в минуту при двухстороннем сканировании. Возможности обработки любых бумажных документов обеспечивается применяемым в сканере механизмом прямой протяжки документа. При необходимости рабочая камера сканера может быть дополнена системой пылеудаления, использующей в качестве устройств создания разрежения либо обычный пылесос (при периодическом удалении пыли), либо специальный вентилятор (при постоянном).

К сожалению, стоимость этих сканеров достаточно высока для отечественных пользователей и массового применения. Именно поэтому для удешевления стоимости проектов фирма Эврика организовала на своих производственных площадях на предприятии ЛОМО сборку этих сканеров под конкретные нужды заказчика.

В поставляемые фирмой BancTec модели специалисты фирмы Эврика устанавливают компьютерную "начинку", т.е. внутри сканера мы устанавливаем свой компьютер. Это приводит, с одной стороны, к удешевлению сканера примерно на 10%. А с другой - позволяет увеличивать мощность встроенного компьютера, т.е. обрабатывать изображения с большей скоростью. В стандартном исполнении внутри устанавливается компьютер на базе процессора Pentium-100 МГц. Сейчас покупателям предлагается модель с процессором Pentium II и тактовой частотой 333 МГц.

При этом быстродействие модуля оцифровки изображения уже не соответствует возможностям установленного внутри компьютера. Поэтому сейчас Эврика разрабатывает новый модуль ввода изображения на базе специализированного видеопроцессора. Он позволит не только увеличить скорость ввода сканируемого изображения, но и взять часть функций по первоначальной обработке с центрального процессора на себя. По предварительным оценкам, при производительности этого процессора около 10 млрд. целочисленных операций в секунду, мы сможем вести распознавание печатного текста с максимальной скоростью 220 страниц формата А4 в минуту. Если не задаваться задачей распознавания текста, а сканировать только для получения и хранения изображения, то скорость обработки может быть значительно выше. По заявлению фирмы BancTec, механическая часть протяжки документов их сканера может обеспечить производительность до 600 страниц формата А4 в минуту. Мы надеемся, что сможем обеспечить ввод изображения с такой же скоростью.

Первую модель планируется выпустить в конце 1998 года.

Краткие технические характеристики
Формат обрабатываемых документов: от А6 до А3 Разрешение: 300 dpi, опционально до 400 dpi Количество градаций серого: 256

Дополнительную информацию можно получит в отделе системных проектов фирмы Эврика по тел. (812) 327-3343


КОМПЬЮТЕР-ИНФОРМ