Компьютер-Информ || Архив || Рубрики || Поиск || Подписка || Работа || О "КИ" || Карта


Системы поиска по массивам неструктурированной информации


За последние несколько лет большинство крупных российских госпредприятий и частных фирм перешли на автоматизированные системы управления. Неотъемлемой частью любой такой системы является СУБД база товаров, клиентов, услуг ит.п. То есть речь идет о том, что необходимо обрабатывать большие массивы жестко структурированных данных. Однако гораздо чаще возникает проблема поиска и выборки необходимой информации из большого неструктурированного массива. Ценность такой информации заключается в том, что она обычно полнее описывает то или иное явление, хотя достоверность подобных данных обычно нуждается в проверке. Для комфортной работы обычно приходится каталогизировать или как-то иначе структурировать данные, что очень дорого, может повлечь за собой появление дополнительных ошибок или потребует больших временных затрат на простой ввод данных и последующую их верификацию. Временной фактор особенно актуален, т.к. неструктурированные данные обычно собираются как побочные и не фильтрутся, а создать логическую модель, способную полноценно охарактеризовать совершенно разнородные объекты, очень и очень тяжело. Всилу всех вышеперечисленных факторов появляется необходимость использования системы, способной осуществлять поиск по неструктурированным данным, т.е. полнотекстовый поиск. Внашем обзоре мы рассмотрим несколько таких систем.

 

И.Бойцов, author@ci.ru

Программный продукт Следопыт3.0 производства компании МедиаЛингва http://www.medialingua.ru предназначен для быстрого поиска документов с учетом морфологии на персональном компьютере, съемных носителях (компакт-дисках, гибких дисках, ZIP-устройствах ит.д.), а также в локальной сети по их содержанию и атрибутам. Следопыт3.0 позволяет осуществлять полнотекстовый поиск документов на русском и английском языках, с учетом морфологии этих языков. Удобство программы заключается в том, что запрос на поиск может задаваться как в виде длинной фразы на естественном языке, так и записываться на формальном языке с использованием логических операторов. При этом допускаются комбинированные запросы на смешанном русско-английском языке. Программа сама учитывает все формы слов запроса, выделяет шумовые слова (я, мне, вам ит.п.) и не учитывает их в дальнейшей обработке. Следопыт3.0 обеспечивает скорость поиска, достаточную для того, чтобы его можно было использовать для поиска файлов в каталогах, содержащих множество разнородных документов различного содержания и объема. Программа предоставляет возможность отслеживать изменения в документах, включенных в результаты поиска, читать содержимое каждого из таких документов в окне предварительного просмотра с подсветкой найденных терминов, а также загружать в окне связанного с документом приложения. Следопыт3.0 позволяет осуществить полнотекстовый поиск документов, содержащих текстовые фрагменты на русском и английском языках. Поддерживаются форматы документов Microsoft Office (.doc, .dot, .rtf, .xls*, .ppt*), текстовых файлов в различных кодировках (866, CP1251, KOI-8r, ISO-8859-5, MAC), HTML- и PDF-файлов, сообщений электронной почты MS Outlook. Возможен поиск документов вышеперечисленных форматов в ZIP-архивах, вложениях и архивах почтовых сообщений MS Outlook. Всистеме Следопыт 3.0 был реализован формальный тип поиска, наряду с нечетким и строгим поиском, использовавшимся в прежних версиях. Наличие различных типов поиска позволяет варьировать критерии формирования результатов поиска. При выборе формального типа запрос составляется на формальном языке с использованием логических операторов. Строгий и нечеткий типы поиска отличаются друг от друга тем, что в первом случае в результаты поиска войдут только документы, содержащие все информативные слова запроса, составленного на естественном языке, а во втором все документы, содержащие одно или более информативных слов запроса. Также в Следопыт3.0 появилась возможность использовать словарную морфологию, что позволяет получать более точные результаты поиска. Для выполнения поиска необходимо создать области поиска, тоесть указать множество документов, среди которых будет проводиться поиск, и построить для каждой из областей индекс. Следопыт позволяет хранить множество индексов. Новым по отношению к предыдущей версии является возможность создания иерархического дерева областей поиска, формировать которое позволяют папки. Это дает возможность осуществлять поиск и обновлять индекс сразу в нескольких областях, размещенных в одной папке. Обновление индекса производится автоматически. Есть возможность хранения индексов документов, находящихся на съемных носителях (компакт-дисках, гибких дисках, ZIP-устройствах ит.д.), причем для последующего поиска не будет необходимым наличие в дисководе проиндексированного носителя, а программа в результатах поиска указывает, на каком именно носителе находится найденный документ. Следопыт3.0 выпускается в трех версиях: персональной, профессиональной и корпоративной. Последняя обладает наиболее широким спектром возможностей. Интересным дополнением является специальная версия Следопыта, осуществляющая полнотекстовый поиск на русском языке с учетом морфологии в русских, а также смешанных русско-английских текстовых полях баз данных MS SQL Server7.0 и 2000.

Начиная с версии 7.0, компания Microsoft включила в комплект поставки MS SQL Server специальную компоненту систему полнотекстового поиска по базе данных. Эта система дает возможность пользователю находить нужные записи по разнообразным условиям, таким как поиск слов и словосочетаний, поиск слов в различных грамматических формах, а также средства поиска записей, похожих на заданный фрагмент текста. Причем для работы с этой системой пользователю не требуются дополнительные программные средства: все операторы полнотекстового поиска включены в язык Transact-SQL, используемый в этой СУБД. Следопыт дополняет комплект лингвистических модулей MS SQL Server лингвистическими модулями русского языка. При обработке текстов, содержащих фрагменты на русском языке, MS SQL Server автоматически вызывает лингвистические модули Следопыта для обработки баз данных, содержащих русский текст.

Промышленная информационно-поисковая система Retrieval Ware представляет собой средство полнотекстового и атрибутивного поиска. RetrievalWare позволяет находить и получать документы, используя в качестве клиентского приложения Web-браузер (например, MS Internet Explorer или Netscape Navigator/Communicator). Кдокументам, с которыми RetrievalWare способен работать, относятся тексты в различных форматах и кодировках, электронные таблицы, базы данных, почтовые сообщения ит.п., всего более 200 форматов плюс инструментарий, позволяющий настроить систему на поддержку документов специфических форматов. Объем архива при этом может измеряться терабайтами, время же поиска мало, и при увеличении объема библиотеки растет нелинейно.

 

ЯУЕЛЮ

Рис. Структурная схема

Архитектура RetrievalWare позволяет работать с системой как через корпоративную локальную сеть, так и через Интернет. Серверная часть системы может быть установлена на всех распространенных серверных платформах, а клиентским местом может быть любая машина, имеющая графический Web-браузер. Система может также работать в различных многопроцессорных и распределенных многосерверных конфигурациях.

Источником информации может быть файловая система, системы управления базами данных (MS SQL, ORACLE, Sybase, Informix ипрочие ODBC-совместимые СУБД), почтовые системы (Microsoft Exchange, Lotus Notes ит.п.), системы управления документами (Documentum EDMS, FileNET Panagon ит.п.), узлы корпоративной intranet-сети и Интернет, а также электронный архив Excalibur File Room средство организации доступа к бумажным документам. Возможно наследование системой прав доступа к документу от источника, из которого он поступил, и авторизация через этот источник.

RetrievalWare способен работать с большими и постоянно растущими объемами разнородной текстовой информации. Этому способствуют, в частности, поисковые возможности Retrieval Ware, базирующиеся на оригинальных разработках Convera Technologies Corp. Родившаяся в процессе моделирования биологических систем, технология адаптивного распознавания образов APRP (Adaptive Pattern Recognition Processing) использует нейронные сети для обработки информации и действует как самоорганизующаяся система, которая выделяет в массиве хранимой информации и индексирует двоичные образы.

Уникальные возможности технологии адаптивного распознавания образов обеспечивают возможность семейству программных продуктов Retrieval Ware (Visual RetrievalWare, Screening Room) использоваться при построении поисковых приложений для любой информации, представленной в электронном виде текстов, изображений, звуков, видеоинформации.
К преимуществам применения технологии адаптивного распознавания образов APRP для поиска текстовой информации можно отнести нечеткий поиск, высокую точность и полноту поиска, языковую независимость, малые объемы индексных файлов.

Нечеткий поиск, основанный не на поиске точных совпадений слов документа со словами запроса, а на исчислении их меры близости, позволяет исключить из цикла обработки бумажных документов дорогостоящий этап ручного исправления ошибок оптического распознавания символов. Если технология адаптивного распознавания образов APRP повышает эффективность работы с любой информацией, то технология семантического поиска ориентирована на работу со знаниями, содержащимися в текстовых документах. Основой технологии семантического поиска является использование семантических сетей, описывающих смысл слов языка и связи между обозначаемыми ими понятиями (следует заметить, что в данном случае термин семантическая сеть используется в том смысле, какой в него вкладывает компания Convera то есть речь идет о тезаурусе, позволяющем не только найти слова, связанные по смыслу с данным, но и определить количественно семантическое расстояние между ними).

Реализована также поддержка русской морфологии. Семантическая сеть словаря этого языка включает в себя около 40 тысяч семантических групп в базовом варианте (возможно и подключение лингвистических ресурсов сторонних разработчиков). Использование семантической сети позволяет пользователю ввести поисковый запрос на естественном языке, предоставив системе самой искать все документы, контекст которых совпадает с контекстом запроса. Используемые технологии позволяют распознать слово в любой грамматической форме. Для слов, имеющих несколько значений, пользователь может уточнить, какие именно значения он имеет в виду. Технология семантического поиска позволяет также использовать одновременно несколько словарей. Например, одновременно с базовым словарем, система может использовать отраслевой словарь, внутренний словарь организации и даже личный словарь пользователя, которые могут разрабатываться по мере необходимости.

Семантическая сеть применяется на двух этапах поиска. Во-первых, после ввода запроса, входящие в него слова дополняются связанными с ними по смыслу словами (синонимами, вариантами написания, аббревиатурами ит.п.). Это позволяет находить и те документы, в которых фигурирующая в запросе идея выражена по-другому. Вторым этапом поиска, на котором используется семантическая сеть, является упорядочивание найденных документов по степени соответствия запросу. Применение семантики позволяет учитывать общий контекст документа.

При работе с текстами на разных языках семантические сети Retrieval Ware позволяют организовать многоязычный поиск в обоих смыслах то есть как multylanguage search (возможность использовать разные языки в одном запросе и указывать язык в явном виде), так и crosslanguage search (словарный перевод запроса на все языки, документы на которых есть в системе). Помимо вышеперечисленного, RetrievalWare обладает развитым языком построения поисковых запросов, включающим в себя логические и контекстные операторы. Существует и возможность поиска документов по образцу (querry by example) при этом система сама выбирает из документа наиболее статистически и семантически значимые слова и формирует из них сложный логический запрос, учитывающий и структуру, и смысловое содержание документа.

Все запросы (а их объем в сложных случаях может измеряться килобайтами) могут быть сохранены в базе данных для последующего редактирования и повторного использования. На их основе может быть построен рубрикатор.

Результаты поиска отображаются в виде списка найденных документов. По умолчанию список отсортирован по релевантности, однако, может быть задан любой другой критерий сортировки (по значению атрибутов, по времени добавления в индекс ит.п.) в том числе и составной. Отчет может быть иерархически сгруппирован по атрибутам документов (соответственно, при группировке отчета по атрибуту Источник отчет представляет собой дерево, первый уровень которого содержит список всех источников, к которым принадлежат найденные документы, а второй сами документы).

Ниже будут описаны некоторые модули системы, расширяющие ее функциональные возможности.

Если за сутки в архив добавляется значительное количество документов, пользователю может быть нелегко отслеживать изменения в интересующей его области. Решению этой задачи призван помочь сервер рубрикации RetrievalWare. По мере поступления документов он распределяет их по тематическим рубрикам (категориям) в соответствии с ранее введенными запросами. При этом один документ может входить в несколько рубрик. Вдальнейшем рубрики могут использоваться для ограничения зоны действия поискового запроса, формируя тем самым логическую структуру хранилища документов.

Программный модуль Internet Spider позволяет отслеживать текстовую информацию на узлах сети Internet, извлекая оттуда заданные документы. Полученная таким образом информация автоматически индексируется RetrievalWare. При конфигурировании Internet Spider определяются такие параметры, как тип извлекаемых документов, имя хоста, каталог, домен, глубина, широта и частота сканирования. Internet Spider способен работать с любыми объемами данных от корпоративной интрасети до внешних узлов Интернет. Критичные по времени процессы выполняются параллельно на нескольких процессорах (на многопроцессорных машинах). Возможна работа в многосерверной конфигурации.

FileRoom программный модуль RetrievalWare, предназначенный для обеспечения эффективной работы с бумажными архивами. Для этого в системе совместно хранятся отсканированные образы документов и текстовые файлы, содержащие результаты оптического распознавания. Документам приписываются учетные карточки. Структура электронного архива может повторять структуру бумажного за счет использования виртуальных шкафов, ящиков и папок. Использование нечеткого поиска облегчает работу с отсканированными документами.

Модуль аннотирования, построенный на базе сервера аннотирования ML NetLibretto компании МедиаЛингва, позволяет строить аннотации документов в виде связного текста. Эти аннотации могут в дальнейшем использоваться, например, в отчете о результатах поиска для характеристики документа.

Модуль Multicosm Refindment динамически формирует горизонтальные гиперссылки между документами, найденными по поисковому запросу. Формируемая таким образом сеть гиперссылок привязана к конкретному поисковому запросу. Применение этого модуля облегчает аналитическую работу с результатами поиска.

Следует упомянуть и о CDExpress. Это решение позволяет формировать компакт-диски с фрагментами большого архива, использующие ту же поисковую машину и интерфейс, что и корпоративный RetrievalWare.

В завершение отметим, что в список российских компаний и организаций, пользующихся этой системой, входят: ФАПСИ, Центральный Банк России, Федеральный Институт Промышленной Собственности (Роспатент, имеет Web-сайт: www.fips.ru), Публичная Интернет-библиотека (www.public.ru), Лукойл, ЮКОС.

В заключение хочется отметить, что, несмотря на очевидную актуальность подобных систем, их все еще очень мало. Алгоритмы полнотекстового поиска находят свое применение в основном в сетевых поисковых системах типа Yandex и подобных.


       КОМПЬЮТЕР-ИНФОРМ 
          Главная страница || Статьи 19'2002 (4 - 17 ноября) || Новости СПб || Новости России || Новости мира


Рубрики || Работа || Услуги || Поиск || Архив || Дни рождения
О "КИ" || График выхода || Карта сайта || Подписка

Рассылка анонсов газеты по электронной почте

Главная страница

Сайт газеты "Компьютер-Информ" является зарегистрированным электронным СМИ.
Свидетельство Эл 77-4461 от 2 апреля 2001 г.
Перепечатка материалов без письменного согласия редакции запрещена.
При использовании материалов газеты в Интернет гиперссылка обязательна.

Телефон редакции (812) 718-6666, 718-6555.
Адрес: 196084, СПб, ул. Коли Томчака, д. 9
e-mail: editor@ci.ru
Для пресс-релизов и новостей news@ci.ru