23 Jan 14:00 avatar

«Аналитический курьер» - современная система извлечения знаний из хранилищ документов. Часть №1


Автор: Сергей Леонидович Киселев
Современный уровень информационно-аналитической работы, как, впрочем, и весь прогресс цивилизации, показывает тенденцию уменьшения роли естественного интеллекта в результатах интеллектуальной деятельности, переложения ее на автоматы, а также повышения интеллекта у систем, которые должны помогать, а затем и направлять исследование данных в зависимости от их контента. Под этим углом зрения в статье рассматриваются перспективные технологии анализа текста, которые появятся в ближайшем будущем и станут стандартом на рынке. Рассмотрим две функции систем: ввода данных в систему и формирования вторичной информации о документе, например, ключевые темы, аннотации, семантические сети документов, фактографическая информация, и др. с использованием технологии ETL (Extract-Transform-Load — выделения-преобразования-загрузки) и аналитической обработки.

В контексте этой статьи это означает переход от экспертной обработки данных в фазе ETL (Extract-Transform-Load — выделения-преобразования-загрузки) к автоматизированной, а затем и к полностью автоматической при больших потоках данных и достаточной достоверности автоматического процесса структурирования контента. В ближайшем будущем, при достижении приемлемой производительности обеспечивающих операционно-технических платформ, наиболее востребованными будут системы с максимально автоматизированными ETL-процессами. В частности, доминирующий сегодня в ряде известных систем экспертный семантический анализ контента будет уступать автоматическим методам синтаксического и постсинтаксического анализа русскоязычных текстов. Следуя известным законам Мура и Рока о нелинейном увеличении темпов производства наукоемкой продукции, можно ожидать появления таких систем в ближайшие три-пять лет.

Вопрос автопилотирования направления исследования является вторым важным направлением развития систем анализа неструктурированного контента. Этому направлению развития технологий посвящено основное содержание статьи.

В ответ на неотложную задачу автоматизации аналитической работы с неструктурированным контентом в мире ИТ-профессионалов вполне сложился базис моделей для анализа трендов, отклонений, связей, групп и других свойств коллекций объектов.

Компания «Ай-Теко» развивает технологии аналитической обработки неструктурированной текстовой информации. «Ай-Теко» принадлежат патентные свидетельства на систему извлечения знаний «Аналитический курьер» и систему управления досье «XFiles». Эти системы отличаются «мощным интеллектом» и минимальной трудоемкостью для извлечения знаний из текста.

Система «Аналитический курьер» предназначена для аналитической обработки текстовой информации с целью получения из нее новых знаний. Особенностью системы является возможность параллельной обработки разнородной неструктурированной информации (документов) из различных источников: сообщений СМИ, сообщений информационных агентств, аналитических материалов различного профиля, документов сети Интернет, почтовых и управленческих документов и др. Система обеспечивает возможность поиска и аналитической обработки информации, по одному запросу можно получить документы из различных баз данных, файловых систем и др.

Проходящая? тестирование версия системы «Аналитический курьер» 2006 поддерживает обработку поисковых запросов на естественном языке, в том числе — русском. Для выдачи корректного ответа на запрос «Не могли бы вы, ваши сотрудники или информационно-аналитическая система помочь ответить на вопрос, кто является акционерами ЦентрСибБанка?» в системе используется нечёткая векторная модель поиска и семантический анализатор текста. С помощью синтаксического анализатора поисковый запрос преобразуется в вектор термов, и на множестве текстов фонда ищутся наиболее близкие к вектору запроса документы.

В системе автоматически поддерживается целостность словарей, классификаторов и других метаданных, размещенных в разных узлах распределенной системы, автоматически тиражируются профильные документы по различным темам.

Система извлечения знаний «Аналитический курьер» опирается на Единое Информационное Пространство (ЕИП), объединяющее хранилища неструктурированной информации (см. рисунок 1). В ЕИП исходные материалы организуются иерархически:
  • на нижнем уровне условной модели находятся конкретные документы и их карточки;
  • на следующем уровнем расположены фонды документов (материалы, объединённые по общим источникам и времени публикации, например, сообщения российских СМИ за 2006);
  • на верхнем уровне иерархии ЕИП находятся хранилища — объединения фондов.
В системе достигается высокое качество сервисов тематического рубрицирования, определения тональности документов, высокая точность выделения фактов из текста за счёт использования развитых компонентов анализа естественного языка. Углублённый анализ анафорических предложений повышает количество выбираемых информации об объекте и фактов, в среднем, на 50-80%.


Рисунок 1. Иерархическая организация ЕИП


Принятый в системе «Аналитический курьер» подход допускает дальнейшее исследование результатов анализа, полученных на предыдущем, менее общем, уровне иерархии ЕИП. Виды извлекаемой из документа информации — аннотация, отнесение его к определённой тематической рубрике, тональная окраска, ключевые темы и информационные объекты — могут служить исходным материалом, точкой входа, для анализа подборки документов. Выделенные из текстов объекты образуют семантические группы, например, «юридические лица», «физические лица».

Выбрав из нужной группы интересующий объект, аналитик получает все сервисы исследования материалов, посвященных этому объекту, на высшем уровне хранилищ документов. Мощную функциональность предоставляют многомерные частотные распределения текстов по любым критериям.

Построив частотное распределение, например, по тональности публикаций, с помощью механизма drill-down пользователь получает возможность вернуться обратно, до уровня документов.

Задачи системы
Система «Аналитический курьер» предоставляет инструментарий для решения следующих задач:
  • пилотируемый поиск;

  • автоматическое аннотирование статей;

  • тематическое рубрицирование публикаций на различных языках;

  • регламентное построение дайджестов на ключевые, определяемые пользователем, объекты мониторинга;

  • определение тональной окраски документов и отдельных объектов;

  • автоматическое выделение тематических групп внутри коллекции документов (кластерный анализ публикаций);

  • выявление ключевых тем коллекции документов, построение их взаимосвязей в виде типизированной или нетипизированной семантической сети;

  • частотный анализ рубрик и публикаций, многомерная аналитическая обработка данных;

  • мониторинг информации о выбранных объектах и исследование изменения динамики их состояния в интерактивном и автоматическом режиме;

  • параллельная обработка разнородной неструктурированной информации из различных источников.
Система позволяет быстро изучать новые предметные области, которым посвящены тексты фонда, структурировать проблематику, готовить отчёты и информационно-аналитические материалы.
Кратко рассмотрим эти решения.

Пилотируемый поиск информации

В системе реализованы все основные модели поиска информации: булева, нечеткая булева и векторная. Существует возможность сохранять и повторно использовать в дальнейшем сохраненные пользователями запросы.

В окне настроек системы (пункт Настройки основного меню) можно настраиваться на работу с соответствующими информационными фондами для конкретного пользователя, задавать параметры для поиска и просмотра его результатов (рисунок 2).



Рисунок 2. Настройка параметров поиска


На стадии формировании поискового запроса система позволяет использовать тезаурусные расширения термов запроса. За счёт использования тезауруса и морфологического анализатора запрос поиска «ДТП» имеет фактор расширения 1:150 (из одной лексемы фактически генерируется 150 лексем для сервера поиска).



Рисунок 3. Расширение запроса с использованием современного тезауруса.


Кроме контекстного поиска и поиска с использованием тезауруса, «Аналитический курьер» предоставляет функцию «Найти похожие»: получение списка документов, наиболее соответствующих содержанию первичного документа.

Система допускает разные способы и направления сортировки всех отобранных по запросу документов. После получения подборки документов можно построить частотное распределение по атрибутам документа, например, по источникам публикации с представлением ряда в виде таблицы или диаграммы. Отобранные в списке документы (или все документы из списка) можно сохранить в одном из форматов экспорта документов.

Отличительной особенностью системы является наличие навигатора поиска, используемого для выбора направления дальнейшего поиска по результатам выполненного запроса. На рисунке представлен список ключевых тем выполненного ранее запроса, которыми можно уточнять его, перемещая нужные темы в поле контекстного запроса для повторного выполнения.



Рисунок 4. Навигационное поле обработанного запроса для выбора направления поиска


Для поиска необходимых документов можно использовать альтернативный вход в систему через объекты и их взаимосвязи, выделенные системой автоматически из текста проиндексированных документов. Этот способ позволяет исследовать связи объектов и документы, их отображающие, без указания контекстного критерия на фильтрацию документов объекта. Ниже приведен пример интерфейса, для формирования запроса на исследования связей объекта «Чейни».


Рисунок 5. Интерфейс для входа в информационные объекты.


По этому запросу будет получен результат следующего вида.



Рисунок 6. Вход в систему через сеть взаимосвязей объекта.


Этот способ позволяет исследовать связи объектов во всех фондах системы без предварительного получения подборок документов.

«Аналитический курьер» — современная система извлечения знаний из хранилищ документов. Часть 2

По всем вопросам обращайтесь в компанию «Р-Техно»

0 комментариев

Только зарегистрированные и авторизованные пользователи могут оставлять комментарии.