23 Jan 13:55 avatar

Факты - основа современной информационной системы бизнес-разведки XFiles. Часть №2


Автор: Сергей Леонидович Киселев
Факты — основа современной информационной системы бизнес-разведки XFiles. Часть 1

Технологии обработки фактов
В связи с большой плотностью потока текстовой информации, в современных фактографических системах интенсивно развивается технология автоматического выделения фактов. Она позволяет в режиме квазиреального времени «поднять» ретроспективные фонды документов за десяток лет и получить актуальное «сырое» досье на новые объекты, что практически нереально при использовании экспертной технологии выделения фактов. В системе XFiles реализована функция сбора А-фактов из практически всех доступных типов открытых источников (Интернет, информационные агентства, корпоративные базы данных, информационные ресурсы офисных приложений и др.).

Кроме автоматического выделения фактов, XFiles предоставляет интерфейс для их ведения авторизованными пользователями (Э-факты), а также для последующей оценки достоверности фактов, их обобщения и формирования аналитических материалов. На рисунке 2 представлен пример фрагмента досье, заполненного А-фактом о названии головной структуры холдинга и уточняющим его Э-фактом.



Рисунок 2. Фрагмент досье объекта


Для установления связи между объектами системы необходима пара профильных атрибутов в связываемых объектах, например Атрибут 4 (см. рисунок 1). При наличии факта об определенном типе связи двух объектов в каждый профильный атрибут обоих объектов проставляется ссылка на viz-a-viz объект. Этот процесс может выполняться автоматически и экспертно. Если объекта-второго участника связи нет в базе данных, то, в зависимости от параметров системы, он может быть либо создан автоматически, либо гипертекстовая ссылка не создается.

Как отмечалось выше, в системе могут быть симметричные и асимметричные связи. Симметричная связь между двумя объектами X и Y создается автоматически путем установления в одном и том же атрибуте досье у каждого из объектов гиперссылки на второй объект. Например, для атрибута Дружественные отношения в досье Персоны для объекта Орлов может быть факт дружбы с объектом Петров. В этом случае, у объекта Петров появится симметричный факт и ссылка на объект Орлов в этом же атрибуте.
В случае асимметричной связи автоматическая репликация факта связи производится между различными атрибутами объектов. Например, при появлении факта кредитования одним объектом другого, для атрибута Сумма выданного кредита одного объекта активируемым будет атрибут Сумма взятого кредита другого. На рисунке 3 связи отображаются в виде дерева, а детальные данные выделенной строки-связи — в виде конкретных фактов.


Рисунок 3. Пример отображения связей в виде дерева



Технология формирования А-фактов
Автоматическое выделение фактографической информации — это процесс выделения фактов для тех пар (объект, атрибут досье), которые находятся в состоянии автоматического мониторинга. В зависимости от типа атрибута и источника информации процесс может быть выполнен различными методами: с применением инструментов контекстного поиска, синтаксического анализа, методов распознавания образов, методами статистического анализа и др.

Для реализации процесса автоматического выделения фактов в системе используются следующие программные компоненты:
  • Фактографический модуль — предназначен для автоматического выделения фактов из документов. Компонент может обрабатывать структурированный (числовые и символьные данные, пространственные данные из геоинформационных систем) и неструктурированный (видео, звук, текст) типы контента. Например, для текстового атрибута Покупка акций значением факта является фраза контрольный пакет акций, объектом связи — ОАО «ХХХ», свойством факта является обстоятельство времени: в январе 2006 года. Эти данные сохраняются в БД и используются для аналитической обработки, например, для автоматического выявления прямых, косвенных и транзитивных связей между объектами, а также для построения семантических сетей объектов;

  • Источник данных — это программный объект, доставляющий контент для их автоматической обработки фактографическим модулем;

  • Задача — программный компонент, управляющий регламентом и настройками процесса автоматического выделения фактов из текстов;

  • Агент запуска задач — это сервис, который управляет регламентом выполнения задач, производит их запуск и остановку. Агент определяет задачу, готовую к выполнению, фактографический модуль и источники документов, которые необходимо для этого использовать.
Для минимизации времени обработки потока документов используются контекстные фильтры, предварительно отделяющие потенциально «полезные» для выделения фактов документы. Они могут быть связаны с объектом мониторинга или атрибутами досье. Каждый атрибут досье может иметь также фактографические правила — правила, определяющие синтактико-морфологический шаблон, по которому выделяется факт и его атрибуты в тексте. Шаблоны строятся специальным модулем на основе обучающих примеров-предложений. На его вход подается предложение, содержащее факт для определенного атрибута, на выходе формируется шаблон факта для всех похожих предложений. На рисунке 4 представлен фрагмент накопленных А-фактов для атрибута Сведения о производственной деятельности.



Рисунок 4. Пример накопленных А-фактов для одного атрибута досье


Технология выделения А-фактов из текста основана на использовании специальных семантико-лингвистических методов, которые дают возможность получить точность и полноту А-фактов, сравнимую с экспертными. Вкратце суть метода обработки каждого документа заключается в следующем.

Сначала из документа строится дайджест объекта, который содержит все предложения документа, содержащие ссылки на объект. Дайджест должен учитывать кореферентные ссылки на объект в различных предложениях. Затем строится информационный портрет документа на основе синтаксического анализа и синтеза. Далее портрет преобразуется в семантическую сеть, обеспечивающую инвариантность описания смысла относительно лингвистического представления текста. Например, семантическая сеть позволяет абстрагироваться от малоинформативных элементов формально-синтаксической структуры текста (порядка слов, залога и т.п.) и представляет его пропозициональную структуру в терминах описываемых ситуаций (предикатов) и их участников (аргументов) в определенных семантических ролях. Будучи дополнен правилами для генерации канонической формы синтагм, синтаксический анализ-синтез позволяет описать каждый смысловой атрибут текста в виде строки, инвариантной к его грамматическому выражению в различных фразах.

В последней технологической фазе извлечения А-фактов движок фактографических правил на основе семантической сети дайджеста производит поиск шаблонов фактов и сохраняет структурированное описание выделенных фактов в базе данных системы. Хотелось бы ещё раз отметить, что выделенный факт — это не только контекст, а выделенные из него свойства.

В системе алгоритм выделения фактов из текстов наиболее глубоко проработан для русского языка, для большинства других языков могут использоваться источники документов (например, Oracle Intertext, Microsoft Content Management System, Hummingbird SearchServer, …), поддерживающие многоязычный поиск.

Технологии формирования досье
В условиях коллективной работы зачастую вводятся несколько фактов в один атрибут для одного объекта, после чего возникает необходимость экспертного оценивания достоверности введенных, возможно противоречивых, фактов. Для этого в БД досье хранится дополнительная информация, подтверждающая факты в форме:
  • цитат из документов;
  • прикрепленных к факту документов, почтовых сообщений, заключений экспертов и др.;
  • видеофрагментов и графических файлов.
Каждый факт в системе имеет статус достоверный или недостоверный. Эксперт, на основе дополнительной подтверждающей информации в базе данных, может принять решение об изменении статуса факта, либо его удалить (при этом факт остается некоторое время в корзине БД, из которой он может быть восстановлен).

В системе реализован трекинг фактов, т.е. след от источника, даты или автора факта. Для любого факта пользователи имеют возможность вводить и просматривать комментарии и фрагменты контента, а также сами информационные объекты.

Технология пакетного формирования досье весьма актуальна в компаниях, которые имеют распределенную систему офисов, каждый из которых может порождать информацию, например, о действиях конкурентов в их регионе. При этом рыночная политика формируется в центральном офисе на основании, в том числе, досье на конкурентов. Для разметки удаленно сформированных сообщений, содержащих новые факты об объектах мониторинга, используется XML-формат. Он удобен по нескольким причинам. Во-первых, состав атрибутов для каждого типа досье постоянно изменяется. Во-вторых, необходимо обеспечить возможность ввода новых типов досье. Наличие встроенных в шаблон средств контроля целостности документа позволяет передавать только правильные факты.

Факты — основа современной информационной системы бизнес-разведки XFiles. Часть 3

По всем вопросам обращайтесь в компанию «Р-Техно»

0 комментариев

Только зарегистрированные и авторизованные пользователи могут оставлять комментарии.