Формализация предметной области при обработке фактографической информации

Содержание
  1. Формализация предметной области
  2. Определение базовых источников информации для автоматического сбора и обработки информации
  3. Формирование фактографической модели
  4. Пример подхода к формированию фактографической модели
  5. Объекты предметной области
  6. Факты предметной области
  7. Формирование процедур, обеспечивающих выделение объектов и связей предметной области
  8. Анализ синтаксической структуры полнотекстового материала
  9. Выделение фактографической информации
  10. Разработка правил идентификации информационных объектов
  11. Адаптация учетных функций под конкретную предметную область
  12. Ведение документального банка данных
  13. Ведение реестров предметной области
  14. Ведение фактографического банка данных
  15. Адаптация аналитических функций под конкретную предметную область
  16. Многокритериальный поиск
  17. Ведение досье
  18. Анализ цепочек связей
  19. Статистический анализ
  20. Выявление тенденций и прогнозирование
  21. Адаптация пользовательского интерфейса
  22. Графический пользовательский интерфейс
  23. Построение отчетов

На сегодняшний день информационно-аналитические системы являются неотъемлемым инструментом аналитических отделов как государственных, так и коммерческих организаций. Как правило, специалисты-аналитики выполняют обработку информации в преломлении к некоторому набору предметных областей, и, соответственно, применение информационной системы осуществляется в рамках определенной предметной области. Поэтому, на практике, наиболее эффективный результат дают информационные системы «настроенные» на работу с данными, относящимися к конкретной предметной области.

Это объясняется тем, что для разных предметных областей характерны различные наборы основных информационных объектов, а также различные правила формирования связей между ними. Например, для криминальной тематики характерны такие объекты как: «лицо», «преступление» и «оружие», и связи вида «принадлежность к организованной преступной группе». Для экономической тематики характерны такие объекты как: «Организация» и «банковский счет» и связь вида «финансовая транзакция» и т.п. 

Таким образом, получается, что для использования единой информационно-аналитической системы для обработки данных по нескольким направлениям требуются гибкие механизмы по настройке на обработку информации, относящейся к конкретной предметной области.

В системах, обрабатывающих фактографическую информацию, применяются различные подходы к ее формализации. При этом, с общей точки зрения, все подходы сводятся к формальному описанию понятия «факт» предметной области.

Рассмотрим далее пример подхода к формализации предметной области «Правоохранительная деятельность» в ИАС «АРИОН» и применения полученных результатов при решении информационно-аналитических задач.


Формализация предметной области

Для адаптации информационно-аналитической системы, оперирующей фактографической информацией, как правило, требуется решить определенный набор задач для формализации предметной области, а именно:

  • определение базовых источников информации для автоматического сбора и обработки информации;
  • определение базового состава объектов и связей предметной области, а также типовых фактов;
  • формирование процедур, обеспечивающих выделение объектов и связей предметной области;
  • адаптация учетных функций под конкретную предметную область;
  • адаптация аналитических функций под конкретную предметную область;
  • адаптация пользовательского интерфейса.


Определение базовых источников информации для автоматического сбора и обработки информации

Количество источников информации на сегодняшний день таково, что обработать их все на предмет отбора интересующей информации даже средствами информационной системы практически невозможно. Определение базовых источников информации выполняется для фиксирования именно тех источников, которые представляют наибольший интерес при обработке.

Определение базовых источников выполняется по следующим направлениям:

  • выбор одной или нескольких глобальных поисковых машин Интернет для получения информации и формирование набора типовых запросов для них (семантическое описание запросов осуществляется экспертом, непосредственная реализация — разработчиком);
  • формирование набора новостных Интернет-сайтов;
  • формирование набора Интернет-сайтов, на которых регулярно публикуется информация экстремистского характера;
  • определение набора внутренних источников информации (смежных систем), с которыми необходимо интегрироваться, а именно:
  • файловых хранилищ, содержащих txt, doc, html, pdf ? файлы;
  • смежных информационных систем.

Для формализации предметной области в ИАС «АРИОН» используется фактографическая модель, основанная на понятиях:

  • объект ? основной элемент предметной области — характеризуется типом и набором атрибутов;
  • связь ? характеризует взаимосвязь определенного вида между объектами;
  • факт ? событие предметной области, характеризуемой участвующими в нем объектами и взаимосвязями между ними.


Формирование фактографической модели

Объект

Объект характеризуется типом и набором атрибутов.

Выделяются следующие метатипы объектов:

  • Объект предметной области (ОД)
  • Действие (ДС)
  • Место (МП)
  • Время (ВР)
  • Информационный ресурс (ИР)

При формализации предметной области выполняется определение основных типов объектов, в соответствии с указанными метатипами.

Связь описывается следующими характеристиками:

  • начальный объект связи;
  • конечный объект связи;
  • окраска связи;
  • тип связи.

Выделяются следующие метатипы связей:

  • родитель-потомок;
  • отношение принадлежности;
  • причина-следствие;
  • связь с действием;
  • характеристика времени.

При формализации предметной области выполняется определение основных типов связей, в соответствии с указанными метатипами.


Факт

Основным фактом является набор объектов и связей, в состав которого входят:

  • объекты: ОД ? множественный; ДС; ВР ? необязательный; МП ? множественный, необязательный; ИР — множественный, необязательный.
  • связи вида «связь с действием»: ОД-ДС; ВР-ДС; ИР-ДС; МП-ДС.

Рис. 1. Базовый факт


Пример подхода к формированию фактографической модели

Пример подхода к формированию фактографической модели для предметной области «Правоохранительная деятельность» приводится в соответствии со следующими Федеральными законами:

  • №114-ФЗ от 25 июля. «О противодействии экстремистской деятельности»;
  • №130-ФЗ от 25 июля. «О борьбе с терроризмом»;
  • №115-ФЗ от 7 августа. «О противодействии легализации (отмыванию) доходов, полученных преступным путем, и финансированию терроризма»;
  • №150-ФЗ от 13 декабря. «Об оружии».


Объекты предметной области

В рамках данной предметной области выделяется следующий состав атомарных объектов (выделяются из контекста с помощью Лингвистического процессора АРИОН без дополнительной обработки):

  • объекты:
  • организация (ОРГ);
  • физическое лицо (ФЛ);
  • транспортное средство (ТС);
  • задание (ЗД);
  • предметы и вещества (ПВ);
  • документ (ДК);
  • денежные средства (ДС);
  • счет (СЧ);
  • оружие (ОР);
  • действия:
  • банковская транзакция (БТ);
  • место:
  • адрес (АДР);
  • государство (ГС);
  • дата (ДТ).

Выделяется следующий состав сложных объектов предметной области (выделяются с помощью процедур обработки данных в рамках предметной области):

  • объекты предметной области:
  • объект террористической деятельности (ОТД);
  • средство террористической деятельности (СТД);
  • действия предметной области:
  • действие террористического характера (ДТХ);
  • действие контртеррористического характера (ДКХ);
  • место:
  • зона проведения контртеррористической операции (ЗН).


Факты предметной области

Примерами фактов в рамках данной предметной области являются:

  • совершение террористической акции;
  • сообщение (предупреждение) о готовящейся террористической акции.


Совершение террористической акции

В состав данного факта входят:

  • объекты: физическое лицо (ФЛ); организация (ОРГ); действие террористического характера (ДТХ); дата (ДТ); адрес (АДР); государство (ГС); объект террористической деятельности (ОТД).
  • связи: ФЛ-ДТХ; ОРГ-ДТХ; ДТ-ДТХ; АДР-ДТХ; ГС-ДТХ; ОТД-ДТХ.

Рис. 2. Графическое представление факта «Совершение террористической акции»


Сообщение (предупреждение) о готовящейся террористической акции

В состав данного факта входят:

  • объекты: действие контртеррористического характера (ДКХ); действие террористического характера (ДТХ); дата (ДТ) (ДТ1>ДТ2); адрес (АДР); государство (ГС); объект террористической деятельности (ОТД).
  • связи: ДТ-ДС; ДКХ-ДТХ; ДТ-ДТХ; АДР-ДТХ; ГС-ДТХ; ОТД-ДТХ.

Рис. 3. Графическое представление факта «Сообщение (предупреждение) о готовящейся террористической акции»


Формирование процедур, обеспечивающих выделение объектов и связей предметной области

Непосредственное формирование процедур, обеспечивающих выделение объектов и связей предметной области, осуществляется специалистом-разработчиком на основе результатов экспертной обработки предметной области. Разработчик описывает правила с помощью используемого в системе метода (языка) и выполняет их апробацию на тестовых информационных массивах.

Данный набор правил должен выделять указанный выше набор объектов, связей и фактов и обеспечивать заполнение атрибутов объектов и определение окрасок связей.

Извлечение фактографической информации из текстов предполагает выполнение следующих процедур обработки текстов документов:

  • анализ синтаксической структуры полнотекстового материала
  • выделение фактографической информации;
  • идентификация объектов.


Анализ синтаксической структуры полнотекстового материала

Анализ синтаксической структуры полнотекстового материала включает в себя следующие процедуры:

  • графематический анализ;
  • морфологический анализ;
  • синтаксический анализ;


Выделение фактографической информации

Процесс выделения фактографической информации состоит из следующих шагов:

  • выделение словарных понятий;
  • разбор объектов предметной области;
  • создание связей между выделенными объектами.

Рис. 4. Объекты и связи, выделенные в ИАС «АРИОН» (полное изображение в новом окне)


Разработка правил идентификации информационных объектов

Стандартный подход к идентификации информационных объектов заключается в выделении ключевых наборов атрибутов для определенного вида объектов и сравнения их значений для определения совпадающих и похожих пар объектов.

При этом учитывается, что одинаковые значения для одного набора ключевых атрибутов однозначно свидетельствуют о совпадении объектов, а наличие одинаковых значений для другого набора атрибутов позволяет сделать вывод только о похожести объектов.

Для реализации, приведенного выше, принципа идентификации целесообразно использовать конструктор правил идентификации, позволяющий создавать и конфигурировать процедуры идентификации для каждого из типов объектов.

РЕКЛАМНЫЙ БЛОК

[ Хотите знать больше о частной разведке? Регистрируйтесь и общайтесь на интернет-форуме it2b-forum.ru ]

Рис. 5. Пример формирования конфигурируемых правил идентификации (полное изображение в новом окне)

Каждой процедуре идентификации присваивается вес. При идентификации предусмотрено два весовых порога. Если сумма весов отработавших процедур превышает первый порог ? объекты считаются похожими. Если сумма весов отработавших правил превышает второй порог ? объекты считаются совпадающими. Значения порогов являются настраиваемыми.


Адаптация учетных функций под конкретную предметную область

В состав учетных функций, как правило, входят:

  • ведение документального банка данных;
  • ведение реестров предметной области;
  • ведение фактографического банка данных.

Данный банк реализуется на базе основных функций системы по обработке документальной информации.

В банк должны помещаться значимые полнотекстовые материалы, выделенные в процессе отбора и требуемой информации из источников.


Ведение документального банка данных

Для банка полнотекстовых материалов предусматриваются следующие функции:

  • построение дайджестов по материалам;
  • построение информационных подборок;
  • построение аналитических отчетов в виде связанного ссылками набора html страниц;
  • полнотекстовый поиск в документах на основе терминов.


Ведение реестров предметной области

Задача ведения реестров предметной области заключается в формировании требуемого набора справочников предметной области.

В системе должно быть предусмотрено ведение следующих реестров объектов предметной области:

  • реестр физических лиц причастных к террористической и экстремистской деятельности;
  • реестр организаций причастных к террористической и экстремистской деятельности.

Для ведения данных реестров должен быть адаптирован модуль управления словарями, справочниками и классификаторами АРИОН.

Для каждого из реестров формируется иерархическая структура каталогов (рубрик), предназначенная для категоризации помещаемых в реестр информационных объектов. Наличие данных каталогов в каждом из реестров позволяет организовать быструю и удобную навигацию по реестру, а также позволяет быстро (без выполнения поисковых запросов) формировать стандартные подборки информационных объектов по реестрам.

Для каждого из каталогов в системе формируется фактографический шаблон, которым формально описываются семантические характеристики объектов, помещенных в данный каталог.

При обработке вводимых в систему данных и выделении фактографической информации автоматически выполняется проверка на соответствие имеющимся фактографическим шаблонам. В случае выявления соответствия автоматически осуществляется отнесение выделенного информационного объекта в требуемый каталог реестра.

Помимо навигационных возможностей по каталогам реестров, дополнительно реализуются расширенные поисковые возможности для поиска информации в реестрах (адаптация задачи многокритериального поиска к реестрам).


Ведение фактографического банка данных

В фактографическом банке данных сохраняются объекты и связи, выделенные в процессе обработки исходной информации.

Фактографическое хранилище является внутрисистемным элементом и предоставляет исходную информацию для выполнения аналитических процедур.


Адаптация аналитических функций под конкретную предметную область

В состав аналитических функций, как правило, входят:

  • многокритериальный поиск;
  • ведение досье;
  • анализ цепочек связей;
  • статистический анализ;
  • выявление тенденций и прогнозирование.


Многокритериальный поиск

Многокритериальный поиск предназначен для работы специалиста-аналитика, занимающегося анализом информации по конкретной ситуации.

В рамках адаптации данной функции выполняется формирование библиотеки шаблонов запросов многокритериального поиска.

Библиотека типовых запросов используется для решения типовых периодически возникающих задач. При использовании типового запроса пользователю необходимо ввести только данные, характеризующие конкретную задачу (например, для сбора досье выбрать тип объекта и ввести глубину сбора досье).

Среди типовых задач можно выделить следующие задачи:

  • сбор досье;
  • фильтрация на графе;
  • выделение фактов установленных типов;
  • и т.д. 

Фактически многокритериальный поиск является основой для выполнения всех остальных аналитических режимов, которые можно характеризовать, как специализированные прикладные механизмы многокритериального поиска.


Ведение досье

В рамках предметной области «Правоохранительная деятельность» реализуются следующие типовые виды досье:

  • досье на физическое лицо (ФЛ);
  • досье на организацию (ОРГ);
  • досье на средство массовой информации (СМИ).

Для построения досье выбирается объект учета, требуемая глубина построение досье и промежуток дат актуальности досье, позволяющий включать в досье не всю информацию, а только относящуюся к данному промежутку дат. Процедура построения досье является однократной.

Для наиболее важных объектов учета предусмотрена процедура установки досье на мониторинг. В этом случае вся вновь поступающая фактографическая информация, релевантная данному досье автоматически отображается в нем, т.е. осуществляется ведение досье.


Анализ цепочек связей

Для выполнения проверки экспертных предположений о том, что объекты имеют связь, предусмотрена процедура выявления цепочек связей. Поиск цепочек связей позволяет аналитику обнаруживать прямые и опосредованные связи заданной глубины между объектами и группами объектов.

Для поиска цепочек связей между объектами в системе формируется фактографический шаблон, при использовании которого необходимо настроить следующие параметры:

  • выбрать типы объектов;
  • у выбранных объектов задать необходимые атрибуты;
  • задать требуемую глубину поиска цепочек связей.

Например, необходимо выяснить имеет ли отношение интересующее физическое лицо к интересующему действию террористического характера. Для этого в качестве типов объектов задается «физическое лицо» и «действие террористического характера», для конкретизации выбранных объектов задаются их атрибуты, задается глубина поиска цепочек связей, выше указанной глубины связи не отображаются.

Можно выделить следующие основные типы объектов, для анализа цепочек связей между ними:

  • связь физического лица или организации с действием террористического характера;
  • связь между организациями или физическими лицами;
  • связь между действиями террористического характера;
  • связь между физическим лицом или организацией и банковским счетом.


Статистический анализ

Режим обработки статистической информации предоставляет возможности по агрегированному представлению информации и анализу полученных результатов. Результаты статистической обработки представляются в системе в виде таблиц, графиков и гистограмм. Формирование статистических отчетов происходит на базе выборки, содержащей объекты и связи, описывающие некоторую ситуацию. Возможно построение различных видов отчетов, для этого для данной предметной области формируется набор типовых видов отчетов.

Для построения статистического отчета необходимо выполнить следующие настройки:

  • задать выборку;
  • выбрать вид отчета;
  • задать настройки соответствующие выбранному виду отчета.

Примерами отчетов для данной предметной области являются:

  • статистика по объектам за временной промежуток (например, количество произошедших разных типов действий террористического характера за каждый год);
  • статистика по фактам за временной промежуток (например, количество совершенных террористических акций разного типа за каждый год);
  • статистика по значениям атрибутов в досье (например, количество упоминаний разных наименований стран в досье на террориста);
  • статистика по типовым фактам в зависимости от выбранного атрибута (например, количество совершенных террористических акций разного типа в разных регионах России).


Выявление тенденций и прогнозирование

Построение прогнозов и нахождение тенденции развития ситуаций предполагает автоматизированное представление цепочки вчера->сегодня->завтра (прогноз) по рассматриваемой проблеме.

Задача прогнозирования в ИАС «АРИОН» решается с помощью технологии моделирования развития ситуаций, т.е. с использованием «типовых» фактов и цепочек фактов, вытекающих из текущего набора знаний о ситуации.


Адаптация пользовательского интерфейса

Результаты обработки информации представляются пользователю системы с помощью графического пользовательского интерфейса (GUI) и в виде отчетов.


Графический пользовательский интерфейс

Графический пользовательский интерфейс системы обеспечивает удобную, интуитивно понятную навигацию, рассчитанную на пользователя, который хорошо знает свою предметную область и не является специалистом в области автоматизации.

Настройка шаблонов представление результатов обработки информации в пользовательском интерфейсе осуществляется для табличного и графического представления информации.

Рис. 6. Графический пользовательский интерфейс системы (полное изображение в новом окне)


Построение отчетов

Построение отчетов по наборам документов осуществляется в соответствии с предусмотренными шаблонами отчетных форм. Предусмотрена возможность конфигурирования администратором отчетных форм и алгоритмов генерации аналитических и статистических отчетов.

Авторы: А.В. Босов (Институт проблем информатики РАН), Д.В. Краюшкин (ООО «САЙТЭК»)

359

Оцените статью
Технологии разведки для бизнеса