24 Jan 09:57 avatar

Извлечение знаний из корпоративных источников информации


Автор: Sytech

Введение
Важной составляющей деятельности любой организации является обработка информации, поступающей в нее из различных источников. Если в небольших организациях информация, как правило, поступает в бумажном виде и обрабатывается вручную, то в средних, а тем более в крупных организациях, данные процессы в той или иной степени автоматизированы. Однако стоит отметить, что далеко не во всех организациях возможности автоматизированной обработки источников информации используются эффективно. Причина этого кроется в том, что используемые источники информации достаточно сильно различаются как по своей структуре, так и по содержащейся в них информации. Источники можно разделить на внешние и внутренние, а также на структурированные и неструктурированные.

К структурированным общедоступным источникам относятся:
  • корпоративная ERP система;
  • корпоративная CRM система;
  • внешние электронные информационные каталоги;
  • и т. п.
К неструктурированным (документальным) источникам относятся:
  • корпоративный электронный архив;
  • система электронного документооборота;
  • корпоративный почтовый сервер;
  • Интернет/Интранет сайты компании;
  • внешние Интернет-сайты;
  • и т. п.
Как мы видим количество возможных источников информации достаточно велико, а сами источники разнообразны как по структуре, так и по содержанию. Поэтому, начиная с некоторого этапа развития организации, можно с уверенностью сказать, что обработать данный набор источников информации вручную станет невозможно. Ни один руководитель не сможет учесть всю необходимую ему для принятия решения информацию, если для этого ему необходимо будет обратиться ко всем источникам. Это подтверждается и исследованиями компании IBM, которые показывают, что решения руководителей основаны только на 7% необходимой информации.

Решить данную проблему может только комплексная обработка всех доступных источников информации и предоставление ее руководителю в сжатом виде, позволяющем минимизировать затраты времени, необходимые на изучение информации. Для комплексной обработки информации, как правило, используются специализированные информационно-аналитические системы, позволяющие автоматизированным образом обрабатывать разнородные источники информации, выделяя из них значимую информацию.

Комплексная обработка информации включает в себя обработку как структурированных, так и неструктурированных источников информации, при этом методы обработки существенно различаются, в зависимости от вида источника.

При обработке структурированных источников для информационно-аналитической системы необходимо указать формат данных, подлежащих обработке. Эта задача максимально упрощается, если в организации используется единый формат для обмена данными в электронном виде. Если же единый формат отсутствует, то для информационно-аналитической системы необходимо будет указать форматы данных всех структурированных источников, информация из которых подлежит обработке.

В целом, для структурированных источников характерны следующие проблемы обработки информации:
  • актуальность получаемой информации — из тех источников информации, которые не являются регулярно обновляемыми, мы получаем сведения актуальные только на определенную дату;

  • ограниченность источника — каждый структурированный источник содержит только определенную информацию, для расширения полученной информации требуется обращение к другим источникам.
При обработке неструктурированных источников основные проблемы вытекают из особенностей представления неструктурированной информации:
  • с точки зрения получаемой информации:
    • нечеткость — контекст источника, в котором содержится требуемая нам информация, может вообще не иметь никакого отношения к тому, что мы ищем;

    • избыточность — как правило, источник информации содержит помимо интересующих нас сведений значительный объем дополнительной информации;
    • дублирование информации — несколько статей из разных источников с описанием одних и тех же фактов зачастую отличаются только эмоциональной окраской;
    • достоверность — любая информация, полученная из источников данного вида, требует дополнительной проверки на достоверность.
  • с точки зрения работы с источниками:
    • получение по запросу большого объема данных, которые требуют дополнительной обработки;
    • разрозненность источников.
Несмотря на объективные сложности связанные с обработкой разнородных источников информации на сегодняшний день имеется ряд информационно-аналитических систем, позволяющих получить качественный результат при извлечении знаний из них. На примере одной из таких систем — системы «Арион» далее будет продемонстрирована процедура извлечения знаний из корпоративных источников информации.

Основные возможности системы «Арион»
Информационно-аналитическая система «Арион» предоставляет следующие возможности по извлечению знаний:
  1. первичная обработка источников информации;
  2. идентификация информационных объектов;
  3. извлечение знаний;
  4. мониторинг фактографической информации.
Помимо основных возможностей по извлечению требуемой информации система «Арион» также предлагает широкие возможности по интеграции с другими информационными системами как на уровне API, так и на уровне данных. Интеграционные возможности позволяют использовать в качестве источников информации внешние информационные системы, а также средства предварительной обработки документов, системы электронного документооборота, электронные архивы, средства визуального анализа информации.

Однако, прежде чем можно будет выполнять обработку информации в системе, необходимо выполнить ее настройку на источники данных.

Для структурированных источников в системе «Арион» указываются правила обработки данных, в соответствии с информационной структурой и правилами описания информационных объектов в конкретных источниках.

Для неструктурированных источников формируются более сложные правила обработки, использующие словари предметной области, информационные тезаурусы, а также включающие в себя сложные логические условия.

На практике формирование правил для выделения информационных объектов и связей между ними начинается с анализа рассматриваемой предметной области. Данная работа обычно выполняется специалистом-экспертом и состоит из следующих этапов:
  1. анализ предметной области экспертом;
  2. выбор типовых источников информации;
  3. формирование типовой модели информационного сообщения для данной предметной области;
  4. формализация предметной области посредством выделения набора типовых объектов и связей;
  5. формирование типового тестового информационного массива.

Рис. 1. Процедура формирования правил.

Непосредственное формирование правил осуществляется специалистом-разработчиком на основе результатов экспертной обработки предметной области.

Первичная обработка источников информации
Первичная обработка источников осуществляется в соответствии с установленными критериями отбора информации.

Для структурированных источников сначала выполняется отбор данных соответствующих критериям, после чего выполняется приведение полученных данных к внутренней структуре информационных объектов системы «Арион» и сохранение в базе фактографической информации.


Рис. 2. Общая схема обработки структурированной информации (полный размер в новом окне).

Процедура обработки неструктурированных источников является более трудоемкой.


Рис. 3. Общая схема обработки неструктурированной информации (полный размер в новом окне).

В процессе обработки неструктурированных источников выполняются следующие операции:
  • индексирование всех вводимых в систему документов в целях осуществления возможности полнотекстового поиска в массиве документальной информации;
  • неисключающая рубрикация всех вводимых в систему документов в соответствии с устанавливаемым оператором перечнем разделов с целью обеспечения возможности их тематического поиска;
  • морфологический, лексикографический, синтаксический и логико-семантический анализ текстов вводимых в систему документов, построение формализованных фрагментов, отражающих описываемые в документах информационные объекты и их отношения, с целью обеспечения возможности аналитической обработки содержащейся в системе фактографической информации;
  • обновление в тезаурусе предметной области информации об отношениях между терминами на основе результатов логико-семантического анализа вводимых в систему документов.
Комплексным результатом первичной обработки является массив связанной фактографической информации. Правила выделения фактографической информации позволяют формировать связи между информационными объектами (элементами фактографической информации) с учетом их «окраски». Окраска связей позволяет учитывать контекст отношений между информационными объектами и обеспечивает формализованное описание ситуаций.

Важной дополнительной возможностью системы является пакетная загрузка информации, предназначенная для ввода больших объемов данных по определенной программе без участия оператора. Информация для осуществления пакетного ввода может доставляться на сервер путем различных механизмов и протоколов (FTP, WebDav, на жестких носителях и т. п.). Для выполнения операций пакетной загрузки в системе «Арион» предусмотрен специальный менеджер, позволяющий выполнять операции загрузки в фоновом режиме.


Рис. 4. менеджер загрузки системы «Арион» (полный размер в новом окне).

Идентификация информационных объектов
Для выделенных на этапе первичной обработки из различных источников информационных объектов выполняется процедура идентификации, позволяющая выявить сходные информационные объекты, полученные из различных источников.

При идентификации объектов выделяются два основных типа связей — связи похожести и связи совпадения. Совпадающими считаются информационные объекты, имеющие одинаковые значения для определенного набора ключевых атрибутов. Для них может быть автоматически выполнена процедура слияния, которая объединит информационные объекты из различных источников. Связи похожести, как правило, обрабатываются специалистом-аналитиком (аналитик на основе экспертных знаний определяет, являются ли информационные объекты совпадающими, и выполняет, при необходимости, их ручное слияние) перед началом выполнения процедуры извлечения знаний.

Важной особенностью процедуры идентификации является возможность соотнесения вновь помещаемых в фактографическую базу информационных объектов с уже имеющимися. Это позволяет решать задачи мониторинга стандартных ситуаций.

Извлечение знаний
После того как проведена идентификация и слияние совпадающих информационных объектов сформированный массив фактографической информации готов к извлечению из него знаний.

В системе «Арион» предусмотрены следующие возможности по извлечению знаний:
  • контекстный анализ;
  • ситуативный анализ;
  • поиск цепочек связей;
  • нечеткий поиск;
  • полнотекстовый поиск похожих документов.
Контекстный анализ

Контекстный анализ объектов — это поиск в массиве фактографической информации всех связей указанного объекта, а также всех объектов, связанных с исходным, с возможностью получения исходных документов, содержащих описания обнаруженных объектов.

Этот режим позволяет аналитику выявить ключевые объекты анализа, скрытые и косвенные связи выбранного объекта или группы объектов.


Рис. 5. Представление результатов контекстного анализа в системе «Арион» (полный размер в новом окне).

Ситуативный анализ

Ситуативный анализ объектов — поиск в массиве фактографической информации связанных объектов, как для отдельных объектов, так и для их групп в соответствии с заданными ограничениями на глубину и характеристики поискового алгоритма.

Ситуативный анализ позволяет выявлять в массиве фактографической информации неявные закономерности, получая, таким образом, качественно новые знания.

Поиск цепочек связей

Поиск цепочек связей позволяет аналитику обнаруживать прямые и опосредованные связи заданной глубины между объектами и группами объектов. Данный режим позволяет, в первую очередь, автоматически выполнять проверку экспертных предположений о том, что объекты имеют связь.

Окраски связей обеспечивают автоматический поиск связей требуемого вида. Например, у нас имеется связь между объектами вида «вхождение в один документ», а нас интересует, есть ли связь «наличие финансовых операций между объектами».


Рис. 6. Результат поиска цепочек связей в системе «Арион» (полный размер в новом окне).

Нечеткий поиск

Нечеткий поиск документов позволяет задать сразу несколько критериев — по текстам документов, по рубрикам документов, по атрибутам документов и скомбинировать их в запрос любой степени сложности.


Рис. 7. Режим нечеткого поиска (полный размер в новом окне).

Полнотекстовый поиск похожих документов

Данный вид поиска позволяет выполнять отбор в массиве фактографической информации фрагментов, аналогичных или похожих на описание ситуации на естественном языке, вводимое аналитиком (ограничения на характер и количество отличий выбираемых ситуаций от указанной также задается аналитиком). Из запроса выделяются все значимые слова и признаки. Они приводятся к единому виду и дополняются аналитическими характеристиками, порождаемыми самой системой и отражающими особенность ситуации. Далее осуществляется поиск похожих ситуаций с аналогичными признаками. Найденные документы упорядочиваются по степени сходства, которая определяется с учетом следующих факторов: количества и значимости совпавших признаков, наличия похожих других значимых объектов, значительного совпадения по какой-либо категории признаков.


Рис. 8. Режим полнотекстового поиска похожих документов системы «Арион».

Мониторинг фактографической информации
Мониторинг фактографической информации может выполняться в различных контекстах, в зависимости от стоящих задач. В системе «Арион» предусмотрены следующие возможности по мониторингу фактографической информации:
  • автоматизированное ведение досье на объект;
  • мониторинг ситуаций в соответствии с их типологиями.
Автоматизированное ведение досье на объект

Данный режим предполагает построение досье на некоторый информационный объект (как правило, лицо или организацию). Досье строится на основе имеющихся данных в базе фактографической информации на момент его построения. Для требуемых досье устанавливается режим мониторинга, при котором вся вновь поступающая фактографическая информация соотносится с существующим досье. Если выявляются связи, то новые объекты добавляются в досье автоматически.


Рис. 9. Графическое представление досье на объект (полный размер в новом окне).

Обычно для установленного на мониторинг досье выполняется также, в случае его пополнения, автоматическая проверка на соответствие стандартным типологиям.

Мониторинг ситуаций в соответствии с их типологиями

Для мониторинга стандартные типологии описываются формальным образом — выбираются типовые объекты и проставляются типовые связи между ними. Для установленных на мониторинг типологий, поступающая фактографическая информация проверяется на соответствие типологии, и, в случае выявления ситуации, выполняется сигнальное оповещение пользователя.

Как правило, данная методика используется для проверки построенных досье на соответствие стандартным типологиям.

Интеграционные возможности системы «Арион»
Система «Арион» предлагает возможности по интеграции с различными поисковыми системами, позволяющими осуществлять начальный сбор и структурирование информации. Использование более мощных поисковых механизмов позволяет собрать больший объем релевантной информации и использовать «Арион» для выделения фактографической информации из данных, прошедших начальную обработку и содержащих меньше «шума».

Другой важной интеграционной возможностью является возможность выгрузки некоторого массива фактографической информации из системы «Арион» в системы визуального анализа. Системы данного класса предлагают широкие возможности по представлению связанных схем, показывающих взаимосвязи между различными объектами (например, людьми, организациями, адресами, телефонами, счетами и т. д.).

Таким образом, использование системы «Арион» в совокупности с другими инструментами позволяет построить единое корпоративное информационное пространство, направленное на извлечение знаний из общего объема информации.

Источники
  1. Антонов А. «Проблема выявления знаний в насыщенном информацией мире» //BYTE, 2005 г.

  2. Краюшкин Д. В., Кащенко А. А. «Проблемы аналитической обработки обращений граждан в рамках документооборота органов государственной власти» //DOCFLOW2006. 2006 г.

  3. Краюшкин Д. В., Кащенко А. А. «Проблемы аналитической обработки неструктурированной текстовой информации» //Научно-практическая конференция «Ситуационные центры: модели, технологии, опыт практической реализации» 2006 г.

  4. Краюшкин Д. В., Кащенко А. А. «Методы извлечения знаний из общедоступных источников информации» // X международная научно-практическая конференция «Комплексная защита информации», 2006 г.

  5. Краюшкин Д. В. «Анализ технологий предварительной обработки документальной информации» // Сборник ИПИ РАН, 2005 г.

  6. Губин А. В., Краюшкин Д. В., Кузьмин В. В., «Выбор технологии построения системы управления знаниями» // Сборник ИПИ РАН, 2004 г.

0 комментариев

Только зарегистрированные и авторизованные пользователи могут оставлять комментарии.