24 Jan 09:39 avatar

Пример практического применения одного из методов анализа и распознавания языковых структур в системе обработки фактографической информации


Автор: Sytech


На сегодняшний день системы обработки слабоструктурированной документальной информации являются неотъемлемым инструментом аналитических отделов как государственных, так и коммерческих организаций. В зависимости от решаемых задач, данные системы обычно разделяются на несколько классов: системы автоматической рубрикации и полнотекстового поиска, системы кластерного анализа и системы обработки фактографической информации. Несмотря на функциональные отличия систем разных классов, практически во всех них производится начальная обработка исходной документальной информации, представленной на естественном языке.


Технология обработки информации на естественном языке
Производители информационных систем, в которых применяются функции обработки информации на естественном языке, обычно, не раскрывают используемые алгоритмы обработки информации и позиционируют их как собственное уникальное «ноу-хау». Однако общие принципы обработки информации на естественном языке, как правило, схожи для различных систем. Далее мы рассмотрим технологию обработки документальной информации, используемую в системе «АРИОН» (см. рис. 1), которая позволяет в автоматическом режиме выделять в тексте документов информационные объекты и их характеристики, а также сведения о них.



Рис. 1. Технология обработки информации на естественном языке.

Обработка документальной информации осуществляется с использованием средств морфологического, синтаксического и семантического анализа, кроме того, исходные тексты сообщений также сохраняются в хранилище данных. Морфологический анализ обеспечивает возможность индексирования и полнотекстового поиска документов, а также их кластеризации и рубрикации в соответствии с изначально задаваемыми рубриками.

Технологии семантического анализа текстов позволяют проводить автоматическое преобразование документальной информации в фактографическую и первичную обработку полученной фактографической информации.

В процессе первичной обработки фактографической информации осуществляется идентификация и слияние информационных объектов, устранение противоречивости информации и получение выводной информации в результате применения базовых правил ее логического преобразования.


Основные процедуры обработки текста
Разбиение на лексемы без морфологии

На данном этапе выполняется процесс объединения слов с переносами, поскольку в морфологический анализ данная операция не входит.

Текст разбивается на отдельные блоки следующих типов: СЛОВО_В_КАВЫЧКАХ, ЗНАК_ПУНКТУАЦИИ, БЛОК_ЧИСЕЛ, БЛОК_БУКВЕННО_ЦИФРОВОЙ, WORD (слово на латинице), СЛОВО. Каждый блок характеризуется позицией, длиной и приоритетом. Кроме того, у блоков WORD и СЛОВО выделяются характеристики Up, Lw, UpLw обозначающие регистр, в котором они написаны.

Дополнительно происходит выделение и расшифровка аббревиатур с использованием словаря (набор пар «аббревиатура-вариант расшифровки»).


Морфологический анализ

На данном этапе происходит анализ всех слов текста. Отдельно выделяются слова с большой буквы и имена собственные. Для каждого слова записывается его начальная форма, часть речи, форма, в которой слово встретилось в тексте, морфологические признаки (в виде битовой маски) и порядковый номер в тексте.

Результатом является сеть, состоящая из отдельных лексем с порядковым номером в тексте, без переносов аббревиатур. Если слово имеет несколько вариантов разбора, то ему соответствуют несколько фрагментов сети с одним порядковым номером.


Синтаксический анализ

Синтаксический анализ текста осуществляется иерархически.

На первом уровне иерархии обрабатываются документы, к каждому из которых соответствует последовательность предложений. Все документы классифицируются по типам. В тексте текущего документа происходит замена имеющихся сокращений на слова и словосочетания на основе словаря сокращений. Затем содержимое очередного документа, начиная с первого предложения, передается на следующий уровень.

На втором уровне обрабатывается непосредственно сами предложения, состоящие из последовательности слов, знаков препинания, таких как: тире, кавычки, скобки, двоеточия, запятые — остальные знаки удаляются на этапе морфологического разбора; а также, специальных последовательностей символов в виде номеров, последовательностей латинских букв и т. д.


Логико-семантический анализ

На основе синтаксического анализа текста полученные структуры объектов преобразуются семантическую сеть (рис. 2), узлы которой представлены множеством часто встречавшихся термов — слов и устойчивых словосочетаний. Узлы сети ассоциативно связаны между собой с различной силой, зависящей от частоты совместной встречаемости понятий в предложениях текста. Семантическая сеть может быть использована впоследствии как модель предметной области для анализа новых неизвестных документов.



Рис. 2. Общая схема логико-семантического анализа.

Процедура обработки предложений состоит из следующих этапов:
  1. Поиск и выделение лексем, соответствующих «именам/названиям» городов, улиц, регионов, именам людей, организаций, и т. д. В процессе поиска последовательно вызываются функции, каждая из которых, пользуясь соответствующим тематическим словарем, находит и помечает лексемы, принадлежащие соответствующему классу. Если «имя/название» состоит из нескольких слов, то происходит объединение соответствующих лексем.

  2. Разбор объектов предметной области, таких как: адреса, телефоны, имена, организации, даты и т. д. В процессе разбора объектов последовательно вызываются соответствующие функции, каждая из которых на основе собственного набора правил, выделяет нужные ей лексемы и на их основе создает новый объект, записывая в него требуемые данные. Обработанные лексемы помечаются соответствующим образом для исключения вероятности повторной обработки. Структура правил этого уровня (правила первого ранга) представлена ниже:



    Список параметров — значения параметров, перечисленные через запятую; вместо любого из параметров может быть имя переменной (знак $, после которого идет латинское имя; либо безымянная переменная, обозначаемая символом _). Область действия переменной — одно правило.

    При работе правила сначала происходит проверка шаблонов объектов, указанных между тэгами QUERY с имеющимися в тексте образцами; переход к следующей части правила происходит только в случае нахождения комбинации соответствующих образцов, идущих неразрывно в указанном порядке.

    Затем происходит вызов функций, указанных тэгами FUNCTION; каждая функция возвращает булевское значение; переход происходит только в случае результат «TRUE». Возможно изменение функцией значений входящих в нее переменных. Функции, описанные в разделе FUNCTION могут быть трех типов: встроенные функции для обработки типовых запросов (например, проверка, что лексема является целым числом), могут быть подгружены из внешних DLL, написанных на C++, а также могут быть описаны непосредственно в файле с правилами как композиция функций двух предыдущих вариантов реализации.

    После этого этапа обработки правила происходит создание результирующих объектов, описанных тэгами CREATE, либо уничтожение объектов по шаблонам, указанным в тэгах DESTROY. После создания каждого объекта возможно создание атрибутов, приписываемых создаваемому объекту.

  3. Создание связей между выделенными объектами. Наиболее простой способ — связать все объекты, находящиеся в одном предложении по принципу принадлежности к одному событию или факту, описываемому предложением. Однако в зависимости от наполнения словаря правил, есть возможность интеллектуального выделения связей между объектами (например, если в одном предложении есть объект «физическое лицо» и «адрес», а между ними стоит глагол «проживает», будет выделена связь с окраской «место_проживания»).

    Правила для выделения связей между объектами (правила второго ранга) описываются аналогично правилам первого ранга, но есть несколько важных отличий:

    • порядок составляющих правило элементов не важен, они могут идти не подряд;
    • для каждого правила задается коэффициент приоритета создаваемой связи;

    • наличие пропусков и их большое число уменьшают приоритет результата;
    • используемые каждым из образцов слова из предложения записываются в него в виде битовой маски;
    • правила применяются отдельно к каждому предложению в тексте.

    Общий вид правила 2-го ранга:





Индексирование документов
Для эффективной организации поиска документов реализовано полнотекстовое индексирование с учетом морфологии и семантики языка (рис. 3). На основе результатов морфологического анализа текстов, слова преобразуются в словоформы с отсечением суффиксов и окончаний, что позволяет в дальнейшем искать склонения и спряжения шаблонов.


Рис. 3. Общая схема индексирования.

Применение результатов обработки документальной информации в процедурах извлечения знаний
Процедура обработки информации на естественном языке, описанная выше, обычно является только первым этапом в общем процессе обработки документальной информации. В рассматриваемой нами системе «Арион», комплексным результатом первичной обработки является массив связанных фактографических данных, для которого предусмотрен ряд процедур последующей обработки, а именно:
  1. идентификация информационных объектов;
  2. извлечение знаний;
  3. мониторинг фактографической информации.


Идентификация информационных объектов
Для выделенных на этапе первичной обработки из различных источников информационных объектов выполняется процедура идентификации, позволяющая выявить сходные информационные объекты, полученные из различных источников.

При идентификации объектов выделяются два основных типа связей — связи похожести и связи совпадения. Совпадающими считаются информационные объекты, имеющие одинаковые значения для определенного набора ключевых атрибутов. Для них может быть автоматически выполнена процедура слияния, которая объединит информационные объекты из различных источников. Связи похожести, как правило, обрабатываются специалистом-аналитиком (аналитик на основе экспертных знаний определяет, являются ли информационные объекты совпадающими, и выполняет, при необходимости, их ручное слияние) перед началом выполнения процедуры извлечения знаний.

Важной особенностью процедуры идентификации является возможность соотнесения вновь помещаемых в фактографическую базу информационных объектов с уже имеющимися. Это позволяет решать задачи мониторинга стандартных ситуаций.


Извлечение знаний
После того как проведена идентификация и слияние совпадающих информационных объектов сформированный массив фактографической информации готов к извлечению из него знаний, с применением следующих процедур:
  • контекстный анализ;
  • ситуативный анализ;
  • поиск цепочек связей;
  • нечеткий поиск;
  • полнотекстовый поиск похожих документов.

Контекстный анализ
Контекстный анализ объектов — это поиск в массиве фактографической информации всех связей указанного объекта, а также всех объектов, связанных с исходным, с возможностью получения исходных документов, содержащих описания обнаруженных объектов.

Этот режим позволяет аналитику выявить ключевые объекты анализа, скрытые и косвенные связи выбранного объекта или группы объектов.



Рис. 4. Представление результатов контекстного анализа в системе «Арион».



Ситуативный анализ

Ситуативный анализ объектов — поиск в массиве фактографической информации связанных объектов, как для отдельных объектов, так и для их групп в соответствии с заданными ограничениями на глубину и характеристики поискового алгоритма.

Ситуативный анализ позволяет выявлять в массиве фактографической информации неявные закономерности, получая, таким образом, качественно новые знания.


Поиск цепочек связей

Поиск цепочек связей позволяет аналитику обнаруживать прямые и опосредованные связи заданной глубины между объектами и группами объектов. Данный режим позволяет, в первую очередь, автоматически выполнять проверку экспертных предположений о том, что объекты имеют связь.

Окраски связей обеспечивают автоматический поиск связей требуемого вида. Например, у нас имеется связь между объектами вида «вхождение в один документ», а нас интересует, есть ли связь «наличие финансовых операций между объектами».



Рис. 5. Результат поиска цепочек связей в системе «Арион».



Нечеткий поиск

Нечеткий поиск документов позволяет задать сразу несколько критериев — по текстам документов, по рубрикам документов, по атрибутам документов и скомбинировать их в запрос любой степени сложности.



Рис. 6. Режим нечеткого поиска.



Полнотекстовый поиск похожих документов

Данный вид поиска позволяет выполнять отбор в массиве фактографической информации фрагментов, аналогичных или похожих на описание ситуации на естественном языке, вводимое аналитиком (ограничения на характер и количество отличий выбираемых ситуаций от указанной также задается аналитиком). Из запроса выделяются все значимые слова и признаки. Они приводятся к единому виду и дополняются аналитическими характеристиками, порождаемыми самой системой и отражающими особенность ситуации. Далее осуществляется поиск похожих ситуаций с аналогичными признаками. Найденные документы упорядочиваются по степени сходства, которая определяется с учетом следующих факторов: количества и значимости совпавших признаков, наличия похожих других значимых объектов, значительного совпадения по какой-либо категории признаков.



Рис. 7. Режим полнотекстового поиска похожих документов системы «Арион».


Мониторинг фактографической информации
Мониторинг фактографической информации может выполняться в различных контекстах, в зависимости от стоящих задач. В системе предусмотрены следующие возможности по мониторингу фактографической информации:
  • автоматизированное ведение досье на объект;
  • мониторинг ситуаций в соответствии с их типологиями.

Автоматизированное ведение досье на объект

Данный режим предполагает построение досье на некоторый информационный объект (как правило, лицо или организацию). Досье строится на основе имеющихся данных в базе фактографической информации на момент его построения. Для требуемых досье устанавливается режим мониторинга, при котором вся вновь поступающая фактографическая информация соотносится с существующим досье. Если выявляются связи, то новые объекты добавляются в досье автоматически.



Рис. 8. Графическое представление досье на объект.

Обычно для установленного на мониторинг досье выполняется также, в случае его пополнения, автоматическая проверка на соответствие стандартным типологиям.

Для мониторинга стандартные типологии описываются формальным образом — выбираются типовые объекты и проставляются типовые связи между ними. Для установленных на мониторинг типологий, поступающая фактографическая информация проверяется на соответствие типологии, и, в случае выявления ситуации, выполняется сигнальное оповещение пользователя.

Как правило, данная методика используется для проверки построенных досье на соответствие стандартным типологиям.


Источники
  1. Губин А. В., Краюшкин Д. В., Кузьмин В. В., «Выбор технологии построения системы управления знаниями» // Сборник ИПИ РАН, 2004г.
  2. Краюшкин Д. В. «Анализ технологий предварительной обработки документальной информации» // Сборник ИПИ РАН, 2005г.
  3. Краюшкин Д. В. «Выявление и анализ угроз безопасности предприятий и регионов при помощи системы центров мониторинга и прогнозирования» // Первый Евразийский форум информационной безопасности «ИНФОФОРУМ-Алматы», 2005г.
  4. Краюшкин Д. В., Кащенко А. А. «Методы извлечения знаний из общедоступных источников информации» // X Международная научно-практическая конференция «Комплексная защита информации», 2006г.
  5. АРИОН «Автоматизация работы с информацией оперативного назначения». ООО «МЕТТЭМ программные системы». 2005.

0 комментариев

Только зарегистрированные и авторизованные пользователи могут оставлять комментарии.