24 Jan 10:00 avatar

Комплексный метод извлечения знаний на основе правил логического вывода


Автор: Sytech

Аннотация
В данной статье рассматривается метод извлечений знаний из текстовых документов на основе применения правил логического вывода, используемый при обработке информации из разнородных источников.

Рассматриваемый метод позволяет выделять из потока слабоструктурированной полнотекстовой информации, представленной на естественных языках, набор информационных объектов и связей между ними и формировать, таким образом, хранилище фактографической информации.

В состав данного метода входят процедуры графематического, морфологического, синтаксического и логико-семантического анализа.

Метод имеет программную реализацию и практическое применение в автоматизированных информационных системах при решении задач аналитической обработки данных.

Введение
На сегодняшний день системы обработки слабоструктурированной документальной информации являются неотъемлемым инструментом аналитических отделов многих организаций. Разработано значительное число алгоритмов обработки данных, позволяющих выявлять различные закономерности в потоках документальной информации. Несмотря на то, что общие принципы обработки информации на естественном языке, как правило, схожи для различных систем, конкретные методы, используемые в них, имеют свои специфические особенности.

В данной статье рассматривается технология обработки документальной информации, используемая в системе «АРИОН», которая позволяет в автоматическом режиме выделять в тексте документов информационные объекты, их характеристики, а также сведения о них. Специализированная методика формирования правил обработки информации, используемая в данной системе, позволяет сформировать правила для обработки текстов, представленных на разных языках (русский, английский, немецкий, французский, испанский). Для решения этой задачи потребуются лингвисты с соответствующей квалификацией и знаниями конструкций и особенностей языков, а также разработчики, которые преобразуют полученные от лингвистов знания в форму правил логического вывода.

Технология обработки информации на естественном языке
Обработка документальной информации осуществляется с использованием средств графематического, морфологического, синтаксического и логико-семантического анализа, кроме того, исходные тексты сообщений также индексируются и сохраняются в хранилище данных.


Рис. 1. Технология обработки информации на естественном языке.

Графематический анализ
На этапе графематического анализа текст разбивается на отдельные образцы специальных типов: «слово_в_кавычках», «слово», «знак_пунктуации», «блок_чисел», «блок_буквенно_цифровой» и т. д. У каждого из них выделяются следующие характеристики: позиция, длина, приоритет. Кроме того, для данных образцов выделяются характеристики Up, Lw, UpLw обозначающие регистр, в котором они написаны. В результате набор лексем с порядковым номером в тексте, без переносов.

В качестве примера, иллюстрирующего процесс обработки информации возьмем следующий текст (новостное сообщение от 24.03.2006, взятое с сайта BBC http://news.bbc.co.uk):


Результат графематического анализа данного сообщения в русском варианте изложения выглядит следующим образом:


Рис. 2. Результат графематического анализа (rus).

Для английского языка результат графематического анализа будет представлен так:


Рис. 3. Результат графематического анализа (eng).

Морфологический анализ
На этапе морфологического анализа проводится анализ всех слов текста. Для каждого слова записывается его порядковый номер в тексте, начальная форма, часть речи, форма, в которой слово встретилось в тексте, морфологические признаки.

Результатом морфологического анализа является сеть (Рис. 4), состоящая из отдельных лексем с порядковым номером в тексте, без переносов аббревиатур. Если слово имеет несколько вариантов разбора, то ему соответствуют несколько фрагментов сети с одним порядковым номером.


Рис. 4. Результат морфологического анализа, приведен не полностью (rus).


Рис. 5. Результат морфологического анализа, приведен не полностью (eng).

Синтаксический анализ
В процессе синтаксического анализ текста последовательно обрабатываются его предложения, состоящие из последовательности слов, знаков препинания, таких как: тире, кавычки, скобки, двоеточия, запятые (остальные знаки удаляются на этапе морфологического разбора); а также, специальных последовательностей символов в виде номеров, последовательностей латинских букв и т. д. Данный этап в дальнейшем используется при определении факта и окрасов связей между выделенными объектами.

Логико-семантический анализ
На основе синтаксического анализа текста полученные структуры объектов преобразуются семантическую сеть (Рис. 6), узлы которой представлены множеством часто встречавшихся термов — слов и устойчивых словосочетаний. Узлы сети ассоциативно связаны между собой с различной силой, зависящей от частоты совместной встречаемости понятий в предложениях текста. Семантическая сеть может быть использована впоследствии как модель предметной области для анализа новых неизвестных документов.


Рис. 6. Общая схема логико-семантического анализа (полный размер в новом окне).

Процедура обработки состоит из следующих этапов:
  • выделение словарных понятий;
  • разбор объектов предметной области;
  • создание связей между выделенными объектами.
Выделение словарных понятий

Для выделения из текстов словарных понятий используются заранее сформированные словари. Структура словарей представляет собой набор пар «цель — возможная расшифровка», где цель — аббревиатура либо конкретный экземпляр некоего объекта. Для словаря объектов возможно наличие нескольких источников, а для аббревиатур — наличие нескольких расшифровок.

Общая структура словарей выглядит следующим образом:
  • для словарей аббревиатур:

  • для словарей объектов:

Пример применения словаря объектов мы можем увидеть на Рис. 4- здесь Минск распознан как «город», поскольку словарь содержит следующую конструкцию:


В результате обработки текста, взятого в качестве примера, были выделены следующие словарные понятия:


Рис. 7. Результат выделения словарных понятий (rus).


Рис. 8. Результат выделения словарных понятий (eng).

Выделение объектов предметной области

При выполнении разбора объектов предметной области выделяются адреса, телефоны, имена, организации, даты и т. д. — конечный набор объектов определяется непосредственно в правилах логического вывода. В процессе разбора объектов последовательно выполняются соответствующие правила (вызываются соответствующие функции), каждая из которых на основе собственного набора правил, выделяет нужные ей лексемы и на их основе создает новый объект, записывая в него требуемые данные. Обработанные лексемы помечаются соответствующим образом для исключения вероятности повторной обработки.

Данный набор правил условно называется правилами первого уровня, общая структура которых представлена ниже:


Здесь:
  • список параметров — значения параметров, перечисленные через запятую; вместо любого из параметров может быть имя переменной (знак $, после которого идет латинское имя; либо безымянная переменная, обозначаемая символом _).
  • область действия переменной — одно правило.
  • параметр «priority» указывает на приоритет правила. Если на каком-то наборе лексем отработало сразу несколько правил и лексемы, которые они использовали, пересекаются, то во время фильтрации будет выбран объект, который был получен по правилу с наибольшим приоритетом.
При работе правила сначала происходит сверка шаблонов объектов, указанных между тэгами QUERY с имеющимися образцами. Переход к следующей части правила происходит только в случае нахождения комбинации соответствующих образцов, идущих неразрывно в указанном порядке.

Далее происходит вызов функций, указанных тэгами FUNCTION. Каждая функция возвращает булевское значение. Переход происходит только в случае результат true, при этом возможно изменение функцией значений входящих в нее переменных.

После этого происходит создание результирующих объектов, описанных тэгами CREATE, создание атрибутов, соответствующих им (с помощью операции <CREATE>АТТРИБУТ (имя_параметра, значение_параметра) <CREATE>), либо наследование атрибутов от уже существовавших объектов за счет тэга INHERIT.

Также возможно уничтожение объектов по шаблонам, указанным в тэгах DESTROY. Эта функция реализована для возможности очистки промежуточных и служебных объектов в процессе обработки информации для снижения уровня шума и уменьшения вероятности получения ложных объектов и атрибутов из-за неправильного порядка применения правил (в конце выполнения правил первого уровня все промежуточные и служебные объекты удаляются автоматически).

Пример применения правил первого уровня показывает, как осуществляется формирование объекта:
  • данное правило выделяет наборы вида «имя фамилия»;

    в рассматриваемом примере, с помощью данного правила, был выделен набор «Александр Лукашенко»;

  • данное правило на основании выделенных наборов «фамилия имя отчество» формирует объект «физическое лицо»

    в рассматриваемом примере, с помощью данного правила, был выделен объект типа ФИЗ_ЛИЦО — «Александр Лукашенко».
В результате применения правил первого уровне к тексту, который мы использовали в качестве примера, были выделены следующие объекты, в дополнении к тем, которые были выделены с помощью словарей:


Рис. 9. Результат выполнения правил первого уровня (rus).


Рис. 10. Результат выполнения правил первого уровня (eng).

Создание связей между выделенными объектами

Наиболее простой способ — связать все объекты, находящиеся в одном предложении по принципу принадлежности к одному событию или факту, описываемому предложением.

Более сложной является процедура выделения связей между объектами на основании контекста (например, если в одном предложении есть объект «физическое лицо» и «адрес», а между ними стоит глагол «проживает», будет выделена связь с окраской «место_проживания»).

Правила для выделения связей между объектами (правила второго ранга) описываются аналогично правилам первого ранга, но есть несколько важных отличий:
  • порядок составляющих правило элементов не важен, они могут идти не подряд;
  • для каждого правила задается коэффициент приоритета создаваемой связи;
  • наличие пропусков и их большое число уменьшают приоритет результата;
  • используемые каждым из образцов слова из предложения записываются в него в виде битовой маски;
  • правила применяются отдельно к каждому предложению в тексте.
Общий вид правила 2-го уровня следующий:


Пример применения правил первого уровня показывает, как осуществляется формирование связей между объектами.

Данное правило формирует связь между лицом и государственным органом:


В результате применения правил второго уровня в тексте, взятом в качестве примера, была выделена следующая связь — «государственный орган „президент“ (ид: 2964) связан с физическим лицом Александр Лукашенко (ид: 3904)»:


Рис. 11. Результат выполнения правил второго уровня.


Рис. 12. Результат выполнения правил второго уровня (eng).

Индексирование документов
Для эффективной организации поиска документов используется полнотекстовое индексирование с учетом морфологии и семантики языка (Рис. 13). На основе результатов морфологического анализа текстов, слова преобразуются в словоформы с отсечением суффиксов и окончаний, что позволяет в дальнейшем искать склонения и спряжения шаблонов.


Рис. 13. Общая схема индексирования (полный размер в новом окне).

В результате выполнения процедуры индексирования к тексту, взятому в качестве примера, был получен следующий индексный набор:


Рис. 14. Результат индексирования (rus).


Рис. 15. Результат индексирования (eng).

Данный индексный набор может использоваться в статистических процедурах поиска и анализа текстов документов, когда необходимо задавать условия не на объекты предметной области или термины, их описывающие (фактографию), а на другие термины, встречающиеся в документах (не заданные в правилах вывода), или одновременно на те и другие классы терминов.

Применение результатов обработки документальной информации в процедурах извлечения знаний
Процедура обработки информации на естественном языке, описанная выше, обычно является только первым этапом в общем процессе обработки документальной информации. В рассматриваемой нами системе, комплексным результатом первичной обработки является массив связанных фактографических данных, представленный в виде семантической сети.

Для выделенных из различных источников информационных объектов выполняется процедура идентификации, позволяющая выявить сходные информационные объекты, полученные из различных источников. При идентификации объектов выделяются два основных типа связей — связи похожести и связи совпадения, при этом, предусмотрена возможность автоматического слияния совпадающих объектов. Связи похожести, как правило, обрабатываются специалистом-аналитиком (аналитик на основе экспертных знаний определяет, являются ли информационные объекты совпадающими, и выполняет, при необходимости, их ручное слияние) перед началом выполнения процедуры извлечения знаний.

Важной особенностью процедуры идентификации является возможность соотнесения вновь помещаемых в фактографическую базу информационных объектов с уже имеющимися. Это позволяет решать задачи мониторинга стандартных ситуаций.

После того как проведена идентификация и слияние совпадающих информационных объектов сформированный массив фактографической информации готов к извлечению из него знаний.

Данная процедура предполагает применение различных режимов обработки фактографической информации:
  • поисковых режимов:
    • атрибутивного поиска;
    • нечеткого поиска;

    • полнотекстового поиска похожих документов;

  • аналитических режимов:
    • контекстного анализа;
    • ситуативного анализа;

    • поиска цепочек связей;

  • режимов моделирования:
    • имитационного моделирования;
    • прогнозирования развития ситуаций во времени.

Данные режимы обработки информации, как правило, используются при решении прикладных задач поддержки принятия решений, мониторинга ситуаций, аналитических исследований и т. п.

Источники
  1. Губин А. В., Краюшкин Д. В., Кузьмин В. В., «Выбор технологии построения системы управления знаниями» // Сборник ИПИ РАН, 2004 г.

  2. Краюшкин Д. В. «Анализ технологий предварительной обработки документальной информации» // Сборник ИПИ РАН, 2005 г.

  3. Краюшкин Д. В. «Выявление и анализ угроз безопасности предприятий и регионов при помощи системы центров мониторинга и прогнозирования» // Первый Евразийский форум информационной безопасности «ИНФОФОРУМ-Алматы», 2005 г.

  4. Краюшкин Д. В., Кащенко А. А. «Методы извлечения знаний из общедоступных источников информации» // X международная научно-практическая конференция «Комплексная защита информации», 2006 г.

  5. АРИОН «Автоматизация работы с информацией оперативного назначения» // «МЕТТЭМ программные системы», 2005 г.

0 комментариев

Только зарегистрированные и авторизованные пользователи могут оставлять комментарии.