23 Jan 14:02 avatar

«Аналитический курьер» - современная система извлечения знаний из хранилищ документов. Часть №2


Автор: Сергей Леонидович Киселев
«Аналитический курьер» — современная система извлечения знаний из хранилищ документов. Часть 1

Виды аналитической обработки текста документа
Система «Аналитический курьер» реализует унифицированную технологию создания и ведения распределенных информационных фондов документов.

На рисунке 7 представлена модель документа, используемая для выполнения базовых функций аналитической обработки.


Рисунок 7. Модель представления исходного документа в системе


Остановимся на них подробнее.

Автоматическое аннотирование документов

Суть аннотирования (реферирования) текста заключается в формировании краткого описания основных тем, затрагиваемых в документе. Обращение, вместо первоисточника, к аннотации, упрощает смысловой поиск, уменьшает объём просматриваемой информации, экономит время читателя.

В «Аналитическом курьере» аннотация автоматически формируется из фрагментов документа, и объём аннотации не является фиксированным, а зависит от исходного документа, составляет от 5 до 30% исходного текста.

Аннотация позволяет зрительно оценить содержание текста и принять решение, какие документы важны для стоящей перед аналитиком проблемы. При работе с информационно-аналитической системой эксперт обращается к аннотации во время первого просмотра списка документов, полученного с помощью поиска или с помощью средств визуальной навигации по семантическим картам или кластерам.

Автоматическое рубрицирование документов

Продолжением идеи аннотирования документов является сервис рубрицирования. Рубрицированием (классификацией) называется процедура отнесения документа к одной из априорно сформулированных экспертом категорий.

Система предоставляет возможность автоматического определения наличия определенных тем в документе — тематическое рубрицирование проблем, а также определение тональности публикации по отношению к определенным объектам (лицам, организациям и др.), встречающимся в них, — рубрицирование тональности. Для этого систему нужно предварительно обучить на документах с типичной для рубрик лексикой.

«Аналитический курьер» содержит несколько различных «движков» (построенных на разных математических моделях), позволяющих осуществлять тематическое рубрицирование. При анализе текста учитывается не только состав слов, но и их совместная встречаемость. Если тема (или набор тем) выявлены, документ заносится в соответствующие проблемно-тематические рубрики. Это реализовано через механизм метаданных, «карточку документа» — обязательный атрибут каждого содержащегося в ЕИП элемента, независимо от контента. Такое решение позволяет строить запросы по тематическим рубрикам, например, выбрать все документы по теме «Социальные проблемы».

Во втором случае, при тональном рубрицировании, с высокой точностью производится автоматическое определение эмоциональной окраски сообщения по отношению к объекту, о котором в тексте идёт речь. Для проведения тонального рубрицирования необходимо предварительно обучить систему на документах с типичной для рубрик лексикой. Данная возможность высоко оценивается аналитиками, работающими с новостными лентами: она позволяет анализировать общественное мнение, автоматически строить статистические отчёты о настроении прессы к объекту в каждом регионе, исследовать закономерности между высказываниями в прессе и рейтингом политиков и т.д.

Проведение рубрицирования, в особенности тонального, тесно связано с построением дайджестов на объекты мониторинга, т.е. выбор предложений, в которых упоминается интересующий объект. «Аналитический курьер» выполняет нормализацию дайджестов с использованием углубленного анализа анафорических ссылок в разных предложениях, за счёт этого репрезентативность дайджеста, точность рубрицирования, увеличивается на 50-80%.

Виды оперативной аналитической обработки фондов
Процесс исследования предметной области опирается на результаты аналитической обработки коллекций документов, которая должна выполняться в оперативном режиме (в течение 3-7 секунд).

На уровне оперативного анализа подборок документов «Аналитический курьер» предоставляет сервисы построения кластерной карты, семантической карты взаимосвязей тем, частотного распределения документов.

Рассмотрим эти функции более подробно.

Динамический анализ тематической структуры публикаций (кластерный анализ)

Кластеризация позволяет в режиме реального времени получить абрис тематической структуры подборки документов. Этот метод используется для выявления значимых тематических групп, характерных для подборки. Результат кластеризации: список или карта кластеров. Кластеры пронумерованы и имеют названия, в качестве которых выступают ключевые слова, выявленные для данной группы документов. Щелчок клавишей мыши по названию кластера открывает список документов, входящих в кластер. Поскольку разные тематические группы могут иметь общую лексику, то кластеры могут пересекаться, что указывает на взаимосвязь основных тем. Примеры результатов кластеризации представлены на рисунках ниже.


Рисунок 8. Пример кластерной карты подборки документов



Рисунок 9. Пример кластерной карты с коррелирующими кластерами


Семантические карты связей объектов

«Аналитический курьер» автоматически выделяет из текста всех документов содержащиеся в них темы, объекты и их связи — семантическую сеть документа. Можно настроить систему на автоматическое выделение определенных типов объектов, например, юридических или физических лиц, географических названий и других.

После обработки запроса система может построить семантическую карту полученной подборки документов (возможно из различных фондов) для исследования «тонких взаимосвязей» между темами и объектами подборки. На карте можно переименовывать, удалять и объединять вершины. Система умеет определять причинно-следственные связи между темами подборки, отображая их направленными стрелками. Реализован сервис объединения нескольких карт в одну, а также поиск на карте ситуаций или семантических шаблонов, сохраненных в библиотеке.

На рисунках представлены примеры семантических карт по различным проблемам.



Рисунок 10. Пример семантической карты по аспектам деятельности губернаторов


Карта может быть представлена с типизированными связями (показывается дескриптор (ключевое наименование) связи), либо с нетипизированными, обозначающими факт наличия связи.



Рисунок 11. Пример семантической карты по региональной проблематике


Частотный анализ публикаций

«Аналитический курьер» динамически строит одно- и двумерные частотные распределения по любым атрибутам документов: дата загрузки, объём документов, дата публикации, заголовок, автор, источник, фонд и регион происхождения источника (имеет важное значение для сравнения публикаций центральной и местной прессы), а также по экспертным и автоматически полученным рубрикам, по тональности публикаций, а также по самому тексту.

Частотный анализ полезен при исследовании динамики процессов, например, для обнаружения зависимости между рейтингом и освещением в прессе деятельности объекта в течение длительного периода на основе анализа тональности публикаций.

Web-интерфейс «Аналитического курьера» отображает зависимость количества публикаций от нескольких параметров одновременно, например, от региона, времени, тональности публикаций о выбранном объекте. Частотные распределения могут представляться как в виде матрицы, так и в виде трехмерной гистограммы, оба представления допускают операцию drill-down: колонки и строки данных представляются в виде гипертекстовых указателей. Щелкнув мышью на выбранном объекте, пользователь получает более детальную информацию, доступ к конкретным документам подборки.

Если данных о количестве и тональности публикаций больше, чем о рейтинге изучаемого объекта, то рейтинг может быть спрогнозирован статистическими методами. Для решения вычислительно весомых задач в «Аналитическом курьере» предусмотрена возможность взаимодействия с системами класса Data Mining, позволяющими глубоко анализировать многомерные частотные распределения выборок.


Рисунок 12. Технология анализа частотных распределений рубрик


Технологии выделения фактографической информации и ведения досье на объекты мониторинга реализует система управления досье «XFiles», которая может использовать в качестве источника информации систему «Аналитический курьер».

Заключение
Эффективность работы с текстовыми активами заслуживает самого пристального внимания руководства и ИТ-специалистов государственных структур и коммерческих компаний. 80-85% корпоративной информации получаются в результате сравнения, анализа и синтеза разрозненных и разбросанных по разным источникам фактов («источники» — это новостные ленты, служебные записки, пожелания клиентов, платежные документы и т.д.). Аналитик, который по этим фактам должен составить определенную картину, нуждается в мощных инструментах, облегчающих извлечение знаний из текстов, написанных на естественных языках.

Компании «Ай-Теко» принадлежит патентное свидетельство на систему извлечения знаний из текстов «Аналитический курьер», призванную помочь аналитикам в работе с большими объёмами неструктурированной информации.

Предоставляемые аналитику сервисы выделения тем и объектов текста, удобная визуализация их связей, высокая точность выделения фактов с помощью развитых средств морфологического, синтаксического анализа, разрешения анафорических ссылок, возможность параллельной обработки нескольких фондов, сервисы поиска, тематического и тонального рубрицирования, кластеризации подборки документов, выделения ключевых тем, построения частотных распределений документов с использованием механизма drill-down — являют собой важный ресурс конкурентоспособной компании.

По всем вопросам обращайтесь в компанию «Р-Техно»

0 комментариев

Только зарегистрированные и авторизованные пользователи могут оставлять комментарии.