Выделяя из текста смысл

При упоминании термина «аналитические системы» у большинства читателей возникают ассоциации с продуктами для статистической обработки и подготовки отчетности, формирования хранилищ данных, технологиями анализа многомерных кубов, средствами для мониторинга ключевых показателей эффективности — словом, всеми теми технологиями, которые имеют обобщающее название Business Intelligence (BI). Однако существует не менее обширный класс приложений, позволяющих анализировать информацию, содержащуюся в неструктурированных документах и представленную в виде текста.

Текстовая специфика

Зачем же нужны подобные информационные системы в современной организации? Какие задачи можно решать с их помощью? Чтобы ответить на этот вопрос, выясним сначала, чем же отличаются друг от друга числовая и текстовая информация.

Основное отличие: текстовая информация менее формализована по сравнению с числовой. И дело даже не в том, что текст может быть представлен на разных языках и в разных кодировках. Проблема глубже — текст, как правило, значительно сложнее разделить на части и «разложить по полочкам» без потери смысла. Формализованная, структурированная, главным образом числовая информация легко представима в виде записей одинаковой структуры, хранимых в базах данных, и ценность такой информации от этого не меняется. Напротив, текстовая информация, документы, контент имеют ценность, только если рассматриваются как целое.

В современных организациях используется большое количество разнообразных приложений, которые порождают и хранят текстовую информацию, — текстовые редакторы, электронная почта, системы электронного документооборота, электронные архивы, корпоративные порталы и т.п. Средства текстовой аналитики наследуют эту особенность и также отличаются гораздо большим разнообразием по сравнению с технологиями для аналитической работы с «числами». Остановимся кратко на некоторых технологиях, применяемых в решениях для анализа текстовой информации.

Одна из наиболее понятных и наглядных технологий(*) — полнотекстовый поиск. Нужно отметить, что современные технологии полнотекстового поиска, применяемые в решениях для текстовой аналитики, существенно отличаются от того, к чему привыкли пользователи поисковых серверов в Интернете. Для анализа текстовой информации нужна модель конкретной предметной области, а часто — и настройка на специфику деятельности конкретной организации. Обычно такая модель представляется в виде семантической сети — взаимосвязанной совокупности терминов и понятий. Простейший вид связей в сети — объединение синонимов, описывающих одно и то же понятие. Более сложные системы текстовой аналитики поддерживают связи типа «часть — целое», «род — вид», «причина — следствие» и т.п. 

Другой аспект технологий текстовой аналитики — работа с таксономиями, то есть многоуровневыми иерархическими классификаторами. Каждый элемент таксономии может быть связан с определенной группой терминов семантической сети. Это дает возможность при работе с неструктурированной информацией отойти от простейших «ключевых слов» и приблизиться к «пониманию» смысла документов.

Выделяются два основных подхода к созданию семантических сетей и таксономий. Ручное: моделирование предметной области осуществляется специалистами и экспертами — точно, качественно, но довольно долго и трудоемко. Автоматическое (или полуавтоматическое): семантические сети и таксономии строятся путем анализа частотных характеристик совместной встречаемости терминов в текстах документов. Получается быстро, но не всегда точно, поэтому полученные результаты могут дополнительно корректироваться экс­пертами.

Следующий этап аналитической обработки текста — выделение из текста фактов и объектов (даты, география, названия компаний, ФИО, торговые марки, типовые события и т.п. ). Встречаются и более сложные виды анализа. Например, возможно определение так называемой «эмоциональной окраски» информации, которая характеризует отношение автора или комментатора к описываемому событию, процессу, объекту и т.п. 

Индексирование документов с применением семантических сетей, таксономий, выделение фактографической информации позволяют решать задачи автоматической классификации. Эти процедуры не меняют содержимого документов — фактически речь идет об отнесении документов к тем или иным категориям. Часто требуется автоматически составить краткое изложение сути большого документа или целого множества документов. На помощь приходят технологии аннотирования или автореферирования. К этой задаче примыкают технологии автоматической генерации связанного текста на естественном языке на основании формализованной информации.

Важная часть технологий текстовой аналитики — визуализация массивов найденной неструктурированной информации. Классический пример неудобной формы представления — плоские списки документов, которые выдают многие поисковые серверы. Несмотря на сложные технологии определения релевантности, часто добраться до нужной информации в таком плоском списке весьма и весьма непросто. Чтобы упростить доступ к неструктурированной информации и сделать его более наглядным, в приложениях текстовой аналитики используются, например, представление массива категорий в виде облака тэгов, многомерные таблицы, отображение массива документов в виде сети, представление в виде сети найденных в документах информационных объектов.
Наконец, создавая корпоративные приложения для текстовой аналитики, приходится решать много дополнительных прикладных задач: обеспечивать индексирование любых источников неструктурированной информации независимо от их местонахождения, форматов и языков хранимых электронных документов, учитывать права доступа пользователей к данным источникам при выдаче результатов аналитической обработки и т.п. 

На вооружении у различных департаментов

Итак, разобравшись вкратце с технологиями текстовой аналитики, посмотрим, какие же прикладные задачи можно и нужно решать с помощью этих технологий.

Рассмотрим для начала случай, когда источники неструктурированной текстовой информации находятся вне компании. Внешние информационные ресурсы — это, как правило, различные сайты в Интернете. Реже осуществляется доступ к удаленным файловым системам или базам данных.

РЕКЛАМНЫЙ БЛОК

[ Хотите знать больше о частной разведке? Регистрируйтесь и общайтесь на интернет-форуме it2b-forum.ru ]

Традиционно и уже давно технологии текстовой аналитики, нацеленные на обработку внешних информационных ресурсов, находят самые разнообразные применения в спецслужбах и силовых структурах многих стран. В свою очередь, коммерческие компании с помощью аналогичных подходов решают задачи бизнес-разведки.

Для банков или страховых компаний одна из основных проблем — анализ рисков. Технологии текстовой аналитики помогут в сборе и анализе доступной в Интернете информации о заемщике при рассмотрении заявки на выдачу кредита или оформлении страхового полиса. HR-службы компаний и специализированные кадровые агентства аналогичным образом смогут значительно улучшить свои процедуры сбора и анализа информации о кандидате на ту или иную вакансию.

Службы маркетинга любой организации получают возможность в автоматическом режиме осуществлять мониторинг действий конкурентов, проводить оценку эффективности собственных рекламных кампаний. А технологии текстовой аналитики помогут ответить на вопрос: «Сколько средств массовой информации и как именно (эмоциональная окраска!) отреагировали на проводимые маркетинговые мероприятия? » Службы продаж наверняка заинтересует возможность оперативно, в автоматическом режиме просматривать информацию на электронных торговых площадках и находить актуальную информацию о проводимых тендерах и аукционах, соотнося ее со спектром продуктов и услуг собственной компании.

Применение текстовой аналитики внутри компании также имеет много вариантов. Один из наиболее востребованных — создание единой корпоративной поисковой системы, которая охватывает все внутренние информационные ресурсы компании, гибко настраивается на специфику деятельности и значительно сокращает время поиска нужной информации.

Средства текстовой аналитики могут стать ядром корпоративной системы управления знаниями, обеспечивая сбор, агрегирование и интеллектуальную маршрутизацию новостных потоков внутри организации, обеспечивая оперативное нахождение экспертов по различным вопросам, мониторинг компетенций персонала. Интересный вариант применения текстовой аналитики — системы правового мониторинга, помогающие юристам находить пробелы и коллизии в массивах нормативных правовых документов и проводить правовую экспертизу проектов таких документов.

Иногда технологии анализа текстовой информации работают «скрытно» от пользователя. Примером может служить контекстно зависимая реклама, «на лету» определяющая тематическую направленность контента просматриваемой Web-страницы или пользовательского запроса в поисковом сервере и предоставляющая рекламные ссылки в соответствии с выявленной тематикой.

В заключение короткого рассказа о возможностях технологий текстовой аналитики отметим несколько характерных особенностей данных проектов. В отличие от платформ для числовой аналитики, где многие поставщики предлагают примерно одинаковый набор функциональных возможностей, средства для анализа текстовой информации еще не достигли подобной степени унификации. Это вместе с широким спектром решаемых задач приводит к тому, что проекты, связанные с аналитической обработкой неструктурированной информации, отличает высокая степень уникальности.

Из наблюдаемых сейчас тенденций развития данного класса информационных технологий можно отметить сближение технологий числовой и текстовой аналитики, проработку различных подходов к решению проблемы понимания смысла и движение в сторону «искусственного интеллекта», интеграцию технологий текстовой аналитики с социальными сетями, применение возможностей Enterprise 2.0 для классификации и анализа текстовой информации.

(*) На самом деле под внешне простыми интерфейсами скрываются интереснейшие математические алгоритмы, затрагивающие теорию графов, динамические свойства сложных самоорганизующихся сетевых структур, степенные законы распределения и т.п. 

Автор: Дмитрий Романов, директор по развитию технологий информационного менеджемента компании «АйТи»

Источник: Intelligent Enterprise №15-16 (208), 23 октября 2009 года

Оцените статью
Технологии разведки для бизнеса