Контент - мониторинг текстовой информации

Мероприятие: Научно-практическая конференция «Проблемы обработки больших массивов неструктурированных текстовых документов» | Автор: Шалак В.И. | Источник: fep.ru

Маленькое предисловие
Более восьми лет мы занимаемся специальными исследованиями в области компьютерной психолингвистики. Они получили неофициальное название «Проект ВААЛ» и касаются вопросов:
  • компьютерного контент-анализа текстов;
  • ценки некоторых психиатрических, мотивационных и психоаналитических характеристик текстов;
  • оценка коммуникативной эффективности (суггестивности) текстов;
  • оценка их эмоциональной наполненности.
Этот краткий перечень является далеко не полным, так как работа продолжается. Ее практическими результатами являются:
  • компьютерные программы для анализа текстов;
  • специальные исследования по просьбам заказчиков;
  • инициативные исследования.

Переход количества в качество
В настоящее время имеются две системы для контент-анализа текстов. Первая система — ВААЛ-2000. Это некоторая надстройка над текстовым редактором Microsoft Word. Она позволяет, оставаясь в привычной среде самого популярного редактора, осуществлять дополнительный анализ текстов и их редактирование в нужном направлении. Основными клиентами являются рекламные и PR-агентства, банки, политические партии, журналисты, практикующие психологи и пр. Начиная с 1993 года, система использовалась на всех выборах в Думу и выборах Президента, а также на многих региональных выборах, начиная с Сахалина и кончая Карелией. Вторая система — Vaal Toolbox. Это набор программ, предназначенных для обработки больших объемов текстовой информации — большого числа больших текстов. В настоящее время Toolbox ориентирован на русский и английский язык, но в ближайшем будущем планируется охватить также украинский и немецкий. До сих пор система не продавалась, а использовалась для наших собственных исследований. Результаты, получаемые с ее помощью, имеют уже не частную, а социальную значимость.
Откуда берутся массивы текстов?
В самом общем случае такие массивы могут иметь одну из двух следующих структур:
  • набор из нескольких групп текстов, исходящих из разных источников;
  • упорядоченный (по времени) набор однородных текстов.
В первом случае основной целью является сравнительный анализ, во втором — анализ динамики. Результаты первичного анализа затем могут быть подвергнуты вторичному статистическому анализу с целью построения различных моделей и решения прогностических задач.Выступление будет посвящено демонстрации различных типов задач, решаемых с помощью разработанных нами программ. Это важно потому, что многие наши клиенты зачастую просто не знают, как применить программы серии ВААЛ для решения стоящих перед ними задач. Свое собственное неумение они переносят на ВААЛ и в результате занимаются антирекламой.
Психолингвистическая карта населения России
Исследование выполнено совместно с Фондом «Общественное Мнение» в ноябре 2000 года. ФОМ проводит еженедельные опросы по всей России в форме открытых вопросов. В случае открытого вопроса респонденту предлагается не выбирать в анкете один из возможных ответов, а формулировать ответ самому в свободной форме. В исследовании, о котором идет речь, каждому респонденту предлагалось ответить на 38 открытых вопросов. Вопросы касались состояния экономики России, отношения к реформам и правительству, надежд на будущее. Количество респондентов, ответы которых мы подвергли анализу, было 866. О каждом из них были известны возраст, пол, сфера занятости, доход, образование. В результате обработки всего этого массива ответов мы получили подробную психолингвистическую карту различных социально-демографических групп населения России. Небольшой фрагмент этой карты представлен ниже. Он касается лишь половозрастных различий соц-дем групп по некоторым из психолингвистических категорий.



Если числовая оценка в таблице по абсолютной величине превышает 2, то она является значимой для данной соц-дем группы и данной категории. Положительное значение свидетельствует о выраженности категории, а отрицательное — о ее подавленности.

Эта карта содержит информацию о состоянии умов населения нашей страны и будет весьма полезна в области социального управления. Регулярное получение пси-карт могло бы позволить установить обратную связь между проводимыми социальными преобразованиями и реакцией на них населения. Сравнение пси-карты конкретного региона с аналогичной картой всей страны позволит лучше оценить его проблемы.
Анализ предпочтений аудитории московских ежедневных газет
Мы взяли все публикации за январь-март 2000 года следующих газет: Московский Комсомолец, Комсомольская правда, Вечерняя Москва, Коммерсант-дейли, Московская правда, Известия, Сегодня, Труд, Независимая газета, Российская газета, Ведомости, Новые известия. Всего набралось 120 Mb текстовой информации, т.е. примерно 15 млн. словоупотреблений.
Каждому из изданий был сопоставлен гэллаповский индекс, отражающий долю различных соц-дем групп в его аудитории. После этого были построены таблицы корреляций между оценками различных психолингвистических параметров текста и упомянутыми выше индексами. Небольшая часть таблиц приведена ниже. Жирным шрифтом выделены оценки корреляции значимые на уровне 0.05. Принятые обозначения для соц-дем групп довольно очевидны. Например, М 16-34 обозначает мужскую аудиторию в возрасте от 16 до 34 лет, Ж 55+ обозначает женскую аудиторию старше 55 лет, A — люди с низкими доходами, B — люди со средними доходами, а C — с высокими.



Информация, представленная в этой таблице, представляет значительный интерес для редакторов различных бумажных СМИ. Для аналитиков же главный интерес заключается не только в этой таблице, но и в ее сопоставлении с предыдущей. Напомним, что пси-карта населения России получена осенью 2000 года на основе проведенного ФОМом по всей России опроса. Таблица же корреляций получена на основе анализа газет, выходивших весной 2000 года, и учета предпочтений населения одной лишь Москвы. Так вот из 16 категорий, встречающихся одновременно в обеих таблицах, знаки оценок совпали у 14. Получается, что личностные характеристики людей совпадают с их предпочтениями. Какие отсюда следуют выводы?
  • Это является дополнительным подтверждением гипотезы Геннекена-Рубакина о том, что люди предпочитают читать то, что близко их собственному мировосприятию.
  • Психолингвистический анализ СМИ позволяет получать заключения не о состоянии умов пишущих журналистов, а о состоянии умов читающей аудитории.
  • Психолингвистический мониторинг СМИ при одновременном учете их рейтингов позволяет оценивать состояние умов всего населения России.
  • Наибольшее воздействие оказывают те публикуемые материалы, которые наиболее соответствуют психолингвистическому профилю издания.
  • Задача создания информационных материалов, воздействующих адресно на конкретные соц-дем группы, перестает быть творческой и решается чисто технологически.
О Первом Лице
Личности, играющие важную роль в жизни страны, вызывают к себе закономерный интерес. Президент В.Путин по достоинству занимает первое место в этом ряду. Его неожиданное появление на самой вершине власти поставило много вопросов. На некоторые попробовали найти ответ и мы.

С использованием системы ВААЛ-2000 мы провели контент-анализ книги-интервью «От первого лица». Целью анализа было разобраться в том, как «некто Путин» представляет мир, как оценивает себя, окружающих, свои и чужие действия.

Результаты контент-анализа интервью В.Путина (только текст его ответов) сравнивались с результатами анализа текстов, входящих в программу по литературе для поступающих в ВУЗы («культуральная норма»), текстом русских сказок и языком наиболее популярных СМИ (газеты, журналы, ТВ и радио за одну неделю февраля 1999 года).



Одним из интересных выводов, к которым мы пришли, было то, что власть для Путина скорее средство, чем цель. Но тревогу вызывает то, что пресса привыкла и приучила многих смотреть на носителя высшей государственной власти именно через призму мотива власти (в описании Ельцина мотив власти составлял почти 80% мотивационной структуры). По привычке любые его действия продолжают интерпретироваться именно как мотивированные властью, хотя для Президента власть (пока по крайней мере) средство достижения вполне конкретных результатов, а не самоцель.



Взять хотя бы создание семи округов. Есть две точки зрения на то, какие цели ставил Президент, создавая эти округа. Первая — заботился об усилении и упрочении своей власти. Вторая — стремился повысить эффективность управления страной. Наши результаты говорят в пользу второго варианта.
Послания Президента Федеральному Собранию РФ
В Интернете можно найти сайты, на страницах которых публикуются результаты контент-анализа ежегодных посланий, с которыми обращается к стране Президент США. На основании такого анализа делаются разнообразные выводы, в том числе, например, об изменении приоритетов внешней и внутренней политики государства. Все это весьма интересно. Мы проанализировали в одном ряду послания Федеральному Собранию РФ Президента Б.Ельцина с 1995 по 1999 гг и послания В.Путина 2000 и 2001 гг. Ниже представлены диаграммы лишь для последних четырех лет. Так как президентское послание является продуктом коллективного труда многих людей, то и заключения относятся не лично к Президенту, а к коллективному состоянию умов той группы людей, которые в настоящее время олицетворяют высшую власть России.



Это лишь небольшая часть полученных оценок, но даже их достаточно, чтобы сделать вывод о падении эффективности государственной власти за истекший год. Власть все более замыкается в себе, минимизирует активность вне непосредственно поля власти, особенно между ею и экономически активной частью населения, обладающей, как правило, сравнительно высокими значениями мотива власти и достижения. Интересным оказалось то, что вовсе не нужно ждать очередного послания, чтобы сделать вывод об изменении умонастроений. Практически те же самые оценки были получены путем сравнительного анализа двух новогодних поздравлений президента. Маленькие тексты поздравлений, не имеющие никакого отношения к политике, содержали в себе ту же информацию, что и тексты посланий. Просто нужно уметь извлекать эту информацию.

Более подробная информация об этих и других проведенных нами исследованиях содержится в Интернете на страницах нашего сайта по адресу www.vaal.ru
На несколько ступеней выше
Одно из последних наших исследований было посвящено анализу динамики изменения умонастроений нашего общества в 20 веке. Нас интересовал ответ на вопрос, в чем была причина того, что СССР исчез с политической карты мира? Для анализа мы взяли более 1000 стихотворений 200 российских поэтов 20 века. Не официоз, не редакционная статья газеты «Правда», а именно стихотворения, которые пишутся при наличии вдохновения, пишутся для себя, лучше всего отражают доминирующие в обществе умонастроения. Стихотворения были распределены с 1900 по 2000 гг. Затем они были объединены по пятилетним отрезкам времени. Лишь первый отрезок с 1900 по 1905 год оказался шестилетним, а последний — с 1991 по 2000 год — десятилетним. Результаты превзошли наши ожидания. Приведем лишь два.



Первый относится к динамике мотива аффиляции. К этому мотиву («потребности в социальной поддержке») относится деятельность, направленная на поиск дружеских связей, общения, социальную кооперацию, любовь, присоединения к группе. Оказалось, что в обществе, одним из официальных лозунгов которого был лозунг «Человек человеку друг», произошло катастрофическое падение именно этого мотива. Можно по годам отслеживать его динамику, вспоминать, какие события в это время происходили, и видеть, какое воздействие на умы они оказали.

Второй касается фрустрационных настроений в обществе. Если посмотреть на следующую диаграмму, то в глаза не могут не броситься три пика, относящихся к 1900-1905 гг, 1916-1920 гг. и 1986-1990 гг. Не нужно быть историком, чтобы вспомнить, что именно на эти периоды пришлись три революции, потрясших Россию в прошлом веке.



То, что мы назвали фрустрацией, оценивается следующим образом:ФРУСТРАЦИЯ = частота(ДОСТИЖЕНИЕ УСПЕХА) / частота(ДВИЖЕНИЕ К)Категория Достижение успеха позволяет оценить выраженность соответствующего мотива. Составной частью этого мотива является наличие позитивных целей деятельности. Категория Движение К как раз и позволяет оценить целевую компоненту мотива. Т.е. коэффициент фрустрации оценивает стремление что-то делать при отсутствии позитивных целей.Три небольших замечания к последней диаграмме.1. Падение фрустрации 1936 — 1940 гг: репрессии, революция пожирает своих детей.
2. Падение фрустрации с 1960 по 1966 гг: оттепель.
3. Ровный участок с 1975 по 1980: застой (несостоявшаяся революция?)
А как сейчас?
Так хочется услышать что-нибудь утешительное. Реальность более неприглядна.

До недавнего времени наиболее популярными были информационные программы Михаила Леонтьева, Евгения Киселева, Сергея Доренко и Николая Сванидзе. Они перечислены именно в порядке убывания рейтинга. Если оценить эти программы с точки зрения выраженности в них фрустрационных настроений, то окажется, что из эфира исчезли именно те программы, в которых подобных настроений было меньше всего.



Самый большой рейтинг и самая большая выраженность этих настроений у программы Михаила Леонтьева. Если вспомнить сказанное выше о личностных характеристиках и предпочтениях СМИ, то немедленно следует вывод, что в настоящее время в обществе доминируют фрустрационные настроения. Ничего хорошего от этого ждать не приходится.
Динамика СМИ
Предлоги русского языка К и От обладают одним замечательным свойством — их частоты могут служить показателями выраженности в тексте мотивов достижения и избегания. С середины нашего столетия психологи и социологи установили, что люди живут именно так, как они ожидают. Что для того, чтобы хотя бы чего-нибудь достичь, надо хотя бы куда-нибудь стремиться. Это было установлено на примерах длинных и коротких трендов, на примерах древних и современных государств, на примерах отдельных фирм и отдельных отраслей производства. Причем психологам известно, что для достижения необходимо стремится обязательно куда-то или К чему-то, а не ОТ чего-то или ОТкуда-то.



На графике представлены частоты встречаемости предлогов К и ОТ в текстах российских СМИ с июля 1999 по сентябрь 2000 года. Красная ломаная линия — частота предлога К, зеленая — предлога От, а черная — динамика производства ВВП, в % к 1 кварталу 1995 года, сезонность устранена.

В конце июня — начале июля 1999 года был резкий скачок частоты употребления предлога К, но с тех пор в течение 14 месяцев наблюдается падения этой частоты. Показатели динамики производства ВВП росли до июня 2000 года, но затем также начали падать, немного отстав во времени, как это и должно было быть, от ожиданий населения.

Во времена СССР мы были заложниками доктрины примата политики над экономикой. Сейчас качели качнулись в обратную сторону. Мы успели побывать заложниками гайдаровского монетаризма — управления обществом через посредство управления денежной массой. В настоящее время мы являемся заложниками других экономистов. Приходится слышать слова о том, что вот скоро Дума примет какой-то закон и люди сразу начнут работать, все пойдет на лад. Еще одно заблуждение. Чтобы произошли позитивные изменения, люди должны захотеть жить лучше, у них должны появиться цели, которые стоят того, чтобы к ним стремиться. Одним из индикаторов изменения умонастроений в обществе является частота предлога К. Звучит странно, но это так.
Коль скоро заговорили об экономике...
Говоря об экономике, нельзя не упомянуть доллар. Как соотносится его курс с событиями нашей жизни?

Для анализа были взяты из документальной информационно поисковой системы «Артефакт» информационного агентства «Интегрум-Техно» все расшифровки теле- и радиопередач, выходивших в эфир в течение семи месяцев с 27 марта по 29 октября 2000 года. Выборка составила чуть больше 2 млн. словоупотреблений и состояла из 31 файла по числу недель.

Анализировались передачи следующих электронных СМИ: REN-TV, Авто Радио, Говорит Москва, Маяк, НТВ, ОРТ, Открытое Радио, РТР, Радио 1, Радио «Алеф», Радио «Голос России», Радио «Европа Плюс», Радио России, Радио «Юность», ТВ-Центр, ТВ-6, Эхо Москвы, Радио Подмосковья.

Оценки, полученные с помощью системы ВААЛ-2000, были сопоставлены с курсом доллара за этот же промежуток времени. Таблица корреляций приводится ниже. В ней представлены лишь те оценки, корреляция которых по абсолютной величине превышает 0,5. Красным цветом выделены оценки, статистически значимые на уровне 0,001.



Как видим, колебания курса доллара тесно связаны с тем, что пишут в газетах и говорят по радио и даже могут быть прогнозируемы. Похожие результаты получены не только для валютной, но и для фондовой биржи.

Мониторинг зарубежных источников информации
Все результаты, о которых шла речь, получены на материалах российской жизни. Vaal Toolbox позволяет проводить аналогичные исследования и в отношении англоязычных источников информации. Например, мониторинг ежедневных выступлений прессекретаря Джорджа Буша, помещаемых на сайте Белого Дома, позволяет отслеживать динамику умонастроений американской администрации и более тонко прогнозировать ее реакцию на различные события международной жизни.

Мониторинг американской прессы позволил бы оценивать царящие в обществе ожидания и на их основе прогнозировать развитие ситуации. Аналогичный мониторинг СМИ, рассчитанных на свои целевые аудитории, позволил бы дифференцировать прогнозы именно по ним.

Последнее время много говорится о коррекции имиджа России за рубежом. Во многом он сформирован стараниями СМИ. Имидж России существует в головах живых людей. Имидж России — это многомерное образование, а не просто двузначная оценка хороша Россия или она плоха. Чтобы начать его корректировать, необходимо сначала получить эту многомерную картинку, наметить конкретные шаги и лишь затем при постоянной обратной связи заняться его изменением.

Выводы
Информации никогда не бывает много, если знать, как ее обрабатывать.

0 комментариев

Только зарегистрированные и авторизованные пользователи могут оставлять комментарии.