23 Jan 13:48 avatar

Проблема Выявления Знаний в пресыщенном информацией мире


Автор: Антонов А.В. | Источник: Корпорация «Галактика»

Аннотация
Статья посвящена проблемам перевода неявных знаний в явный вид. Рассказано об одной из возможных технологий (БИО-Зум), помогающих в этом процессе. Приводятся примеры.

1. Проблема и связь с Предметом
В нашем мире родился другой мир – информационный. Имя ему – Интернет.

Выросли новые города и мегаполисы – порталы и корпоративные хранилища. Есть и бесчисленное количество деревушек – сайтов небольших фирм.

Есть и хутора, и даже персональные лесные сторожки. Есть закрытые военные городки и базы, куда постороннего не пустят, а за проникшим будут охотиться целые подразделения ФБР и ФСБ. Есть в нем публичные библиотеки и публичные дома. Есть доходные дома – хостинги.

Города, деревушки и коттеджи связывают информационные коммуникации – хайвеи и проселки. На хайвеях стоят шлюзы из нашего мира в информационный – провайдеры.

И, поскольку потребители и работники в этом мире – люди, информационный мир – зеркало нашего, физического мира. Значит, изучая этот информационный мир, можно сделать ценные выводы.

И, как и в реальном мире, преимущество получает тот, кто сможет узнать не только то, что общедоступно и лежит на поверхности, выражено явным образом. Огромные пласты Знания рассеяны по тысячам документов, в каждом из которых скрыта крохотная частичка необходимой кому-то информации.

В результате важные решения принимаются на основе недостаточной информации. По результатам исследования фирмы IBM решения топ-менеджеров основаны только на 7% необходимой информации. При этом нет недостатка в информации, многие из них говорят об «информационной усталости», популярен также термин «информационное загрязнение».

В скрытом, неявном виде пребывает довольно большая часть Знания. По этой причине ощутимая часть средств Управления Знаниями посвящена переводу Знаний из их наиболее распространенной неявной формы в явную. Только после этой процедуры можно с этими Знаниями работать.

Речь далее пойдет не об анализе трафика, заголовков пакетов и тому подобной обслуживающей обвязки. Возможности такого анализа интересны, но они достойны другого исследования.

Попробуем поработать с самым информативным и самым трудным для автоматического анализа составляющим информационного мира – собственно контентом, текстом, изложенным на обычном человеческом языке.

Это тем более интересно, поскольку в информационном мире все действия оставляют следы, которые не стирает ветер и не смывает дождь [1]. Относительно недавно ставший популярным АРХИВ Интернета – тому подтверждение. Однако мало собрать гигабайты и терабайты информации, и неуспех Эшелона и Корнивура в борьбе с террористами, использовавшими обычную электронную почту, слишком хорошо в этом убеждает.

Выявить среди следов нужный, выяснить, куда только что пробежала «толпа», что ее там притягивает и вообще определить, двигалась ли она куда-нибудь – вот малая часть задач, которые могут волновать пиарщика или журналиста, маркетолога или эсбэшника.

И все это – примеры задач Выявления Знаний.

2. Инструменты решения Проблемы и технология БИО-Зум
Вернемся чуть назад. Выйдем из Информационного Мира в наш реальный.

Есть всем известные инструменты перевода неявных знаний в явные. К ним можно отнести инструменты изучения Общественного Мнения. Стоит напомнить, как недешево стоят подобные исследования и как дорого обходятся их ошибки.

Но эффективность таких измерений при всей адресуемой им публичной критике довольно велика. Известно, какие страсти бушуют вокруг публикаций рейтинга политиков. Рейтинг телеканалов напрямую определяет потоки больших денег рекламодателей.

Применяются подобные методы и в информационном мире. В Сети постоянно проводятся опросы. На любом новостевом сайте или интернет-газете, а часто и на обычной страничке постоянно проводят один или даже несколько опросов.

Однако такая методика хорошо подходит только для ответов на простые вопросы. Она – всего лишь индикатор Да-Нет, и не может дать комплексной картины ситуации. К тому же такая методика требует серьезных затрат и привлечения больших людских ресурсов, следовательно, не может использоваться достаточно часто. К тому же существуют группы людей (например, руководители), прямой опрос которых максимально затруднен.

Можно добавить, что этот инструмент является влияющим на отклик. В качестве примера можно предложить дать ответ на вопрос о решении чеченской проблемы в различных формулировках. Вот три варианта одного и того же по содержанию вопроса.
  • Вы согласны с тем, что с терроризмом в России должно быть покончено?
  • Вы против антитеррористической военной акции в Чечне?
  • Как Вы думаете, стоит ли проливать кровь российских солдат в Чечне?
Нетрудно спрогнозировать распределение ответов.

Итак, Выявление Знания по методике опросов имеет и несомненные положительные качества, и отрицательные – оно некомплексное, дорогое, искажающее.

Анализ текстов – инструмент, подобный опросам, только опрашиваются в нем не люди, а документы. Недаром такие исследования входят в реестр услуг, предоставляемых организациями, занимающимися изучением Общественного Мнения.

Нельзя сказать, что в этом случае отсутствуют недостатки. Документы нельзя переспросить, что-то уточнить, у них, в отличие от их авторов, раз и навсегда определенная позиция [2]. Результаты исследования сильно зависят от выборки документов, не зря все большие аналитические конторы стремятся увеличить свою текстовую Базу [3].

При этом невозможно отрицать бОльшую объективность такого исследования (в смысле отсутствия влияния), возможность проверки – инвариантность, потенциальную относительную дешевизну [4] и комплексность.

Кроме этого, надо отметить возможность работы в реальном времени, ведь от скорости решения задач зависит актуальность рекомендаций, следовательно, смысл самой работы по их решению.

Технология БИО-Зум [5] – пример построения такого инструмента.

Она реализует идею текстового анализа большого объема текстов за реальное время (примерно тысяча документов за секунду). Такая технология выявления Знания позволяет быстро «влезть» в незнакомую проблематику, получить основную начальную информацию для более глубокого исследования, сравнивать несколько исследуемых объектов.

При этом уходит риск пропустить что-то, «о чем говорят все».

Конечно, качество полученного Нового Знания напрямую зависит от качества и объема текстовой Базы. Нельзя требовать от системы освещения вопросов садоводства, если в ней лежат документы по нейрохирургии.

3. Примеры решения Проблемы
Технология БИО-Зум реализована в коммерческом продукте Галактика-Зум корпорации Галактика.

Приведем два небольших примера для иллюстрации результатов работы системы.

Сначала – тема регионов.

База – СМИ статьи из газет и журналов за 2000-2001гг.
Выбраны документы, удовлетворяющие запросу: Ростов-на-Дону и инвестиции (примерно полторы тысячи документов).
Система дает следующую картину [6] (Информационный Портрет в терминах БИО-Зум).

Ростов и инвестиции.
ИНВЕСТИЦИОННЫЙХОЛДИНГВОЛГОГРАДСКИЙ
ОАОВОЗРОЖДЕНИЕКОРПОРАТИВНЫЙ
ИНВЕСТОРОБЛИГАЦИЯТАГАНРОГСКИЙ
ДОНСКОЙАЭСМАЛОЕ
НИКОЙЛРОСТСЕЛЬМАШИНВЕСТИЦИОННО-БАНКОВСКАЯ
ЧУБАГРОПРОМЫШЛЕННЫЙБИРЖА
ЮГОПЕРАТОРТЕЛЕКОМИНВЕСТ
КОМБАЙНПОРТАТОМНЫЙ
ДОНМОЩНОСТЬМТС
БАЛТИКАРОСТОВУГОЛЬЗЕМЕЛЬНЫЙ
СУБЪЕКТРЕСТРУКТУРИЗАЦИЯМЕГАФОН
ЗЕРНОАПКВЫМПЕЛКОМ
КРАСНОДАРСКИЙПИВОВАРЕННЫЙПОТЕНЦИАЛ
СЕЛЬСКОХОЗЯЙСТВЕННЫЙПИВОСОТОВЫЙ


Списки ранжированы по убыванию значимости (числовому коэффициенту соответствия выборке) сверху вниз, а затем слева направо.

В списках выделены (вручную) названия организаций (НИКОЙЛ), персоналии (ЧУБ), направления инвестирования (ЗЕРНО).

Теперь такая же операция с документами по запросу: Волгоград и инвестиции (около двух тысяч документов).

Волгоград и инвестиции.

ВОЛГОГРАДСКИЙМЕСТОРОЖДЕНИЕНИКОЙЛ
ОАОТРУБНЫЙНЕФТЕГАЗОВЫЙ
ЛУКОЙЛГАЗПРОМСАРАТОВСКИЙ
ИНВЕСТИЦИОННЫЙХОЛДИНГАЛЕКПЕРОВ
НЕФТЬГАЗАЛЮМИНИЙ
ВОЛЖСКИЙПОДШИПНИКОВЫЙОСВОЕНИЕ
ВЗБТТРАНСПОРТНЫЙОСВОБОДИТЬ
САВЧЕНКОМОЩНОСТЬРОСТОВСКИЙ
АСТРАХАНСКИЙВТЗТРАКТОРНЫЙ
НЕФТЯНОЙПОРТСЫРЬЕ
ИНВЕСТОРРЕКОНСТРУКЦИЯШИННЫЙ
ЗАОМАКСЮТАСЕЛЬСКОХОЗЯЙСТВЕННЫЙ
АКЦИОНЕРДОБЫЧАЧУКОТКА
СИБУРХИМПРОМ
ОБЛИГАЦИЯМАШИНОСТРОЕНИЕ


Здесь и выше подчеркнуты общие объекты.

Видно, что в Ростове лидирует НИКОЙЛ и БАЛТИКА, в Волгограде – ЛУКОЙЛ и ВЗБТ (завод буровой техники).

При сравнении объектов общим является ПОРТ и НИКОЙЛ.

В Волгограде основная деятельность – РЕКОНСТРУКЦИЯ, в Ростове – РЕСТРУКТУРИЗАЦИЯ.

Система выдала эти таблицы через несколько секунд работы. Еще несколько минут ушло на разбор информации.

Картина получилась довольно пестрая, неполная, но, как начальная информация, вполне подходит и, в общем, соответствует действительности.

Далее, пользуясь вышеприведенными данными как рубрикатором, можно двигаться вглубь, изучая материалы, опрашивая экспертов и делая новые выборки.

Теперь возьмем другой пример.

Попробуем изучить проблему Наркомании в динамике на протяжении последних двух лет.

База та же – СМИ за 1999-2001гг.

Выбраны документы, удовлетворяющие запросу: Наркотики (примерно по 3 тысячи документов в месяц).

Вот верхняя часть получаемых таблиц.

1999-1-2кв1999-3-4кв2000-1-2кв2000-3-4кв2001-1кв
ГЕРОИНГЕРОИНГЕРОИНГЕРОИНГЕРОИН
ПОДРОСТОКСПИДСПИДСПИДСПИД
ПРЕСТУПНОСТЬПОЧТОВЫЙПОДРОСТОКПОЧТОВЫЙПОДРОСТОК
НЕСОВЕРШЕН-НОЛЕТНИЙПОДРОСТОКПОДРОСТКОВЫЙПОДРОСТОКВЛЕЧЬ
СПИДНЕСОВЕРШЕН-НОЛЕТНИЙПРЕСТУПНОСТЬОТПРАВЛЕНИЕВИЧ
ПОДРОСТКОВЫЙНЕЗАКОННЫЙНЕЗАКОННЫЙВИЧПРАВОНАРУШЕНИЕ
НЕЗАКОННЫЙПРЕСТУПНОСТЬДОЗАВИЧ-ИНФИЦИРО-ВАННЫХАДМИНИСТРА-ТИВНЫЙ
ПРЕСТУПНЫЙИЗЪЯТЬБОЛЬНОЙНЕЗАКОННЫЙНЕЗАКОННЫЙ
МАРИХУАНАПРЕСТУПНЫЙВЕЩЕСТВОИЗЪЯТЬПРОФИЛАКТИКА
КРИМИНАЛЬНЫЙПОДРОСТКОВЫЙПРЕСТУПНЫЙПОДРОСТКОВЫЙПОДРОСТКОВЫЙ
ИЗЪЯТЬГЕПАТИТПРОФИЛАКТИКАПРОФИЛАКТИКАИЗЪЯТЬ
КОКАИНКРИМИНАЛЬНЫЙКОКАИНШПРИЦРАСЧЕТНЫЙ
УБИЙСТВОБАНДИТМАРИХУАНАГЕПАТИТВИЧ-ИНФИЦИРО-ВАННЫХ
ЗЕЛЬЕБОЛЬНОЙИЗЪЯТЬБОЛЬНОЙАЛКОГОЛИЗМ
ПРЕСТУПНИККОКАИНВИЧ-ИНФИЦИРО-ВАННЫХМАРИХУАНАШТРАФ
БОЛЬНОЙНАЛОЖЕНИЕЛЕЧЕНИЕКРАЖАПРЕСТУПНОСТЬ


Из всего списка исследуем сопровождающие Наркотики преступления (взяты из списка выше).
  • КРАЖА
  • РАЗБОЙ
  • КОНТРАБАНДА
  • УБИЙСТВО
  • ГРАБЕЖ
  • ПРОСТИТУЦИЯ
Приведем график [7] для первых трех терминов.



Видно, что из сопутствующих преступлений сильно растет Кража. Контрабанда, Разбой – остаются примерно на одном уровне.

Аналогичный график показывает, что растут также Убийство, Грабеж, Проституция, правда, заметно медленнее, чем Кража.

Отсюда видно, что рост наркомании ведет не столько к росту контрабанды наркотиков, сколько к росту преступности практически во всех проявлениях. Дальнейшие выводы очевидны.

В заключение нужно отметить, что конечно, можно получить гораздо более полное представление о предмете, просто читая материалы исходных документов без всяких систем Выявления Знаний. Однако объем выборок даже в пару тысяч документов переводит задачу на другой уровень.

Есть два пути: ограничить волевым путем объем выборки [8], или поручить анализ группе аналитиков. Правда, в последнем случае возникает отдельная задача сведения мнений разных людей [9], а в первом случае велик риск пропустить что-то важное. И для обоих решений характерны большие затраты времени.

В конце концов, можно пройти из Москвы во Владивосток пешком, но большинство летит на самолете.

Правда, ситуация с системами Управления Знаниями пока обратная, но ситуация меняется, пусть не очень быстро. Ведущие агентства предсказывают рост рынка аналитического инструментария на 30% в год.

Наконец, небольшая цитата.

«…Роль аналитики заключается в переходе из реактивной (анализе того, что уже произошло) к проактивной (управление деловыми решениями). Мы верим, что деловая аналитика развертывается в сторону технологий, прогнозирующих в реальном времени».


Scott Phillips, Merrill Lynch, March 6, 2001

По вопросам приобретения системы обращайтесь в компанию Р-Техно

1 Но все, точнее, почти все, подвластно руке человека (с правами администратора).
2 Впрочем, последнее может оказаться преимуществом.
3 Например, у Фонда Эффективной Политики База достигла десяти миллионов документов и ежедневно пополняется на 15 тысяч документов.
4 Хотя для заказных исследований это не всегда верно.
5 БИО — Большие Информационные Объекты
6 Для экономии места приведены только слова, система дает еще словосочетания.
7 Значения по оси Y даны для значимости.
8 Например, выбрать случайным образом столько документов, сколько сможете прочесть.
9 Эта задача также имеет отношение к Управлению Знаниями.

0 комментариев

Только зарегистрированные и авторизованные пользователи могут оставлять комментарии.