23 Jan 13:46 avatar

Две актуальные задачи СБ


Автор: Антонов А.В. (руководитель проекта Галактика ZOOM, нач. отдела Поисковых Систем, Корпорация «Галактика») | Источник: Корпорация «Галактика»

Введение
Повседневная деятельность служб безопасности (СБ) охватывает множество аспектов функционирования физических, технических и общественных объектов (например: людей, зданий, фирм).

Среди множества возникающих задач можно выделить две традиционно актуальных:
  • задача поиска аномального объекта среди заданного множества подобных;
  • задача определения связей выделенного объекта в заданном множестве.
Эти задачи можно проиллюстрировать следующими примерами.

Первая задача: таможенник, наблюдая ожидающую проверки толпу туристов, решает, кого он будет проверять дополнительно. Конечно, есть ряд известных ему признаков. Но часто он даже не может объяснить, почему он выбрал для проверки именно этого туриста. Это проявляется интуиция, заработанная годами практики, успехов и ошибок. Решение принимается на основании анализа большого количества признаков, каждый из которых по отдельности не значит ничего. Такими качествами и отличается хороший опытный таможенник от молодого, внимательного, хорошо учившегося, но неопытного коллеги.

Со второй задачей чуть проще. В Москве задержан с наркотиками студент-нигериец, а выявить его контакты напрямую нет возможности (например, не знает русского языка). Логично вести поиск среди нигерийцев, среди живущих с задержанным в одном общежитии, среди учащихся с ним в одном вузе. Иначе говоря, при наличии подозреваемого объекта, поиск его возможных связей ведется среди похожих на него по одному признаку, а лучше – по совокупности признаков.

Здесь были рассмотрены примеры из традиционной, десятилетиями сложившейся среды функционирования СБ. Сегодня же в нашем электронном обществе основным источником информации, основным хранилищем «следов» является электронное хранилище – почтовая переписка по e-mail, архивы ICQ и т.д. Необходимость работы в новом информационном «пространстве» не подлежит сомнению.

Понятно, что такое пространство дает в руки сотрудников СБ новые возможности, но и создает новые трудности.

Проблемы анализа электронного текстового архива
С первого взгляда представляется, что проблема уже решена. Достаточно хранить в архиве переписку интересующих вас персон и, анализируя ее достаточно большой объем (за месяц, год), можно будет определить практически все интересные черты выделенного объекта. И сопоставляя результаты такого анализа по разным объектам можно решать поставленные выше две задачи.

Правда, возникают две проблемы:
  • Первая – обработка большого объема исходных данных (писем, сообщений ICQ и т.д.).
  • Вторая – выделение полного набора признаков для представления результатов анализа. Этих признаков должно быть достаточно для решения поставленных задач.
Для оценки возникающей проблематики приведем следующий пример.

Вы – сотрудник СБ относительно небольшой компании. Пусть в вашей фирме работает 100 человек. Каждый из них пишет и получает 10 писем в день. Итого 1000 в день, а за год наберется 300 тыс. сообщений.

Понятно, что анализ такого объема выходит далеко за рамки возможного для реальной СБ такой фирмы. В этом случае работник СБ напоминает умирающего в океане от жажды – нельзя отделить нужное от негодного.

Это – иллюстрация первой проблемы.

Вторая – еще труднее.

Придумать набор признаков, адекватный каждому из рассматриваемых объектов, и в то же время универсальный для них – задача, смею утверждать, неподъемная.

Решение ее подобно решению “простой” задачи, известной каждому дошкольнику из народной сказки: “пойди туда, не знаю куда, найди то, не знаю, что”.

Так что, отвлекаясь, можно заметить, что приверженцы создания универсальной анкеты, из которой можно будет о человеке “узнать все” обречены на постоянное увеличение объема такой анкеты. В результате чего сам анализ такой заполненной анкеты превращается в отдельную задачу.

Трудность решения этих проблем и является базисом расчетов тех, кто надеется сохранить конфиденциальность своего общения, ведя переписку открытыми средствами. Известно, где проще всего спрятать лист – в лесу.

Информационный портрет, как концентрат текста
Итак, чтобы приступить к решению поставленных проблем, необходимо выделить из доступного нам текста (переписки объекта) некий концентрат, сублимированный остаток. Причем этот концентрат должен удовлетворять двум критериям:
  • быть привязанным к материалам исследуемого объекта;
  • автоматически отфильтровывать общий для всех других объектов “фон”.
Иначе говоря, такой концентрат должен в какой-то степени решать приведенную выше вторую проблему выделения полного набора признаков.

При построении такого остатка необходимо учитывать специфику текстового материала: он состоит из элементарных конструкций языка, таких, например, как слова и словосочетания.

Остается только выделить из этих конструкций особо значимые для исследуемого объекта.

Будем называть такой набор значимых языковых конструкций, выделенных из доступного текстового материала Информационным Портретом объекта.

Основные принципы формирования Информационного Портрета из языковых конструкций.
  1. Полнота создаваемого образа (никакие существенные детали не должны быть пропущены).
  2. Избыточность текстового материала (при наличии всего лишь нескольких страниц, относящихся к объекту, особые технологии не нужны).
  3. Оценка значимости отдельной конструкции на основе сравнения ее представления в других объектах (это необходимо для отфильтровывания общего “фона”).
  4. Статистическая достоверность и устойчивость полученных результатов (результаты не должны резко меняться при получении дополнительного материала).
  5. Работа в реальном времени (если оценки занимают слишком много времени, анализ может опоздать).
Технология, примененная в продукте Галактика-Зум, дает вариант построения такого Информационного Портрета.

Приведем пример такого портрета, построенного по этой технологии.

Для отстраненности от конкретных лиц и организаций, будем работать на базе англоязычных документов – сообщений мировых информационных агентств за 1999 год.

Объект – Джеймс Бонд, агент 007.
База – 800 тыс. сообщений, 1,8 Гб текста.


Исходный запрос «bond & 007»

Найдено 191 сообщение.
После проведения анализа (система работала 20 секунд), получена следующая таблица значимых конструкций.

Главные темы (слова)Главные темы (словосочетания)
BONDJAMES BOND
LLEWELYNBOND FILM
007WORLD IS
FILMBOND MOVIE
BROSNANVIC FLICK
CONNERYSTEVIE WONDER
MGMFILM CLIP
DESMONDOF BOND
FILMSIAN FLEMING
PIERCEROBERT CARLYLE
SEANDENISE RICHARDS
JAMESSOPHIE MARCEAU
ACTORSECRET AGENT
BORGEZETA JONES
MOVIEQ IN
WONDERBOND S
ROBARDSBOND GIRL
QFLEMING S
STEVIEJUDITH JAMISON
FLICKACTOR DESMOND


В приведенной таблице слова и словосочетания ранжированы по значимости в смысле изложенных выше принципов.

Видно, что объект оценивается достаточно подробно. Приведены профессия – SECRET AGENT, место функционирования объекта – FILM, MOVIE, исполнители – BROSNAN, CONNERY, название последнего фильма WORLD IS (правда, только начало), литературный автор – ЯН ФЛЕМИНГ, другие главные герои – Q и т.д.

Как видите, мы, предварительно не зная про объект ничего, и не изучая первичных документов, имеем достаточно точный его портрет.

На основании такого Информационного Портрета можно проводить дальнейшие исследования данного объекта.

Итак, имея такой портрет и применяя технологию Галактика-Зум, можно в реальном времени получать достаточно полный набор признаков объекта. Иначе говоря, возможно справиться с двумя проблемами, закрывавшими путь к решению двух актуальных задач СБ.

Второй этап решения задач СБ – операция сравнения Информационных Портретов
Итак, у нас построен образ исследуемого объекта – Информационный Портрет на основе языковых конструкций – слов и словосочетаний.

Но для решения сформулированных в начале статьи задач одного такого образа недостаточно.

Для выбора аномального объекта, а также для определения связей заданных объектов необходимо уметь сравнивать образы объектов, оценивать их близость друг другу.

В таком случае наиболее далекий от остальных объектов естественно определить как аномальный объект. И так же естественно наиболее близкие объекты к заданному объекту определить, как связанные с ним.

Операции сравнения и оценки близости требуют введения меры расстояния между объектами.

Такую меру можно ввести, представив Информационные Портреты, как вектора в пространстве языковых конструкций. Тогда мера расстояния между такими векторами определится величиной проекции одного вектора на другой. Часто такую методику называют методом наименьших квадратов.

Не буду более утомлять читателей изложением теоретических основ, а перейду к примерам работы технологии по решению практических задач.

Определение аномального объекта
По-прежнему будем работать на базе англоязычных документов – сообщений мировых информационных агентств за 1999 год.

Множество объектов – крупные европейские страны: Испания, Франция, Италия, Германия и проблема террора.
База – 800 тыс. сообщений, 1,8 Гб текста.
Исходный запрос «Terrorism, terrorist, terror»
Найдено 6839 сообщений.
Затем запросы уточняются по странам.
Испания – 1576 сообщений, Франция — 3532, Италия — 1764, Германия – 2742.


После проведения анализа Информационных Портретов (система работала около 5 минут), получена следующая таблица расстояний между ними.

Terror &ИспанияФранцияИталияГермания
Испания0.000.770.790.81
Франция0.770.000.570.41
Италия0.790.570.000.58
Германия0.810.410.580.00


Как видно из приведенной таблицы, наиболее удаленным объектом является Испания, точнее, ее Информационный Портрет в разрезе проблемы террора среди аналогичных Портретов других стран. Проиллюстрируем полученные результаты Информационным Портретом Испании.

Главные темы (слова)Главные темы (словосочетания)
SPANISHFORMER CHILEAN
PINOCHETCHILEAN DICTATOR
SPAINSPANISH JUDGE
ETATYPE SPANISH
BASQUESPANISH NAT
CHILEANDICTATOR AUGUSTO
COLOMBIAJOSE MARIA
CHILEACCESS COLOMBIA
GARZONMARIA AZNAR
MADRIDFORMER DICTATOR
PUERTOBASQUE COUNTRY
TORTUREMINISTER JOSE
LORDSACCESS SPAIN
EXTRADITIONSPANISH PRIME
AUGUSTOGROUP ETA
FUJIMORISPANISH GOVERNMENT
CUBAFIDEL CASTRO
AZNARMADRID SPAIN
DICTATORCHILEAN GOVERNMENT
CLEMENCYBASQUE NATIONALIST


Итак, испанцев больше всего в 1999г. беспокоила проблемы, возникающие в связи с деятельностью Баскской группировки ETA, а также экстрадикции Пиночета (Начало правления Пиночета характеризуется как террор, во время которого погибли граждане Испании). Естественно, эти проблемы волновали остальные европейские страны в меньшей степени.

Посмотрим теперь на Портрет Германии.

Главные темы (слова)Главные темы (словосочетания)
GERMANGERHARD SCHROEDER
GERMANYGERMAN CHANCELLOR
BERLINCHANCELLOR GERHARD
SCHROEDERARMY FACTION
FISCHERRED ARMY
NATOBERLIN GERMANY
CHANCELLORFRANCE GERMANY
RUSSIANRUSSIAN PRESIDENT
RUSSIAACCESS GERMANY
GERHARDGERMANY ITALY
YELTSINMINISTER IGOR
MEYERLUDWIG MEYER
BONNGREEK EMBASSY
MOVEDHORST LUDWIG
CHECHNYABERLIN WALL
TURKEYISTANBUL TURKEY
MOSCOWWEST GERMANY
MINISTERSCZECH REPUBLIC
OCALANPRESIDENT BORIS
JOSCHKAIGOR IVANOV


Увы, немцев, помимо RED ARMY FACTION (RAF), Окалана, беспокоит чеченский вопрос и позиция России. Близкие результаты, за исключением германской специфики дает и Франция, и Италия. Это можно объяснить достаточно тесной интеграцией политики этих стран в отношении проблемы терроризма. Это видно и из приведенной таблицы (словосочетания «FRANCE GERMANY», «GERMANY ITALY»).

Заключение
Приведенные примеры показывают продуктивность предложенных решений для задач СБ в современном информационном мире. Конечно, область применения этих методов сильно зависит от информационного содержания доступных источников.

Главный результат – появление практического инструмента автоматического анализа больших информационных массивов в реальном времени. Еще раз отметим, что этот инструмент обладает способностью самонастройки на определяющий набор признаков. В этом смысле это подход к решению знаменитой задачи «пойди туда, не знаю куда, найди то, не знаю, что».

С помощью этого инструментария работник СБ получает возможность выявления неявных связей и аномальных объектов. На базе представленной методики вполне реализуем автомат, сканирующий в поисках таких объектов сотни Гигабайт почтовых сообщений и страниц Интернета.

По вопросам приобретения системы обращайтесь в компанию Р-Техно

0 комментариев

Только зарегистрированные и авторизованные пользователи могут оставлять комментарии.