Как найти иголку в стоге текстов

Для того, кто работает на компьютере в основном с текстами, рано или поздно актуальной становится одна проблема: как найти в накопленных горах файлов «тот самый», необходимый, с нужной именно сейчас информацией.

Эту проблему решают поисковые программы — и два года назад, в одном из первых выпусков «Виртуального мира», мы уже писали о некоторых из них. Тогда мы даже рекомендовали читателю бесплатную программу AVSearch (www.avtlab.ru) нашего соотечественника Анатолия Вознюка. Рекомендация эта и ныне остается в силе: программа замечательная, с одним только существенным недостатком — она принадлежит, так сказать, к «медленному» типу поисковых программ.

Поисковые программы вообще бывают двух типов. Первые — «быстрые» — работают в два этапа. Вначале они просматривают и анализируют указанные им текстовые файлы, создают собственную базу данных («индекс»), по которой затем и осуществляют поиск. Хотя создание базы бывает достаточно длительным, зато поиск занимает считанные секунды. «Медленные» программы действуют иначе. Они не создают «индекса», а каждый раз просматривают все указанные им файлы. Разумеется, поиск этот длится дольше — тот же AVSearch может потратить сорок секунд там, где его «быстрый» коллега обойдется всего парой секунд.

Но что же с «быстрыми» программами? В тот раз мы рассказывали о неплохой программе Search32 (www.anetsoft.com); увы, развитие ее русской версии давно уже остановилось, и сегодня она заметно устарела. В частности, документы, созданные в редакторах Word 2000 и старше, ей уже «не по зубам».

Но есть и другие программы, безусловно, достойные внимания. Из них особо хочется обратить внимание на две опять же российские разработки — Интеллектуальную поисковую систему «Следопыт» (www.medialingua.ru) и Документальную систему поиска информации Cros (www.cronos.ru). Как видно даже из названий, это не просто поисковые программы, а нечто большее — целые поисковые системы, обладающие множеством функций.

«Следопыт» давно и неплохо известен в России; последняя его версия — 3.0 — вышла в начале этого года и существует в трех вариантах: «Персональный», «Профессиональный» и «Корпоративный». Отличаются варианты своими возможностями и, конечно, ценой. Самый дешевый — «Персональный». Лицензионный компакт-диск с этим вариантом стоит в питерских магазинах ненамного дороже какого-нибудь пиратского компакт-диска.

Что умеет самый простой из «Следопытов»? Естественно, создавать свой «индекс» текстовых файлов — причем он без труда обрабатывает все основные форматы и кодировки текстовых файлов. Понимать запросы как на естественном языке (типа «найти все про фонтаны Петродворца»), так и с использованием только ключевых слов («фонтаны Петродворец»), а также с применением специальных логических операторов (к примеру, если поставить запрос «фонтаны Петродворца» в кавычках, то система будет искать только такое словосочетание). Уточнять запрос по дате (чтобы, например, искать в файлах, созданных после такого-то числа) и другим критериям.

Естественно, все это умеют и две старшие версии «Следопыта». Но и у них есть еще и другие возможности. Главная — «словарная морфология поиска». Это значит, что, получив от пользователя запрос «Петродворец», программа найдет и «Петродворцу», и «Петродворцом» и все другие формы заданного слова…

У «Следопыта» весьма симпатичный внешний вид, с ним легко работать. Стоит только иметь в виду, что «Следопыт» работает лишь при запущенном приложении Microsoft SQL Server — и не нужно удивляться тому, что это приложение появилось на компьютере. Оно устанавливается одновременно с установкой самого «Следопыта»…

РЕКЛАМНЫЙ БЛОК

[ Хотите знать больше о частной разведке? Регистрируйтесь и общайтесь на интернет-форуме it2b-forum.ru ]

Документальная система поиска информации Cros во многом отличается от «Следопыта». Да и от других «быстрых» поисковых систем. Дело в том, что Cros действует весьма своеобразно: он не просто создает «индекс» указанных ему текстовых файлов, а копирует их в собственный архив — Банк Документов. И осуществляет поиск уже по своему собственному архиву.

Такое решение имеет сразу несколько эффектов. Поиск идет очень быстро. Банки Документов надежно защищены от несанкционированного доступа (к слову сказать, некоторые из авторов Cros — выходцы из ФСБ). Текстовые файлы в Банках сжаты и занимают меньше места, чем обычно. А извлекать, редактировать, печатать эти файлы можно без ограничений…

У системы Cros нет нескольких разных версий, как у «Следопыта». Версия одна, и весьма недешевая — да и ориентирована она в основном на корпоративных клиентов. Но есть еще и бесплатная демонстрационная версия с усеченными возможностями. Этих усеченных большинству рядовых пользователей хватит вполне: демо-версия работает с одним Банком объемом до 5000 документов. У многих ли на компьютере сыщется такое количество текстов?

У демо-версии есть и другие ограничения, но все они не касаются самого поиска. Как и полный Cros, демонстрационная версия умеет искать с учетом словарной морфологии. Понимает логические операторы. Поддерживает все основные форматы и кодировки. И может готовить самые разные отчеты по итогам поиска.

Одно «но»: у системы Cros достаточно сложный интерфейс, и начинающему пользователю разобраться во всех настройках будет не так уж просто. Зато эффективность поистине ошеломляющая!

Так что у того, кто утонул в море компьютерных текстов, выбор есть: и «Следопыт», и Cros весьма эффективные для них помощники. А можно воспользоваться и другими программами — например популярной «Ищейкой» (www.isleuthhound.com): она существует и в русском, и в английском вариантах и тоже умеет немало.

И не стоит забывать про AVSearch: он тоже очень неплох. Хотя и ищет слова медленнее…

Автор: Петр Градский

Источник: Санкт-Петербургские ведомости, 26 июня 2002 года.

Оцените статью
Технологии разведки для бизнеса