20 Jan 15:51 avatar

Сравнительный тест восьми персональных поисковых систем

Автор: Олег Пилипенко | Источник: Журнал «ЧИП»(Украина) №3, 2003г.

В поисках данных

Перед пользователем, работающим на компьютере с текстовыми документами, рано или поздно возникнет проблема: как быстро найти в огромных залежах файлов нужную информацию

Чем дольше мы пользуемся компьютерами, тем больше привыкаем хранить всю информацию в цифровом виде на жестком диске своего ПК. Заметим также, что в Интернете находится огромное количество различных документов, и некоторые из них заманчиво сохранить на своем компьютере. Таким образом через определенное время на винчестере накапливается бесчисленное множество разнообразных текстов, и разобраться в них бывает совсем не просто.

Для решения этой проблемы уместно вспомнить о поиске необходимых данных в Интернете. Ведь общее количество информации, которая находится в сети, многократно превышает объем данных, содержащихся на любом из персональных компьютеров. Тем не менее такие поисковые интернет-системы, как Google, AltaVista, Yandex, вполне успешно справляются с этой задачей за несколько секунд предоставляя нам всеобъемлющий список искомых данных.

Подобные системы в свое время были разработаны и для персональных компьютеров. Еще в MS Office для Windows 3.1 были встроены простейшие средства для поиска документов по ключевому слову. Позднее эти средства были значительно улучшены, а их функциональность расширена. Появились и программы сторонних разработчиков для пользователей, большую часть времени работающих с большими архивами документов.

Специфика поисковых процессов

Существуют две технологии поиска документов по запросу — с предварительным индексированием и без него. Программы, использующие первую из технологий, работают в два этапа. Вначале они просматривают и индексируют указанные каталога с файлами, то есть создают собственную индексированную базу документов, по которой затем и осуществляют поиск, Хотя создание этой базы может занять много времени, поиск информации занимает считанные секунды.

Надо, однако, заметить, что в проиндексированные файлы могут время от времени вноситься определенные изменения, например, документ может быть отредактирован. Поэтому, в идеале, поисковая система должна выполнять индексирование регулярно. В лучших продуктах так и сделано, причем функция создания индекса у них работает в фоновом режиме, практически не поглощая компьютерные ресурсы.

Наиболее широкое применение технологии индексирования находят в электронных архивах, где можно выделить несколько подтипов. Первый, именуемый также корпоративным электронным архивом, относится к классу традиционных информационно-поисковых систем, основанном на атрибутном поиске структурированных данных.

Следующий подтип известен как электронное архивирование и базируется на принципе полнотекстового индексирования неструктурированных данных. Он включает в себя два вида создания индекса. При бинарном или словарном индексировании контекстно-независимое создание индекса не зависит от естественного языка. А контекстно-зависимое индексирование позволяет оптимизировать этот процесс и сам поиск с учетом специфики морфологии и семантики естественного языка.

Медленно, зато без подготовки

Есть также технология поиска без индексации. Программы этого типа не индексируют предварительно указанные файлы, а просматривают их каждый раз заново. Естественно, процедура поиска в этом случае занимает в несколько десятков раз больше времени. При постановке одной и той же задачи программа, работающая по индексированной базе данных, потратит всего лишь несколько секунд, в то время как средства, не использующие индексирование, будут «перелопачивать» данные 30-40 секунд.

С другой стороны, если документ был только что изменен, системы первого типа не смогут выполнить поиск по обновленным данным пока не проиндексируют файлы заново. Более «медленным» программам второго типа эта неприятность не грозит.

Формирование запросов

При поиске пользователь формирует запрос по ключевым словам. Например, если требуется найти информацию о Крымских здравницах, необходимо задать «Крым санаторий». Однако в случае, если заданные термины употреблялись в других словоформах, документы найдены не будут. Решением проблемы является поиск документов по их содержанию с возможностью формулировки запросов на естественном языке, — том самом, на котором мы привыкли выражать свои мысли в письменной или устной форме. Например, в таком виде: «Найти всю информацию о крымских санаториях». Запрос на естественном языке, ранжирование по степени смысловой близости к поисковому запросу являются крайне желательными чертами современной поисковой системы.

Кроме того, программа должна уметь искать несколько слов с помощью булевых (логических) операторов, учитывая при этом разные форматы и кодировки текстов (DOC. TXT, HTML), разные падежи и склонения. Так, если поставить запрос «Крымские санатории» в кавычках, то система будет искать только такое словосочетание.

По форме диалога. а также по способу задания условий отбора поисковые средства можно разделить на две группы: структурно-логические и рубрикационного типа. Первые предназначены для поиска по произвольным запросам, не всегда укладывающимся в предопределенную рубрикацию. Критерий отбора строится как логическая комбинация простых условий, сводящихся к проверке на соответствие указанных значений, а для текстовых полей — к обнаружению присутствия или отсутствия в конкретном поле документа терминов запроса.

Поисковые средства рубрикационного типа реализуются в виде иерархических, последовательно раскрывающихся списков (рубрикаторов), через которые и обеспечивается доступ к соответствующим документам. Раскрывая очередную рубрику и перемещаясь по тематической подборке, пользователь уточняет предметную область, тем самым увеличивая соответствие между выдаваемыми документами и запросом пользователя.

Типы поисковых программ

В целом системы для поиска документов можно разделить на две категории — масштаба предприятия и персонального применения. Первые, как правило, построены на платформе промышленных СУБД, например, Oracle, MS SQL Server, Sybase, или же на основе специализированных систем индексирования и поиска.

Есть также и продукты для персонального применения, ориентированные на индивидуальное использование. Подобные средства включены даже в Microsoft Office и Windows. Однако у большинства из них есть некоторые недостатки. Во-первых, они, как правило, обладают низкой эффективностью и требуют большого количества времени как на собственно поиск документов, так и на выбор интересующего текста среди множества найденных. Во-вторых, при запросах они не учитывают всего многообразия форм слов украинского и русского языков.

Так Чип тестировал приведенные программы

Данный тест преследовал цель выяснить, какие средства необходимы для успешного поиска информации на жестком диске компьютера. Мы хотели узнать, насколько программы сторонних разработчиков более функциональны, чем встроенные в Windows 2000/ХР и Windows Me средства, и достаточно ли последних для качественного нахождения нужных документов.

Каждый участник теста должен был выполнить поиск документов на русском, украинском и английском языках среди различных файлов количеством около 600 и общим объемом 200 МБ на одном разделе жесткого диска. Тестирование проводилось на компьютере с процессором AMD Duron 950 МГц, объемом ОЗУ 128 МБ, при этом учитывалось как время самого поиска документов, так и время индексирования (если оно выполнялось). Тестирование проводилось в трех категориях — «Функциональность», «Ресурсы», «Сопровождение» с весовыми коэффициентами 70, 15 и 15 % соответственно. Оценка ставилась по пятибалльной шкале.

Функциональность: В этой категории учитывались результаты поиска (количество найденных документов) и среднее время поиска. Общая оценка функциональности определялась на основании трех факторов — количество правильно найденных документов, время поиска и наличие различных функций в программе. Весовые коэффициенты каждого из них — 50, 25 и 25 % соответственно.

Ресурсы: Здесь оценивались требования к аппаратному обеспечению, а также степень потребления ресурсов. Во внимание принимался также и размер индексированной базы на жестком диске.

Сопровождение: Данный критерий учитывал язык интерфейса и справочной документации, а также наличие технической поддержки пользователя по телефону или через Интернет.

Далее мы приводим краткое описание протестированных поисковых систем, Результаты теста приведены в таблице.

Cros 4.02.20

Система поиска документов Cros 4.02.20 во многом отличается от других поисковых программ. Прежде всего Cros не только индексирует указанные текстовые файлы, но и копирует их в сжатом состоянии в собственный архив, называемый Банком документов. Далее поиск осуществляется уже в пределах этого собственного архива. Вышеописанная процедура занимает продолжительное время, зато дальнейший поиск выполняется очень быстро. Кроме того. Банк документов надежно защищен от несанкционированного доступа посредством пароля, что обеспечивает дополнительную защиту данных.

После запуска поиска на экран выводится окно, состоящее из трех частей. В верхней части отображается список имен файлов, в которых была обнаружена требуемая текстовая строка, в центральной — фрагмент текущего документа с подсвеченным искомым словом. В нижней части пользователь может формировать отчет из найденных строк. Есть также режим глобального поиска, в котором реализуется отбор документов из всех заданных пользователем БД по единому критерию. Cros 4.02.20 поддерживает большинство основных форматов документов и кодировок, понимает запросы с использованием логических операторов.

Продукт ориентирован, в основном, на корпоративных клиентов. На вэб-сайте производителя доступна для загрузки также демонстрационная версия ее функциональность вполне достаточна для большинства рядовых пользователей, поскольку она работает с одним Банком документов объемом до 5000 документов.

К сожалению. Cros 4.02.20 обладает довольно сложным, интуитивно непонятным интерфейсом, и разобраться в нем сходу довольно непросто. Даже документация к программе не всегда позволяла решить проблему. Однако данный недостаток приложения компенсируется оперативной работой службы поддержки продукта.

Следопыт 3.0

Ранние версии поисковой программы «Следопыт» не осуществляли предварительную индексацию, что несколько замедляло процесс поиска. В последнем выпуске «Следопыт 3.0» этот недостаток устранен, причем во всех версиях поставки — корпоративной, профессиональной и персональной. Для своей работы данная программа использует внешнюю СУБД — Microsoft SQL Server 7.0. Это приложение устанавливается на компьютере одновременно с установкой самой поисковой системы, что довольно удобно для пользователя.

Перед началом поиска необходимо выполнить индексирование файлов в Заданной области на диске. Эта процедура выполняется в фоновом режиме при помощи специального автоиндексатора «Следопыта 3.0». Если это средство запущено, в системной области панели задач появится соответствующий значок. Индексирование можно выполнять и в ручном режиме, непосредственно перед поиском, хотя в этом случае программа будет потреблять намного больше ресурсов, чем в фоновом режиме.

«Следопыт 3.0» позволяет выполнять «интеллектуальный» поиск документов на жестком диске ПК, компакт-дисках и других съемных носителях. Профессиональная и корпоративная версии также разрешают искать данные в локальной сети, почтовых сообщениях и архивах по их содержанию и атрибутам.

Особенность программы в том, что поисковый запрос может задаваться в виде фразы на естественном языке, причем допускается формулирование запроса с одновременным использованием русских и английских слов. Есть также возможность «строгого» поиска по ключевому слову, без учета словоформ. Помимо этого можно использовать формальный язык с применением логических операторов «И», «ИЛИ», «НЕ». Хотя последняя возможность доступна, опять-таки, только в профессиональной и корпоративной версии. Однако для многих пользователей будет достаточно возможностей персонального варианта «Следопыт 3.0». А низкая цена этого продукта является еще одним положительным доводом в пользу именно этого приложения.

Windows 2000 ХР Professional

Средство для поиска документов, встроенное в операционную систему MS Windows XP. может работать в двух режимах. При запуске в первом режиме, который выполняется без предварительного индексирования, эта утилита практически ничем не отличается от той, которая реализована в Windows Me. Однако в версии Windows XP есть возможность ускорить процесс поиска, если включить режим индексации. Для этого необходимо запустить апплет Управление компьютером в разделе Администрирование Панели управления и выбрать там пункт Служба индексирования. В нем необходимо добавить каталоги, которые требуется проиндексировать. Сам процесс индексирования выполняется только в фоновом режиме, поэтому может занять довольно значительный период времени, что несколько неудобно.

Когда заданная область данных на диске проиндексирована, можно приступать непосредственно к поиску. Искомое слово вводится в окне, вызываемом командой Опрос каталога, которая находится в Службе индексирования. Можно использовать два типа запроса — стандартный (по ключевому слову) и расширенный. В первом случае программа просто ищет искомое слово в файлах и выводит список всех документов, в которых оно встречается.

Во втором случае можно применять специальный язык запросов Indexing Service Query Language, в котором используются логические операторы для более точного поиска. Скорость поиска после индексирования повышается в несколько десятков раз — процесс отбора документов занимает 1-2 секунды. Полученные результаты можно отсортировать по категории, размеру файла, дате изменения и т. д.

В Windows XP нет встроенного просмотрщика, чтобы проанализировать содержимое файла, его необходимо открыть в соответствующем внешнем приложении. Этот факт плюс запутанный и неудобный интерфейс данного средства несколько снизили общую оценку.

SuperiorSearch 1.0

Разработанная немецкой компанией NeuroPower Technologies GmbH персональная ищейка SuperiorSearch 1.0 может проводить поиск в двух режимах — по точной строке-образцу (exact) и по частичному совпадению (fuzzy). Во втором режиме программа довольно сильно приближается к системам, которые поддерживают распознавание словоформ. Например, если ввести ключевое слово «компьютер», программа найдет строки со словами «компьютера», «компьютеры», «компьютеров» и т.д. При задании запросов можно использовать логические операторы «И» и «ИЛИ». Superior-Search 1.0 с достаточно высокой скоростью выполняет поиск даже среди файлов, сжатых с помощью популярных программ архивации.

Найденные результаты программа позволяет моментально показать в окне предварительного просмотра, подсвечивая искомые слова другим цветом. В строке состояния при этом указывается кодировка данного текста.

Утилита обладает мультиязычным интерфейсом, правда, среди доступных языков нет ни русского, ни украинского. Однако работа с программой настолько проста, что освоить ее нетрудно даже для тех, кто не слишком хорошо владеет иностранными языками. Перед началом процесса запускается мастер, позволяющий установить все необходимые параметры поиска, такие как фильтр по дате и размеру файлов, кодировка текста и т, д. SuperiorSearch 1.0 прекрасно справился с тестовым заданием, однако время, затраченное на поиск, у него было одним из самых продолжительных.

ADSearch&Replace l.9

В отличие от своих старших собратьев, обладающих функцией предварительной индексации документов, программа AD Search&Replace 1.9 сканирует заданную область каждый раз «с нуля». Естественно, времени на поиск в этом случае уходит гораздо больше. С другой стороны, эта утилита занимает очень мало места на жестком диске и отличается простым интерфейсом. Среди ее достоинств — возможность поиска и замены найденных фрагментов текста на другие, хотя и без учета словоформ.

После завершения процесса поиска пользователь может открыть любой из найденных файлов для просмотра, нажав кнопку View. Следует, однако, заметить, что большие файлы формата MS Word программа AD Search&Replace 1.9 открывала очень долго, а в некоторых случаях эта утилита даже зависала. Найденные файлы можно просматривать не только собственным средством для просмотра, а и при помощи стороннего приложения. Например, если щелкнуть мышью на файле с расширением HTML, запустится вэб-браузер и откроет указанную страницу.

Среди возможностей отбора данных — фильтр по дате создания документа и его размеру. Несмотря на заявленную производителем AD Search& Replace 1.9 способность искать в архивах, на практике эта функция подтвердилась только для поиска файлов по имени, по не по фрагменту текста из их содержимого. Среди недостатков также надо отметить отсутствие поддержки украинского языка.

AVSearch 3.13

Бесплатно распространяемая программа AVSearch 3.13 предназначена для поиска файлов на дисках по фрагментам текста в любой кодировке: Windows-1251, OEM 866 (DOS), KOI-8R. ISO 8859-5, UNICODE. Присутствует возможность поиска фрагментов документа и файлов (по имени) в различных архивах, всего около 20 форматов.

Для выделения области поиска необходимо выделить папку или диск и перетащить ее в правое окно. Далее процедура работы с программой чрезвычайно проста, освоить ее можно за несколько минут. Среди доступных фильтров — ограничение по дате и размеру файла, а также его расширению. Правда, в AVSearch 3.13, в отличие от других программ, можно задать файлы, которые не нужно сканировать, например с расширением ТМР и т.д. После задания всех необходимых параметров можно приступать к поиску. Найденные документы показываются в окне, причет обеспечивается автоматическая подсветка искомых слов и навигация между ними. Кстати, просмотрщик в AVSearch 3.13 — один из лучших, поскольку даже объемные документы выводились на дисплей мгновенно. Список файлов можно сохранить для дальнейшей обработки, кроме того, прямо в окне программы доступны все файловые операции — удаление, переименование, копирование.

Программа достаточно хорошо справилась с задачей поиска документов на русском языке, однако украинские и англоязычные документы утилита находила гораздо хуже. Зато AVSearch 3.13 бесплатна, кроме того, а ее пользу также говорит то, что она не требует инсталляции и может запускаться прямо с дискеты или компакт-диска.

Ищейка 3.2

Среди поисковых систем, выполняющих предварительную индексацию, только программа «Ищейка 3.2» распространяется бесплатно. В эксплуатации эта утилита довольно проста. Перед запуском поискового процесса необходимо определить и проиндексировать зону поиска. Эта процедура отнимает довольно много времени — 200 МБ данных индексировались свыше 15 минут. Индексирование можно запускать как вручную, так и автоматически по заранее установленному расписанию.

Скорость нахождения информации превзошла всяческие ожидания — процесс поиска занимал менее одной секунды. Найденные результаты высвечиваются в окне собственного средства просмотра, причем режим их отображения очень напоминает интерфейс поисковых систем. Ключевые слова подсвечиваются в окне просмотра, а при помощи специальных кнопок можно перемещаться с первого найденного фрагмента текста на следующий. Можно также просмотреть документ в полноэкранном режиме или же открыть его в соответствующем приложении. Кроме того, найденные документы можно отсортировать по имени файла, дате создания и каталогу местонахождения. Для формирования сложных запросов доступны логические операторы «И», «ИЛИ», «НЕТ».

Бесплатная версия программы индексирует только текстовые документы. Тем же. кто желает получить большую функциональность, например, индексирование файлов других форматов, можно порекомендовать платную версию «Ищейка Проф.». Однако для большинства пользователей вполне достаточно функций бесплатной версии.

Windows 98/Ме

Если в повседневной работе вы применяете MS Windows 98/Me, то для нахождения необходимых текстовых файлов можно прибегнуть к использованию встроенного в данную операционную систему поискового средства.

Запуск этого инструмента осуществляется из меню Пуск. Укажите в специальном поле каталог с искомыми документами и введите текстовый фрагмент, по которому должен осуществляться поиск. Кроме того, можно указать тип, дату и размер файла, а также задать некоторые другие действия, например, сканирование вложенных папок.

Поскольку Windows Me не индексирует данные, поиск выполняется довольно долго. Найденные файлы можно скопировать, переместить или удалить, то есть осуществить с ними любую файловую операцию. Кроме того, эти документы можно открыть для просмотра в «родном» приложении. Собственный просмотрщик в поисковой утилите Windows Me отсутствует.

Программа хорошо справилась с нахождением файлов по англоязычному фрагменту текста. Поиск по русскоязычным ключевым словам был менее успешен, а украинский язык программа вообще не поддерживает. Среди дополнительных функций этой утилиты — возможность поиска файлов, компьютеров и людей в адресной книге по их именам.

Почему ЧИП рекомендует программу Cros 4.02.20?

Из всех протестированных программных продуктов поисковая система Cros показала наиболее высокие результаты в комплексной оценке по ревалентности поиска и скорости работы. Кроме того, она включала в себя наибольшее количество дополнительных функций.

Взгляд в будущее

Многообразие различных средств для поиска документов в целом позволяет решить проблему нахождения данных на ПК даже с учетом стремительного роста объема данных, хранимых на нем. Но пока эти приложения решают лишь задачу поиска, в основном, различных текстовых файлов по ключевым словам.

Однако сегодня все более популярным становится обмен различными мультимедиа данными, поэтому уже в ближайшем будущем перед пользователями остро станет проблема поиска такой информации. Пока эта задача не решена для массового применения, так что у поисковых систем есть хорошие возможности для дальнейшего роста.

Таблица с результатами тестирования

(Щелчок мышью по рисунку открывает в новом окне увеличенныю копию)
Cros

0 комментариев

Только зарегистрированные и авторизованные пользователи могут оставлять комментарии.