12 Dec 08:25 avatar

Kernelmining — автоматизированная система для конкурентной разведки

Kernelmining — это автоматизированная система сбора, анализа и визуализации данных в сети Интернет. Она предназначена для автоматизации всех этапов аналитической работы – поиска и сбора информации, статистического и лингвистического анализа, обработки и хранения информации, а также генерации отчетов: дайджестов СМИ и аналитических отчетов в текстовом и графическом виде.
20 Dec 16:54 avatar

Латентно-семантический анализ

Источник: http://www.habrahabr.ru
Автор: Sergey Edunov

Как находить тексты похожие по смыслу? Какие есть алгоритмы для поиска текстов одной тематики? – Вопросы регулярно возникающие на различных программистских форумах. Сегодня я расскажу об одном из подходов, которым активно пользуются поисковые гиганты и который звучит чем-то вроде мантры для SEO aka поисковых оптимизаторов. Этот подход называет латентно-семантический анализ (LSA), он же латентно-семантическое индексирование (LSI)

Предположим, перед вами стоит задача написать алгоритм, который сможет отличать новости о звездах эстрады от новостей по экономике. Первое, что приходит в голову, это выбрать слова которые встречаются исключительно в статьях каждого вида и использовать их для классификации. Очевидная проблема такого подхода: как перечислить все возможные слова и что делать в случае когда в статье есть слова из нескольких классов. Дополнительную сложность представляют омонимы. Т.е. слова имеющие множество значений. Например, слово «банки» в одном контексте может означать стеклянные сосуды а в другом контексте это могут быть финансовые институты.
20 Dec 16:31 avatar

Как извлечь полезный текст из HTML

Источник: http://www.algorithmist.ru
Автор: Sergey Edunov

Задача на первый взгляд может показаться тривиальной: извлечь полезный текст из HTML страниц с различных сайтов, например новости с новостных лент. На практике, однако, реализация подобной функциональности, как правило, оканчивается написанием кучи парсеров заточенных под конкретные сайты. Поддерживать такие парсеры – сущий кошмар, особенно если система должна работать в автономном режиме долгое время. Хотелось бы иметь универсальное решение. Сегодня я опишу один из возможных вариантов решения этой проблемы.