|
|
 |
| Тел: | +7 (495)980-6000 |
| Факс: | +7 (495)980-6001 |
| Email: | |
| |
 |
|
|
|
Главная страница /
Наши решения /
Поисковая машина /
|
Архитектура и возможности поисковой системы StackSearch
|
компоненты StackSearch
В состав системы StackSearch входят следующие основные модули:
краулер – средство для сбора документов с заданного множества интернет-сайтов
или других источников для последующей индексации;
индексатор – средство построения поискового индекса по коллекции документов;
сервер поиска – программный комплекс, обслуживающий поисковые запросы с
использованием поискового индекса;
клиентские средства – набор программных библиотек и утилит на различных
языках программирования, служащих для взаимодействия с сервером поиска.
возможности системы StackSearch
Качество результатов поиска:
- Различный вес частей документа (названия, заголовков) - веса отдельных частей
документа настраиваются в конфигурационном файле системы
- Учёт расстояния между словами и их положения в документе при вычислении релевантности
- Поиск фраз (поиск по точному соответствию)
- Средняя скорость поиска - не менее 20 запросов в секунду на стандартном оборудовании.
Возможности краулера:
- Инкрементальный многопоточный краулинг
- Краулинг ресурсов, требующих авторизации (Basic, Cookies) - логин/пароль для
каждого ресурса указывается в конфигурации краулера
- Рубрикация/Атрибутизация документов на основе метаданных
- Краулинг локальной файловой системы с возможностью параллельного краулинга HTTP-ресурсов
- Краулинг через прокси-сервер
- Поддержка robots.txt
- Возможность ограничения общего количества или объёма документов при краулинге
Возможности индексатора:
- Хранение в индексе информации о расположении слов в документе
- Добавление документов в индекс без полной переиндексации
- Индексация с учётом метаданных
- Индексация без остановки поиска/краулинга
Возможности поиска:
- Индексация документов в форматах, отличных от plain text/html : PDF, RTF, DOC,
XLS, PPT, PS, и др. (при наличии конвертеров)
- Язык запросов с поддержкой логических операций "И", "ИЛИ", "НЕ", группировки
"(", ")", поиска по точному соответствию
- Поиск по словоформам для русского, английского, немецкого, французского языков
(имеется возможность поддержки морфологии для других языков при наличии соответствующих
морфологических словарей, например, ispell.
- Образование словоформ по алгоритмам в случае, когда слово не найдено в словаре
(стемминг)
- Атрибутивный поиск (поддерживаются атрибуты типа "текст", "дата", "целое" с возможностью
поиска по текстовым атрибутам и фильтрации по атрибутам "дата" и "целое" с использованием
языка запросов). Для реализации атрибутивного поиска необходим предварительный анализ
исходного формата данных и настройка парсера исходных данных
- Поиск похожих документов
- Автоматическое определение кодировок документов
- Выдача фрагментов документов с подсветкой найденных слов
- Поиск нетекстовой информации
- Поиск сложнотекстовой информации (фамилии с инициалами, названия сайтов и т.д.)
- Поиск по отдельному сайту или его части
- Поиск с учётом метаданных
Пользовательский интерфейс - открытые API
Для удобства заказчика интерфейс доступа к результатам поиска реализован в виде библиотек
с открытым исходным кодом c использованием следующих языков/технологий:
- C
- Perl
- SOAP
- Java
- PostgreSQL
|
|
|