Rambler's Top100
Наши решения
Дата-центр: услуги
Дата-центры (ЦОД)
О компании
Партнеры
Контакты
Вакансии
Карта сайта
Тел:   +7 (495)980-6000
Факс:   +7 (495)980-6001
Email:  info@stack.net
 Карта проезда
Главная страница / Наши решения / Поисковая машина /

Архитектура и возможности поисковой системы StackSearch

компоненты StackSearch

В состав системы StackSearch входят следующие основные модули:

  • краулер – средство для сбора документов с заданного множества интернет-сайтов или других источников для последующей индексации;
  • индексатор – средство построения поискового индекса по коллекции документов;
  • сервер поиска – программный комплекс, обслуживающий поисковые запросы с использованием поискового индекса;
  • клиентские средства – набор программных библиотек и утилит на различных языках программирования, служащих для взаимодействия с сервером поиска.

    архитектура поисковой 
системы StackSearch

    возможности системы StackSearch

    Качество результатов поиска:
    • Различный вес частей документа (названия, заголовков) - веса отдельных частей документа настраиваются в конфигурационном файле системы
    • Учёт расстояния между словами и их положения в документе при вычислении релевантности
    • Поиск фраз (поиск по точному соответствию)
    • Средняя скорость поиска - не менее 20 запросов в секунду на стандартном оборудовании.
    Возможности краулера:
    • Инкрементальный многопоточный краулинг
    • Краулинг ресурсов, требующих авторизации (Basic, Cookies) - логин/пароль для каждого ресурса указывается в конфигурации краулера
    • Рубрикация/Атрибутизация документов на основе метаданных
    • Краулинг локальной файловой системы с возможностью параллельного краулинга HTTP-ресурсов
    • Краулинг через прокси-сервер
    • Поддержка robots.txt
    • Возможность ограничения общего количества или объёма документов при краулинге
    Возможности индексатора:
    • Хранение в индексе информации о расположении слов в документе
    • Добавление документов в индекс без полной переиндексации
    • Индексация с учётом метаданных
    • Индексация без остановки поиска/краулинга
    Возможности поиска:
    • Индексация документов в форматах, отличных от plain text/html : PDF, RTF, DOC, XLS, PPT, PS, и др. (при наличии конвертеров)
    • Язык запросов с поддержкой логических операций "И", "ИЛИ", "НЕ", группировки "(", ")", поиска по точному соответствию
    • Поиск по словоформам для русского, английского, немецкого, французского языков (имеется возможность поддержки морфологии для других языков при наличии соответствующих морфологических словарей, например, ispell.
    • Образование словоформ по алгоритмам в случае, когда слово не найдено в словаре (стемминг)
    • Атрибутивный поиск (поддерживаются атрибуты типа "текст", "дата", "целое" с возможностью поиска по текстовым атрибутам и фильтрации по атрибутам "дата" и "целое" с использованием языка запросов). Для реализации атрибутивного поиска необходим предварительный анализ исходного формата данных и настройка парсера исходных данных
    • Поиск похожих документов
    • Автоматическое определение кодировок документов
    • Выдача фрагментов документов с подсветкой найденных слов
    • Поиск нетекстовой информации
    • Поиск сложнотекстовой информации (фамилии с инициалами, названия сайтов и т.д.)
    • Поиск по отдельному сайту или его части
    • Поиск с учётом метаданных
    Пользовательский интерфейс - открытые API
    Для удобства заказчика интерфейс доступа к результатам поиска реализован в виде библиотек с открытым исходным кодом c использованием следующих языков/технологий:
    • C
    • Perl
    • SOAP
    • Java
    • PostgreSQL
    Система полнотекстового поиска StackSearch
    StackSearch: характеристики системы
    Примеры внедрения StackSearch

  • Архитектура и возможности поисковой системы StackSearch
    Поисковая машина StackSearch: характеристики
    Примеры внедрений поисковой системы StackSearch

    Архитектура и возможности StackSearch



    Создание сайтов, порталов, корпоративных ИС

    Дата-центр: услуги

    поисковая машина StackSearch
    © 2003–2008 Stack Group
    design by Articul Media
    Наши решения | Дата-центр: услуги | Дата-центры (ЦОД) | О компании | Партнеры | Контакты | Вакансии | Карта сайта Rambler's Top100