Полнотекстовой поиск StackSearch по внутренним информационным ресурсам ЦБ РФ
В 2003 году поисковая система StackSearch была выбрана в качестве базовой системы
полнотекстового поиска для корпоративного интранет-портала Центрального Банка России.
Основными преимуществами продукта были признаны: масштабируемость, гибкость, наличие
возможностей адаптации под меняющиеся потребности бизнеса, широкие функциональные
возможности, технологичность.
В ходе работы над данным проектом были реализованы такие важные возможности, как
инкрементальная индексация, учёт координатой информации при поиске, конвертация и
индексация документов различных форматов. Система интегрирована в портал на основе
интерфейса Web-сервисов, взаимодействие осуществляется по протоколу SOAP. Существенно
улучшен интерфейс администрирования поиска, разработана гибкая система управления
поиском и визуального контроля состояния поисковой системы, также интегрированная
в портал. Реализована возможность поиска по различным системам публикации документов,
используемых на портале с сохранением метаинформации (автор, рубрика и т.д.)
В рамках дальнейшего развития проекта поисковая система StackSearch была внедрена
в ряде узловых региональных подразделений ЦБ РФ: Вологда (2003 г.), Пермь (2004
г.), Нижний Новгород (2004 г.), Омск (2005 г.), Новосибирск (2006 г.), Владивосток
(2006 г.). В этих регионах StackSearch является базовой поисковой системой для региональных
интранет-сегментов ЦБ России. В ходе работы над региональными проектами был использован
опыт инсталляции StackSearch с корпоративным интранет-порталом и учтены особенности
построения портала в каждом из указанных регионов.
Полнотекстовой поиск StackSearch по ресурсам портала Министерства экономического
развития и торговли РФ.
Поисковая система StackSearch установлена и успешно функционирует на портале МЭРиТ
с 2004 года. В данной инсталляции активно используются такие возможности системы,
как наличие морфологических библиотек (образование поисковых словоформ) для русского,
английского и других языков, использование так называемой "нечёткой морфологии" (стемминг
– метод обработки текстовой информации, набор алгоритмов, позволяющий строить
словарные гипотезы для образования словоформ лексем, отсутствующих в словаре - имён
собственных и т.д.). Использована версия системы для платформы SPARC/Solaris. Интеграция
с порталом осуществляется по технологии Web-сервисов. Реализована возможность расширенного
поиска, позволяющая пользователю искать и фильтровать результаты запроса по дополнительным
атрибутам ("автор", "дата модификации" и т.д.)
Полнотекстовой поиск StackSearch по ресурсам корпоративного портала Федеральной
службы государственной статистики
Поиск на портале ФСГС осуществляется по нескольким коллекциям данных: как общедоступным
(для всех посетителей портала), так и защищённым (ресурсам, требующим авторизации).
Для индексации ресурсов, требующих авторизации, используются встроенные в StackSearch
реализации механизмов Basic/Form/Cookie-Based Authentication. Система интегрирована
в портал, построенный на базе IBM WebSphere, посредством технологии Web-сервисов,
с использованием клиентской API-системы StackSearch, в частности SOAP API. Реализованы
возможности разделения данных по источникам (категориям) и поиска по подмножеству
источников (категорий). Контроль прав доступа пользователей к документам осуществляется
на уровне портала. Для индексации документов в форматах, отличных от HTML и plaintext
используется интерфейс подключения конвертеров внешних форматов. Проект реализован
на платформе PowerPC/AIX.
Поисковые системы для Федеральных образовательных порталов
В рамках совместной работы с Министерством образования и науки РФ система StackSearch
установлена в качестве базовой системы полнотекстового поиска в ряде проектов (федеральный
образовательный портал «Экономика-Социология-Менеджмент»
- поиск по каталогизированным ресурсам, портал «Региональные ресурсные центры»
- поиск по ресурсным центрам.). В рамках данных проектов используется версия системы
StackSearch для платформы Intel x86 (Linux), интегрированная с системой управления
контентом (CMS) X-Ware посредством клиентского Perl API. Суммарный размер проиндексированных
данных по этим проектам превышает несколько миллионов документов.
Система полнотекстового поиска по контенту для мобильных устройств для компании
«ОЕМ Дизайн»
В 2006 году по заказу ООО «ОемДизайн» на базе системы StackSearch разработана
система полнотекстового поиска
по контенту для мобильных устройств. В рамках проекта реализован ряд новых технических
решений, а также разработаны дополнительные компоненты системы, такие как модули
краулинга форматов «мобильного контента» (WML, XHTML, CHTML), гибкий интерфейс
для подключения конвертеров внешних форматов, позволяющий получать и использовать
в качестве дополнительных параметров поиска метаинформацию о нетекстовых объектах
(графиче-ских, звуковых и видео файлов, Java-приложений для мобильных телефонов и
др.). Также разработана специальная удобно настраиваемая система повышения релевантности
для подмножества сайтов, позволяющая повышать вероятность появления конкретных сайтов
в верхней части списка результатов поиска.
Данная инсталляция StackSearch является одной из самых масштабных по количеству про-индексированных
документов - порядка 50 млн.
Система полнотекстового поиска по контенту для мобильных устройств для компании
«Ириком»
В 2006 году по заказу крупного контент-провайдера ООО «Ириком» система
полнотекстового поиска StackSearch была адаптирована для поиска по мобильному контенту
на мобильном портале . В систему встроены следующие компоненты:
- универсальный анализатор базовых типов (языков разметки) текстовых документов
для мобильных устройств;
- поддержка подключаемого внешнего модуля принятия решений о целесообразности
скачивания документов (т. н. "чёрный список");
- универсальный интерфейс подключения модулей обработки нетекстовых документов;
- учёт текстовых атрибутов ссылок при индексации;
- модуль минимизации трафика при обращении к нетекстовым объектам;
- фильтрация результатов поиска по MIME-типам документов.
В рамках данного проекта система StackSearch инсталлирована в односерверной конфигурации
для платформы x86/Linux с возможностью расширения до кластерной конфигурации.
Реализация данного проекта позволяет ООО «Ириком» решать задачи полноценного
поиска по медиаэлементам. На начальном этапе проиндексировано до 7 млн. документов.
В дальнейшем возможно увеличение количества документов в индексе до нескольких десятков
миллионов.
Система полнотекстового поиска для портала знакомств «Незнакомка.ру»
В 2006 году по заказу ЗАО «Незнакомка.ру» на базе поисковой системы StackSearch
реализован проект создания системы полнотекстового поиска для портала знакомств «Незнакомка.ру».
Система StackSearch была адаптирована для полнотекстового поиска по тексту и числовым
атрибутам анкет пользователей портала «Незнакомка.ру».
На базе ядра системы StackSearch создана система полноценного атрибутивного поиска,
в которой возможно использование до 64 полнотекстовых атрибутов (текстовые поля анкет)
и произвольного количества числовых атрибутов. При этом возможен поиск по любой совокупности
текстовых атрибутов с использованием логических операций "И" "ИЛИ" "НЕ" с фильтрацией
по числовым атрибутам ("=" ">" "<" и их комбинации), причем количество и типы
полей
являются параметрами конфигурации системы и могут быть изменены администратором.