The OpenNET Project / Index page

[ новости /+++ | форум | теги | ]

Сравнение производительности открытых поисковых движков

06.07.2009 22:18

Результаты тестирования открытых поисковых движков: Lucene, Xapian, zettair и sphinx, плюс для сравнения тесты были проведены для данных сохраненных в БД SQLite. При тестировании оценивалось: пиковое максимальное потребление памяти при индексации и выборке, скорость индексации данных, производительность поиска, итоговый размер индекса, релевантность результатов. В качестве данных для тестов использовался архив сообщений сервиса Twitter и около 200 тыс. журнальных статей по медицине. Победа присуждена системе Lucene, отличившейся минимальным размером индекса и прекрасной производительностью при выборке данных.

  1. Главная ссылка к новости (http://zooie.wordpress.com/200...)
Лицензия: CC BY 3.0
Короткая ссылка: https://opennet.ru/22484-search
Ключевые слова: search, Lucene, benchmark
При перепечатке указание ссылки на opennet.ru обязательно


Обсуждение (7) Ajax | 1 уровень | Линейный | +/- | Раскрыть всё | RSS
  • 1.1, Moses (?), 22:48, 06/07/2009 [ответить]  
  • +/
    Mnogosearch не открытый разве?
     
  • 1.2, trdm (ok), 23:06, 06/07/2009 [ответить]  
  • +/
    хм. это единственной явовской то софтине приз присудили,
    а в списке остальные на сях да сяхПП. О_о.
    Я фигею.
     
  • 1.3, аноним (?), 02:54, 07/07/2009 [ответить]  
  • –1 +/
    Ну размер индекса это едва ли вообще критерий. На втором месте время индексации, на первом время поиска, по обоим lucene сливает, а заодно жрет память (про 30 метров не знаю как они считали, JVM меньше пары-тройки сотен никогда не ест).
     
     
  • 2.4, Аноним (-), 12:59, 07/07/2009 [^] [^^] [^^^] [ответить]  
  • +2 +/
    Очень интересная позиция. Размер индекса 66 vs 180/263 Mb (первый тест) или 91 vs 474/339 - это неважно? Принципиальная разница в том, что первый индекс поместиться в память, а второй может и не влезть.. и будут тормоза.

    Второе, по тесту на время поиска lucene на первом месте, точка. Никто не сумел найти быстрее (ну в общем наверное логично, что когда тебе надо 474 мегов индексов перелопатить..). И мало того, одновременно дал наивысшую релевантность при этом поиске. Одновременно выйгрыш по двум самым важным параметрам - это и есть полный вин.

    А джава? Ну что джава.. Возьмите clucene на C++, lucene.net на C# или любой другой, более совместимый с вашими идеологическим принципами.. Хотя они, возможно, не так оптимизированы..

     
  • 2.5, SKeeper (?), 13:09, 07/07/2009 [^] [^^] [^^^] [ответить]  
  • +1 +/
    "Lucene was the only solution that produced an index that was smaller than the input data size."

    Представляете куда поползет размер индекса на реальных задачах? И как с ним придется работать в случае кластера?

    С чего это Вы взяли, что lucene по времени поиска сливает? В приведенных таблицах lucene как раз на первом месте по скорости поиска.

    Важность критерия времени индексации очень зависит от реальной задачи.

    Про то, что размер индекса это не критерий это Вы абсолютно зря. На реальных задачах размер индекса определяет трудозатраты на поиск, а так же сможете ли вы вообще работать с этой базой (если у соперников индекс так быстро прыгает за сотню, то очень скоро их базы будут неповоротливыми).

     

  • 1.7, crypto5 (?), 19:26, 07/07/2009 [ответить]  
  • +1 +/
    Многое зависит от задачи при выборе движка. Например в таблице можно увидеть что у Xapian потребление памяти при пиковой нагрузке в 18 раз меньше чем у Lucene, при схожих показателях в релевантности и скорости. С другой стороны у Sphinx больше возможностей фильтрации по дополнительным атрибутам документов, опять же сравнивая с Lucene .
     
  • 1.8, SaveTheRbtz (??), 10:27, 20/07/2009 [ответить]  
  • +/
    А они версию сфинкса по старее не могли найти?
     

     Добавить комментарий
    Имя:
    E-Mail:
    Текст:



    Партнёры:
    PostgresPro
    Inferno Solutions
    Hosting by Hoster.ru
    Хостинг:

    Закладки на сайте
    Проследить за страницей
    Created 1996-2024 by Maxim Chirkov
    Добавить, Поддержать, Вебмастеру