fosstodon.org is one of the many independent Mastodon servers you can use to participate in the fediverse.
Fosstodon is an invite only Mastodon instance that is open to those who are interested in technology; particularly free & open source software. If you wish to join, contact us for an invite.

Administered by:

Server stats:

9.8K
active users

#bm25

0 posts0 participants0 posts today

🌗 PostgreSQL BM25 全文搜尋:透過這些技巧加速效能
➤ 破解效能慢的迷思,提升 PostgreSQL 全文搜尋的真實速度
blog.vectorchord.ai/postgresql
這篇文章探討了 PostgreSQL 內建全文搜尋(FTS)的效能問題,並針對 Neon 公司先前分析中使用的基準測試設定提出修正。文章指出,Neon 的基準測試可能未採用最佳化設定,導致標準 FTS 效能顯著落後於使用 Rust 語言的 Tantivy 函式庫所建構的 pg_search 擴充功能。透過預先計算並儲存 `tsvector`,以及關閉 GIN 索引的 `fastupdate` 選項,標準 FTS 的效能可提升約 50 倍。此外,文章也探討了排序效能(`ts_rank`)的限制,並推薦使用 VectorChord-BM25 擴充功能以獲得更快速、更具相關性的搜尋結果。
+
#PostgreSQL #全文搜尋 #BM25 #效能優化

VectorChord · PostgreSQL BM25 Full-Text Search: Speed Up Performance with These TipsBy Jinjing Zhou

🚀✨ Wow, #PostgreSQL just got a shiny new toy to play well with others! Apparently, adding #BM25 ranking makes it 3x faster than Elasticsearch—because, you know, exaggerated #performance boasts never get old. 🤔🔍 So, strap on folks, because your slightly quicker searches in databases are the next big thing! 😂📚
blog.vectorchord.ai/vectorchor #Elasticsearch #database #search #speed #HackerNews #ngated

VectorChord · VectorChord-BM25: Revolutionize PostgreSQL Search with BM25 RankingBy Jinjing Zhou

Transforming PostgreSQL Search: Meet VectorChord-BM25, the 3x Faster Alternative to ElasticSearch

VectorChord-BM25 is set to redefine full-text search in PostgreSQL, integrating advanced BM25 ranking for smarter and faster results. This new extension promises to enhance the search experience, achi...

news.lavx.hu/article/transform

[Перевод] Разбираем алгоритм полнотекстового поиска BM25

BM25, или Best Match 25 — это широко используемый алгоритм полнотекстового поиска. Среди прочего, он по умолчанию применяется в Lucene/Elasticsearch и SQLite. В последнее время в рамках «гибридного поиска» часто начали комбинировать полнотекстовый поиск и поиск по схожести векторов. Мне захотелось понять, как работает полнотекстовый поиск и в частности BM25, поэтому в этой статье я постараюсь разобраться в этом.

habr.com/ru/articles/860830/

ХабрРазбираем алгоритм полнотекстового поиска BM25BM25, или Best Match 25 — это широко используемый алгоритм полнотекстового поиска. Среди прочего, он по умолчанию применяется в Lucene/Elasticsearch и SQLite. В последнее время в рамках «гибридного...

Разбираемся с Vespa. Часть 2

Из этой статьи вы узнаете: 1) Что такое Document и Query Processing. 2) Как обрабатывается текст Vespa. Что такое токенизация и стемминг. 3) Какой из обработчиков текста лучше подходит для русского языка. 4) Как выполнить текстовый поиск. 5) Как происходит ранжирование результата.

habr.com/ru/companies/sportmas

ХабрРазбираемся с Vespa. Часть 2Содержание Данная статья является продолжением цикла о поисковой системе Vespa . В прошлый раз мы рассмотрели, как запустить сервер конфигурации Vespa с помощью Docker, а также изучили процесс...

[Перевод] Новая методика существенно повышает эффективность систем RAG в поиске необходимых документов

В новой работе исследователи из Корнеллского университета представляют «контекстные эмбеддинги документов» — технику, повышающую эффективность моделей эмбеддингов путем учета контекста, в котором извлекаются документы.

habr.com/ru/articles/850076/

ХабрНовая методика существенно повышает эффективность систем RAG в поиске необходимых документовМетод генерации с дополнением извлечения (RAG) стал популярным способом связывания больших языковых моделей (LLM) с внешними источниками знаний. Системы RAG обычно используют модель эмбеддингов для...

These past days, I've been working on and having lots of fun with Housaku (豊作), a personal search engine built on SQLite's FTS5. Currently it has:

- Support for file formats like .txt, .md, .pdf, .epub, and .docx
- Basic web scraping functionality
- BM25 for search results, thanks to SQLite's FTS5

And files are processed in parallel, making indexing faster than I expected!

If you're interested, check it out at:

github.com/dnlzrgz/housaku

GitHubGitHub - dnlzrgz/housaku: A powerful yet simple personal search engine built on top of SQLite's FTS5.A powerful yet simple personal search engine built on top of SQLite's FTS5. - dnlzrgz/housaku

Как найти иголку в стоге сена? Или обозор Retrieval Algorithms

Появление трансформеров, а впоследствии LLM (Large Language Models) привело к активному распространению чат-ботов и различных ассистентов помогающих в получении информации или генерации контента. Но несмотря на то что LLM способны по запросу генерировать человекоподобные тексты, они подвержены галлюцинациям . Естественным кажется желание уменьшить количество не достоверных ответов. Для этого мы можем либо дообучить LLM на наших данных, либо использовать Retrieval Augmented Generation (RAG) . RAG - это способ генерации текстов на новых данных без дообучения модели, с помощью добавления релевантных документов в промпт модели. Документы для генерации ищутся с помощью retrieval системы, после чего объединяются в один промпт и подаются в LLM для последующей обработки. В этой статье я решил собрать информацию о всех наиболее известных и применяемых алгоритмах поиска, с описаниями и материалами для более глубокого изучения.

habr.com/ru/articles/840268/

ХабрКак найти иголку в стоге сена? Или обозор Retrieval AlgorithmsПоявление трансформеров, а впоследствии LLM (Large Language Models) привело к активному распространению чат-ботов и различных ассистентов помогающих в получении информации или генерации контента. Но...
#bm25#tfidf#hnsw

Он победил LLM RAG: реализуем BM25+ с самых азов

Привет, меня зовут Борис. Я автор телеграм канала Борис опять . Периодически мне на глаза попадается что-то интересное и я глубоко в этом закапываюсь. В данном случае это алгоритм поиска BM25+ , который победил продвинутые методы векторного поиска на LLM. Разберемся, что это за зверь и почему он так хорошо работает. В этой статье мы реализуем его на Python с нуля. Начнем с самого простого поиска, перейдем к TF-IDF, а затем выведем из него BM25+. Статья подойдет тем, кто вообще ничего не знает о поиске, а более опытные ребята могут пролистать до реализации алгоритма. Код доступен в Google Collab .

habr.com/ru/articles/823568/

ХабрОн победил LLM RAG: реализуем BM25+ с самых азовПривет, меня зовут Борис. Я автор телеграм канала Борис опять . Периодически мне на глаза попадается что-то интересное и я глубоко в этом закапываюсь. В данном случае это алгоритм поиска BM25+. Статья...