在处理大量术语列表时，Python、PostgreSQL和Elasticsearch之间的高效文本搜索比较。

Question

我有一个包含约500,000个条目的列表，其中的词条长度从1到10个单词不等。我的目标是在一段较长的文本（由PDF转换而来，通常为1.5至2页）中搜索这些词条。不仅需要进行精确匹配，还需要实现模糊匹配（例如，词条“Lionel Messi”应能在文本中匹配到“Lionel Mesi”）和近似匹配（例如，“Lionel Messi”应能匹配到文本中的“Lionel J. Messi”）。

我希望在近乎实时的情况下（1-2秒内）解决这个问题。我已经尝试使用字典树数据结构和并行化技术，但特别是在涉及模糊匹配时，由于列表的庞大尺寸和PDF的长度，导致处理时间过长（大约30秒左右）。

针对这一问题，我应该如何着手解决？

我是否可以在Python库的支持下实时处理这个问题（利用并行化、字典树结构等技术）？
PostgreSQL数据库是否有支持此类搜索的功能？
是否应该采用Elasticsearch这样的框架？

Thomas Wouters · Answer

PostgreSQL 提供了原生的全文搜索功能，例如：

官方文档：https://www.postgresql.org/docs/current/textsearch.html ，介绍了其全文搜索的相关内容。
另一个官方文档：https://www.postgresql.org/docs/current/pgtrgm.html ，详细说明了 pg_trgm 扩展，该扩展用于实现基于文本相似度的搜索。

此外，还有以下一些扩展：

ParadeDB 最近推出的 BM25 算法实现：https://docs.paradedb.com/blog/introducing_bm25 ，可以提供更为精确和灵活的全文搜索评分机制。
pgvector（GitHub 地址：https://github.com/pgvector/pgvector ）是一个基于向量的搜索扩展，可以处理由大型语言模型生成的向量数据，从而支持模糊匹配和近似匹配等复杂搜索需求。

Jorge Ferreira · Answer

你好，Batuhan。Elasticsearch 的模糊搜索功能可以近乎实时地处理这种近似查询请求。实际上，这也是 Lucene、Elasticsearch 以及 Opensearch 等工具存在的主要原因之一。

你是否已经将数据在 Elasticsearch 中建立索引，并且测试过对“Lionel Messi”进行搜索所需的时间呢？

这里有一篇很好的文章，它解释了 Damerau-Levenshtein 距离的概念：https://www.elastic.co/blog/found-fuzzy-search 。

joran · Answer

您有以下几种解决方案：

Elasticsearch、Typesense 等工具可以满足您的需求，但需要注意的是，它们需要独立管理与维护。
对于PostgreSQL，我推荐使用pg_bm25插件：https://github.com/paradedb/paradedb/tree/dev/pg_bm25。它是免费的，并且基准测试显示此类搜索操作大约需要30毫秒左右的时间。您可以在此查看基准测试结果：https://github.com/paradedb/paradedb/blob/dev/benchmarks/README.md#pg_bm25。注：我参与了pg_bm25的开发工作。
使用PostgreSQL的tsvector类型也可能取得不错的搜索效果。尽管不确定对于如此大量的数据是否能达到1-2秒内的搜索速度，但值得一试，因为它的开销相对较低。
最后，还有一个名为ZomboDB的工具，它允许PostgreSQL与Elasticsearch之间进行互操作。如果您确实希望同时使用两者，那么ZomboDB可能是简化工作流程的最佳选择。