如何找到发音相似的单词？

Question

我正在开发一个专注于美食领域的多语言搜索引擎，使用Python和NLTK库。我已经拥有一个包含多种文化菜谱的大型数据库，以支持我想要覆盖的所有语种。

我的问题是，如何在建立的词汇索引中找到用户可能输入的拼写错误单词。例如，在意大利语中，当搜索“couscous”时，很多用户可能会输入“cus cus”或"cuscus"这样的错误拼写。

目前，我处理索引词汇的方式如下：

import re
import nltk
from nltk.corpus import stopwords
from nltk.stem.snowball import ItalianStemmer
import string

# 设置语料库为意大利语
corpus_language = 'italian'
stemmer = ItalianStemmer()
stop_words = set(stopwords.words(corpus_language))

# 对句子进行分词
word_token_list = nltk.word_tokenize(text)

# 移除标点符号并转换为小写
word_token_list_no_punct = [word.lower() for word in word_token_list if word not in string.punctuation]

# 移除停用词
word_token_list_no_punct_no_stop = [word for word in word_token_list_no_punct if word not in stop_words]

# 使用Snowball词干算法进行词干提取
word_stems = [stemmer.stem(word) for word in word_token_list_no_punct_no_stop]

return word_stems

为了实现目标，我是否需要以某种不同的方式来准备我的索引呢？

当然，对于文本分析及分词流程中的任何其他改进建议，我也非常乐意听取。

user541686 · Answer

其实，我会倾向于使用具备弹性搜索功能的数据库来解决这个问题。

优点包括：

这类数据库已经内建了解决拼写错误等问题的机制。
搜索速度极快。
安全性更高。

还有很多其他的优点，你可以想象得到。

将Python与SQLite数据库连接非常简单，并且SQLite的FTS5（全文本搜索）模块表现得相当出色！我强烈推荐你观看下面这个视频，它能帮助你判断这个方案是否符合你的需求：视频链接

Gumbo · Answer

最终，我采纳了@vgenovpy的建议，选择了ElasticSearch作为完整的解决方案（https://www.elastic.co/）。这是一个开源的项目，有着明确的设计理念，开箱即用地提供了搜索、可观察性和安全性特性。它支持多种语言的分析、过滤和词干提取规则。更重要的是，ElasticSearch拥有一个非常友好和响应迅速的社区，他们在我遇到一些初级问题时提供了帮助。

我对这个选择非常满意。当然，学习曲线起初相当陡峭，但大约一周后，我已经开始觉得ElasticSearch的API非常舒适且“易于使用”。