私はNLTKプロジェクトに取り組んでいます。原則的に標準シソーラスのようなものですが、(準)連続です。一つの例を挙げると、宗教的な古典と元帳の両方を含む数十の記入項目が本と結びついています。NLTKに、同義語を島ではなく近くの用語に関連付けるように求めるにはどうすればよいですか?
私はいくつかの言葉でひっくり返ってみましたが、私はそれを行うことによってパイの小さなスライスを得るように見えました。 (「帳簿」の結果には「日刊帳」が含まれていたが、その物質は本を読んだときよりもはるかに小さな集まりだった)。文書中の「synset」の議論は、既存のものに近い用語を見つけることができるしかし、synsetsは島に似ている、または私にそれを参照してください。
「もし一致すると、高い一致スコアを持つすべての単語をXYZしきい値より上にしたい」または「最も近いn個の関連用語に一致させたい」という意味があります。このような文書は、2つの単語の間の近接度スコアを計算する本当に素晴らしい方法では可能ですが、閾値を調整する方法やn個の最も近い一致を要求する方法は分かりません。
私の最高の賭けは何ですか?
私は本当にあなたのプロジェクトに従っていません。あなたは正確に何を達成しようとしていますか?あなたは(近)同義語を探していますか? – patrick
私は[Visual Thesaurus](https://www.visualthesaurus.com/)のようなことをしようとしています。言い換えれば、1つの用語で始まり、ますます異なる意味で他の用語にナビゲートすることができます。道路や地形に相当するのは、舗装された道路を走行してワシントン州からフロリダ州、またはカリフォルニア州からニューヨーク州に移動し、舗装された道路のみを通過できることです(ジープ4x4は不要)。イリノイの道路があなたを連れ出すことのできない道路の非常に疎なグラフを想像してください。実際には2つまたは3つの接続されたコンポーネントしかありません。 (なぜ、私はもっと緻密なグラフを望んでいるのでしょうか?) – JonathanHayward