2012-04-20 10 views
1

私は幾分ステミングに精通していますが、私はプロジェクトに使用するために与えられたステミングライブラリはありません「がtは私がこれらのいずれかのクエリを実行する場合のような関連単語を検索したい場合のために非常にうまく機能:"歯科"のようなクエリから "歯科"、 "歯科医師"のような言葉を取得する適切なアプローチ

『歯科』、 『歯医者』、 『歯科』

私は試合を取得する必要があります他の人のために。私はこれを調べてきましたが、パーネセンスやトロポンのような存在していなかった部分のことを学んでいますので、そこにはライブラリがないと思っています。私が探している種類のマッチを返すことができる異なる品詞?

私はこれを検索してきましたが、私が意味することができる全体を見つけていません。私はおそらく適切な用語などを知らないし、誰かが私を正しい方向に向けることができれば大いに感謝するだろう。

+1

Pertainymsとtroponymsは品詞ではなく、単語関係です。 –

答えて

2

IRで一般的なアプローチの1つは、インデックス内のすべての単語とクエリ自体を処理する方法です。意味、「歯科」という単語を含む文書は、「歯科医」として索引に格納され、索引に格納されます。キーワード「歯科」もまた「歯科医」として摘出され、それにより、それを指標に適合させる。

+0

私は、歯科医師に "歯科"や "歯科"のような言葉を犯さないので、最適なものではないと思っています。 – Rick

+2

はい!精度とリコールの間の貿易です。しかし、クエリと文書の両方でこのステミングを行うことの美しさは、歯科医のような言葉のすべての可能性(歯科、歯科)を列挙する必要はないということです。むしろ、それらは既にその茎に基づいて索引付けされているか、またはグループ化されています。それは正確な問題ですが、特にあなたのサンプルワードがすべて「へこみ」にまで枝分かれしている場合は特にそうです。 –

2

WordNetをご覧ください。 WordNetは単語と概念の体系化されたオントロジーであり、単語間のさまざまな種類の関係のリンクを備えています。私はそれがあなたが望む関係を正確に持つかどうかは分かりませんが、それはおそらく良いスタートです。さまざまなプログラミング言語(私が使ってきたJavaやPython、おそらくはもっと多くの言語)には多くのインタフェースがあります。

+0

クール、Javaは私が使っているものです...それは間違いなく有用なデータがたくさんあります。正確な問題を解決するかどうかはわかりませんが、これがいくつかの事柄に対してどのように役立つかを見ることができます – Rick

+0

特に、言葉の派生関係はあなたが必要とするものかもしれません。 –

関連する問題