2012-01-11 8 views
15

キーワード(主に趣味、最新ニュースなど、人々が興味を持っているかもしれない)を対象に、Pythonベースのセマンティック検索を実装したいと考えています。同じオープンソース検索アルゴリズム/実装のためのオントロジーデータベースが存在するかどうかを知りたい。Pythonの趣味向けセマンティック検索+最新ニュース

例:私のセット= {話す、飲む、ツイートする、カトリーナ・カイフ、カトリーナ・サイクロン、岩石収集、コイン収集}

したがって、「蓄積」を検索すると、ロック収集とコインが出力として収集されることがあります。

編集: 用語は複数の単語を持つことができます。それは「米国のバラク・オバマ大統領」であり、有効な質問です。

+0

あなたは入力セットと詳細に設定された出力について説明できますか? – shibly

+0

@guruまずは、趣味や話題のデータベースや、人々が話したいものを構築する必要があります。データベースがそれ自身を更新するなら、それは良いでしょうが、ユーザーはそれらを何とか追加します。 このデータベースでは、セマンティック検索を実装したいと考えています。だから、これらの用語を考えれば、それらの意味論的検索を実行し、検索された関心と一致する興味のあるユーザのリストを返すことができるはずです。 – w2lame

答えて

4

"ランダムインデックス"を使用すると便利です。それはあなたが必要とするものを正確に行うことができ、各単語の特徴ベクトルを計算し、2つの単語間の意味的類似性のメトリックを定義します。

必要なのはAn Introduction to Random Indexingのコピー、あなたが始めるためにsemanticvectorsパッケージをつかむためにある...

私はこれが役に立てば幸い、あなたはさらにアドバイスが必要な場合は、コメントしてください...

1

私はこれがあなたに役立つかどうかは分かりません。まだ重い開発効率向上下

Gnowsys

+0

本当に良いですね。共有してくれてありがとう。 – w2lame