2016-08-19 6 views
0

私はnltkを初めて利用しています。 synsetshypernyms、​​などがありますが、「デリー」 - 「ハイデラバード」のような場所間の類似性は、明らかにこれらの単語がワードネットコーパスに含まれていないためはありません。wordnetで別のテキストに?

なので、何とか私がwordnet corpusを更新するか、wordnetを別のコーパスで作成できるかどうかを知りたいと思います。旅行に関連するウィキペディアから抽出されたページのセット?異なるコーパスを介してワードネットを作成することができれば、フォーマットとは何か、同じことを実行するステップ、何らかの制限がありますか?

上記の懸案事項を説明するリンクを教えてください。私はインターネットを検索した、グーグル、nltk本の一部を読んで、私は上記の質問へのヒントを持っていない。

ご質問が完全にばかげている場合は、私を許してください。デリーやハイデラバードなどの非常に特定の用語の意味的な類似性を測定する際の柔軟性を高めるために

+1

チェック - DBpedia – RAVI

答えて

2

、何が欲しいのはWordNetのような手作りの何かが、非常に大規模なデータベースから自動的に学習類似性尺度ではありません。これらはstatistical similarityのアプローチです。もちろん、そのようなモデルを自分でデータを訓練することを避けるために...

Googleの距離(wikipediaoriginal paper)が役に立ちます。 R(code)のような言語でそのような尺度を実装するのはかなり簡単なようで、元の論文はWordNetと87%の合意を報告しています。

+0

「Google Distance」に関する面白い論文! – alvas

1

WordNetは類似性を測定するため、Wordnetの類似度は期待どおりに機能します。その意味では、両方とも都市なので非常に似ています。あなたが探しているものはおそらくgeographic similarityと呼ばれています。

delhi = wn.synsets('Delhi', 'n')[0] 
print delhi.definition() 

# a city in north central India 

hyderabad = wn.synsets('Hyderabad', 'n')[0] 
print hyderabad.definition() 

# a city in southern Pakistan on the Indus River 


delhi.wup_similarity(hyderabad) 
# 0.9 

melon = wn.synsets('melon', 'n')[0] 

delhi.wup_similarity(melon) 
# 0.3 

Geowordnetと呼ばれるWordnet拡張機能があります。私はある時点であなたと同じ問題を抱えており、WordNetを拡張機能の一部と統合しようとしました:wnext。希望が役立ちます。

+0

cool。あなたの答えに感謝します。新しいことを学びました。しかし、地理的入力は、私が探していたカテゴリーの1つでした。興味のある動物や食べ物などのいくつかのものがあります。したがって、私はwikipeida上にwordnetを構築したいと考えています(可能ならば)。この点についての入力はありますか? – mtk

+0

食品間の距離測定はどのくらいでしょうか?成分リスト? – bogs

+0

私は要件を明確に述べていないと思います。私は明確にしようとしましょう。 2つの言葉が与えられたとき、私はそれらが似ているかどうかを知る必要があります例えば私がパリとドーナツを渡したら、一つは食料品、もう一つは場所なので、似ていないことを伝えるためにプロセス/プログラムが必要です。食料品の場合、私は距離測定がどうなるかはっきりしていませんが、一般的な出力を得る方法を見つけようとしています。 nltkがここで助けてくれると思った。 – mtk

関連する問題