2011-06-17 9 views
1

私はwnコマンドラインツールを使ってwordnetにアクセスしているRubyでいくつかの実験を書いています。なぜなら、wordnet gemを動作させることをあきらめたからです。WordnetコマンドラインツールからPOS確率を得る

私は感覚の頻度を調べることができ、最終的には特定の単語が名詞/形容詞/動詞/副詞である確率を計算できるようにしたいと考えています。

私はドキュメントを試しましたが、必ずしもそうではありません。

これは、wnツールだけを使用しないと可能ですか?私は考えてwordnetにこの情報を書いていますか?

答えて

4

返信の結果では、synsetはほとんどの場合から最小の頻度で並べられていますが、それは頻度自体は含まれていません。

実際の周波数にはさまざまな方法があります。おそらく最も信頼できるのは、Penn TreeBankのようなPOSタグ付きコーパスを使用して、値を自分で計算することだけです。残念ながら、あなたが大学に入学していなければ、そのコピーを無料で入手することは難しいです。もう一つの選択肢は、あなた自身のコーパスを作成することです(おそらく、ブログ、プロジェクトグーテンベルクの本、Wikipediaなどから)。POSタガーを実行し、それから周波数を計算します。明らかに、この方法は歪んでいますが、手動でコーパスにタグを付けるよりも簡単です。

+0

ありがとうございました。私はワードネットに包括的な頻度データが明示的に含まれていないのは間違いないと思いますが、頻度を推定できる違いの感覚についての観測数(私にはわからない)があります。これらのカウントは、 'wn -over'の出力のセンス定義の隣に表示されます。それは、私がシェルフのパーサー(engtaggerのような)を使用するルートを去ったと言いました。 – Nat

関連する問題