テキストメッセージから場所、日付、時刻を抽出するためにNLTKツールキットを使用しようとしています。私はちょうど私のマシン上にツールキットをインストールし、私はそれをテストするためにこのクイックスニペットを書いた:名前付きエンティティの認識のためのNLTK
sentence = "Let's meet tomorrow at 9 pm";
tokens = nltk.word_tokenize(sentence)
pos_tags = nltk.pos_tag(tokens)
print nltk.ne_chunk(pos_tags, binary=True)
私はそれが日(明日)と時間(午後9時)を識別することを想定しました。しかし、意外にも、それを認識することができませんでした。私は上記のコードを実行すると、私は次のような結果を得る:
(S (GPE Let/NNP) 's/POS meet/NN tomorrow/NN at/IN 9/CD pm/NN)
誰かが私が何かをしないのですかNLTKはちょうど適切に時間と日付をタグ付けするのに十分成熟していないなら、私が理解するのに役立ちます。ありがとう!
実際、NLTKはスタンフォードのNERTagger( 'nltk.tag.stanford import StanfordNERTagger')のバインディングを提供しています。それでもJavaソースをダウンロードする必要がありますが、そこからたくさんの助けがあります。 – Pithikos