2011-07-14 26 views
1

位置や名前の辞書に基づいて場所や名前などの情報を検出するためにフリーフォームの文字列を解析する方法はありますか?私の特定のアプリケーションでは、私の辞書にはそれ以上のエントリがない場合は何万もありますので、私はそれらをすべて実行していることは間違いありません。また、「あいまいな」マッチングを追加する方法はありますか?xの辞書単語の編集内にある部分文字列を検出することもできますか?私が間違っていないなら、これは自然言語処理の分野に属し、より具体的には名前付き実体認識(NER)に該当します。しかし、NERの背後にあるアルゴリズムとプロセスに関する情報を見つけようとする私の試みは空になっています。私はこれに最もよく慣れているので、Pythonを使用する方が好きですが、私は他のソリューションを見ています。辞書から単語の文字列を検索する

答えて

1

あなたかもしれスタンフォード固有表現認識装置ダウンロードしてみて:あなたは誰か他の人のコードを使用しない場合 http://nlp.stanford.edu/software/CRF-NER.shtml

を、あなたは、私は、アルゴリズムで見てみることをお勧めしたい、それを自分でやってみたいですそのために使用する条件付きランダムフィールドモデルは、NERにとってかなり一般的なアプローチになっているからです。

詳細のない部分文字列を探す際の質問の第2部分に正確に答える方法がわかりません。 Stanfordプログラムを変更することも、品詞タグを使ってテキスト内の固有名詞に印を付けることもできます。それは名前と場所を区別しませんが、それぞれの固有名詞からx単語離れた単語を見つけることは非常に簡単です。

関連する問題