2016-04-09 16 views
1

英語でテキストを分析するシステムで作業しています。私はstanford-core nlpを使って文書全体から文章を作成し、文章からトークンを作成します。私はまた、トークンposタグを取得するためにマガジンタグを使用します。 ここでは、このコーパスを使用して監視された分類子を構築することを考慮して、 're、' s、havin、sayin 'などの単語をその標準形式(例えば、言って)。私は英語の辞書ファイルを探していましたが、その使い方はわかりません。私はそれが簡単な仕事であるとは思わないと考えると、非常に多くの異なるケースがあります:私が使うことができる類似の仕事やプロジェクト全体がありますか?英文短縮形を辞書形式に置き換える方法

答えて

1

アイデア:

私は)あなたのテキストのサブセットに文字列の編集距離を使用して、辞書内の既存の単語に対して編集距離を使用して辞書に存在しない単語を一致させよう。

II)あなたが持っている多くの例の重要な特徴は、正しいスペルとは1文字だけ違うことです。だから、私はあなたが辞書のエントリと一致することを試みて、すべての英語の文字を前面または背面に追加し、結果の単語を辞書で検索しないことを言います。これは初めに非常に高価ですが、ルックアップテーブルでこれらのスペルミスを追跡している場合(re - > are)、ルックアップテーブルの一般的なスペルミスの99.99%実際の正しいスペル。

III)適切できれいな英語のテキスト(新聞記事など)に単語レベルの2グラムまたは3グラムの言語モデルを訓練し、それをあなたが持っているコーパス全体に適用して、あなたの言語モデルは未知語とみなされます(つまり、学習段階で認識されていないことを意味します)。言語モデルに基づいて考えられる最も高い単語は何ですか。おそらく言語モデルのトップ10の予測が正しいスペルの単語になるでしょう。

関連する問題