英語でテキストを分析するシステムで作業しています。私はstanford-core nlpを使って文書全体から文章を作成し、文章からトークンを作成します。私はまた、トークンposタグを取得するためにマガジンタグを使用します。 ここでは、このコーパスを使用して監視された分類子を構築することを考慮して、 're、' s、havin、sayin 'などの単語をその標準形式(例えば、言って)。私は英語の辞書ファイルを探していましたが、その使い方はわかりません。私はそれが簡単な仕事であるとは思わないと考えると、非常に多くの異なるケースがあります:私が使うことができる類似の仕事やプロジェクト全体がありますか?英文短縮形を辞書形式に置き換える方法
1
A
答えて
1
アイデア:
私は)あなたのテキストのサブセットに文字列の編集距離を使用して、辞書内の既存の単語に対して編集距離を使用して辞書に存在しない単語を一致させよう。
II)あなたが持っている多くの例の重要な特徴は、正しいスペルとは1文字だけ違うことです。だから、私はあなたが辞書のエントリと一致することを試みて、すべての英語の文字を前面または背面に追加し、結果の単語を辞書で検索しないことを言います。これは初めに非常に高価ですが、ルックアップテーブルでこれらのスペルミスを追跡している場合(re - > are)、ルックアップテーブルの一般的なスペルミスの99.99%実際の正しいスペル。
III)適切できれいな英語のテキスト(新聞記事など)に単語レベルの2グラムまたは3グラムの言語モデルを訓練し、それをあなたが持っているコーパス全体に適用して、あなたの言語モデルは未知語とみなされます(つまり、学習段階で認識されていないことを意味します)。言語モデルに基づいて考えられる最も高い単語は何ですか。おそらく言語モデルのトップ10の予測が正しいスペルの単語になるでしょう。
関連する問題
- 1. intを短縮形式の文字列に変換する
- 2. 圧縮イメージファイル形式を非圧縮イメージファイル形式に変換する方法
- 3. キャッチ付きのファイルの線形辞書形式並べ替え
- 4. 短縮形
- 5. 短縮形?
- 6. PHP配列をPython辞書形式の文字列に変換
- 7. java文字列形式、 ""を置き換えます
- 8. オプションの文字列形式の辞書
- 9. OpenCV:大きな矩形を小さな矩形に置き換える方法
- 10. ドイツ語の短縮形の書式設定
- 11. Json.netカスタム辞書形式
- 12. 辞書をインプレースに置き換える
- 13. Python 3.5.2:Cookieの形式を辞書に変換する方法は?
- 14. 希望の形式で日付を書き換えるには?
- 15. 辞書データをHTTP URL形式に変換する
- 16. Python辞書をJSON形式に変換する
- 17. 辞書に.csv形式の辞書を追加する
- 18. 英語の辞書データベースはどこでテキスト形式でダウンロードできますか?
- 19. 日付形式を別の形式に変換する方法
- 20. オブジェクト形式をjson形式に変換する方法
- 21. XML形式を別の形式に変換する方法は?
- 22. []形式のリストを()形式に変換する方法
- 23. iOS - テキストを別のテキスト形式に置き換えます。
- 24. 辞書形式のファイルにgrepを使う方法
- 25. 辞書の形式を変更する
- 26. 辞書データをPythonの表形式で印刷する方法
- 27. 辞書を.npz形式で正しく保存する方法
- 28. xml形式の文字列をjava形式のxml形式に変換する方法
- 29. 短縮形プロパティ名はPHPStorm
- 30. 短縮形xmlのXDocumentコマンド?