私は、面倒なソーシャルメディアと電子商取引の注文テキストデータを整理するプロジェクトに取り組んでいます。私はアプローチをチェックし、ライブラリやその他私が使うべきだと思うリソース。スペルミスの修正と面倒なテキストのアドレスの検索
英語で書かれていますが、完全な文章ではなく、人名、ビジネス名、連絡先情報、メールアドレス、ソーシャルメディア投稿のコンテンツが混在している数十万のテキストスニペットを処理していますTwitterやInstagramのハンドルなどのソーシャルメディアハンドルへのリンクやハンドルを提供します。私が得ているテキストは、フォーマットされていない、構造化されていないテキストです。私は、テキストがしばしばフレーズと言葉の混乱であることを指摘します。したがって、英語の完全な文章と見なすことはできません。私はこれが、これが標準的なNLPと部分的なタグ付け技術(私はこの点については分かりません)で行うことができるセマンティック解析の量を制限するかもしれないと思うので、これを言及します。
私の目標は、各テキストスニペットに以下の修正と強化を実装することです: 自信を持って行うことができますが、自信を持って置き換えが利用できないときは既存のトークンを保持しています。テキストに余分な改行やスペースがないことがあるので、スペルミスには3つの種類があります。1)通常のスペルミス(例:「bananna」)。スペースのスペルミスはありません(例:「yellowbanana」)。余分なスペースのスペルミス:(例:「ban ana」) 住所と場所の名前にタグを付けて、それらの場所をジオコードして、その場所の地図にリンクすることができます。ここで
はいくつか作られているが、代表的な例:
例1:この例では
7pcs gillette razors and 1 mens cardi
gan sweater 231 E Front St Missoula
MT Order total $34.39 shipping ground UPS
は、私が「カーディガン」のスペルミスを修正したいとも気づくだろう231 E」というFront St Missoula MT "は郵送先住所です。
例2:この例では
6600 cartons yellowbanana for @metmuseum
Marpa was a seminal figure of early Tibetan Bud
dhism and principal teacher of Milarapa
は、私は確かにの束を書くことができますが、「yellowbanana」のスペルミスを修正し、「仏教」
のスペルミスを修正したいのですがルールや正規表現、私は既存のNLPや他のツールを活用して、特別なケースをたくさん避けようとしています。私はこれまでのところ、次のユーティリティで探しています:
- https://hunspell.github.io/はGoogle Chromeのは、Firefox、および他の多くのプロジェクトが使用スペルチェッカーです。
- https://textblob.readthedocs.io/en/dev/はNLTKの上に構築され、上記の問題を解決するために私の非文章のテキストデータで動作するかどうかはわかりませんが、多くの異なる機能を持っているようです。これは強力に見えますが、自分の問題にどの程度正確に反映させるかはわかりません。
- 例2では、私はhttps://geocode.xyz/を見つけましたが、完全なアドレスでピックアップすることはできません(Missoula MTを取得します)。 https://pypi.python.org/pypi/pyapも興味深いようですが、それは米国とカナダだけのものですが、私は世界中の住所を解析する能力が必要です。残念なことに、各テキストスニペットがどの国にあるのかはわかりません。
私はあなたが私に与えてくれるポインタをありがとうと思います。ありがとうございました。