住所が書かれているが、冒頭に日付が書かれている文書がある。私はちょうど日付を取得しているので、正規表現は、アドレスを抽出したい。次いで正規表現で住所を抽出する方法
次いで
- 1〜5の数字
- 次いで空間
- 連続する単語が、無
- 次いで桁スペースまたはカンマアドレスの形式次いで
- ワード
- 空間またはコンマの場合
- 大文字2つ(これら2つのファイルtters)
すなわち
- 5664 RUEピエール・ラブレモントリオールQC
- 5456大通りマーティン硬化、シャーブルック、QC
は、私はこれを試してみましたが、私は何を取得します。私は数時間以上演奏しましたが、アドレスの前にある文書の日付と段落の冒頭の2単語を時々取得します。
"\\d{1,5}\\s(\\b\\w+\\b){1,2}\\w*\\s?,?\\w*\\s?,?\\w*\\s?,?[A-ZA-Z]"
これは5664 RUEピエール・ラブレモントリオールQC G1H 3A4に住んテキスト
2016年7月23日
ジョージ・ワシントンの一部です。 Lorem ipsum dolle amet、consectetur adipiscing elit。
5456大通りマーティン硬化、シャーブルック、QC、 G1H 3A8に住む別の文書
2016年1月5日
フアナ・ペレス。 Lorem ipsum dolle amet、consectetur adipiscing elit。
別の文書
Salvador Dali living at
5 Ch Ste-Catherine
Montreal QC
J2S 8W3
を見つけるまで
"at"
@検索を開始。これらのアドレスのソースはどこにあるのか聞いてみてください。同じフォーマットのものをすべてエクスポートする方法がありますか? –当社はこのデータを統一し、サプライヤーに変更を提案している。しかし、その間に、すべてのテキストは、異なるサプライヤーから提供された契約書に基づいています。私たちはサービスを介してローカルにファイルを生成し(dbで保存しますが)、テキストはそれらによって送信されます。私は私の例で私が提供した3つのパターンを特定しました。多くの契約がありますが、これらは3つの形式のアドレスです。 –
私はあなたに以下の解決策を教えました。実際に正規表現を使う必要はないと思います。 –