私は現在、会社名の自然言語処理を行っています。会社のサフィックスを削除し、元の、または肯定的な先読みを保持するRegEx
私が書いた正規表現は-\s+\w+('\w+|\s+\w)
です。ハイフンの後のすべてのテキストを空白にしておきます。 次に、私は[.,/#!$%\^&*;:{}=-_`''"<>|~()]
すべての句読点を削除します。第3に、I (Reg|Ltd|PLC|NV|LTD|LLC|INC|LLP|US)
社のサフィックスを削除します。最後に、文字列の先頭と末尾に改行を含む名前がいくつかありますが、これは"\r*\n*
で解決します。
私はAlteryx & Pythonでこれを実行しているので、これらの正規表現をまとめてみたいと思います。
注意:後に空白がないハイフンの会社名がありますので、これを保存して、句読点の削除で削除されていないことを確認する必要があります。
どのようにこれらのすべてを組み合わせることができますか?そして、私はこれについて正しく行きますか?最後に、文字列のクリーンアップ後、私は特定の情報を取り戻すためにこのデータを別のクライアントリストに結合します。
これは、すべてのフロントエンドに、特に企業向けのフリーテキストフィールドを含むべきではありません。
これらを1つのパターンに結合するにはどうすればよいですか、それぞれのパターンを分離する方がよいでしょうか? MY COMPANY X,Y,Z, TENNESSEE CORPORATION L.L.C. MY COMPANY HOLDINGS, LP. (there is a carriage return after the LP.) ABN FGDF - NEW YORK - UNITED STATES COLLEGE-INRIA ABCDE - UNITED STATES MANAGEMENT MANAGERS - UNITED STATES INVESTMENT MANAGEMENT CORPORATION - CANADA AUTO-CHLOR
前
ハイフンと次の文字の間に空白が存在しなかったとしてカレッジINRIAが滞在することを注記
MY COMPANY XYZ TENNESSEE CORPORATION MY COMPANY HOLDINGS ABN FGDF COLLEGE-INRIA ABCDE MANAGEMENT MANAGERS INVESTMENT MANAGEMENT CORPORATION AUTO-CHLOR
例を前後に追加して追加し、一部のテキストをクリーンアップしました。 – Carson
前のチェックですでに '.'sを取り出したときにあなたの例でのみ動作する' LLC'をチェックしています。このような人はいますか? (例えば、 'L.L.P.'として書かれた' LLP'は他にもありますか?) – 3D1T0R
ちょっと興味があります - 行に改行がある場合、空白行として解釈されず、空白行を削除することで排除できますか? (私は質問に対するAlteryxの答えを熟考しています。) – johnjps111