私はSASでファジーマッチングアルゴリズムを作成しようとしていますが、すべての可能なアドレスオプションのリストを作成するメカニズムに慣れてきています。アレイからアドレスリストを作成する
私はすなわち、聖、ストリート、アベニュー、アベニューなど
、共通のアドレス文字列のリストを作成するには、次にアドレスを取得し、文字列内の任意の単語が共通のアドレス文字列のリストと一致する場合、そのアドレスのすべての可能なシナリオを作成します。例えばので
:
101 N MAIN STに変換します:
は私が上でこれをプログラムすることができます 101 N MAIN ST 101 Nメインストリート 101ノースメインセント 101ノースメインストリート小規模ですが、リストに必要な共通のアドレス文字列が約100ある場合はそうではありません。
まだお持ちでない場合は、ここで行っている作業の一種である 'ngrams'をご覧ください。 SASにはいくつかの機能がありますが、この特定のアプローチよりも優れている方法のいくつかを処理する方法については、たくさんの情報があります(データステッププログラミングにアプローチする方法の手がかりを与えるかもしれません文献は主にpython/r/cです)。 – Joe
lexjansen.comで検索すると、住所のクリーンアップと抽出に役立つたくさんの論文とコードが見つかります。一般的な方法は、コンポーネントに抽出し、標準化してから再フォーマットすることです。 – Reeza