2016-04-25 30 views
2

REGEXP_SUBSTR (Redshift)の正規表現を作成して、指定されたURLからサブドメイン&ドメイン部分を抽出しようとしています。ドメイン抽出用のレッドシフト正規表現

私はstackoverflowから多くの提案を試みました:正規表現抽出サブドメインドメイン、a-url-regexの取得、how-to-get-domain-name-from-urlなどそれらは正規表現バリデーターで動作しますが、Redshiftでは動作しません。

正規表現では、http/httpsプレフィックスがある場合とない場合のURLを処理する必要があります。

任意のURLからサブドメイン&ドメインを正規表現で抽出する方法はありますか?

REPLACE(REGEXP_SUBSTR(url,'//[^/\\\,[email protected]\\+]+\\.[^/:;,\\\\\(\\)]+'),'//','') 

はダブルスラッシュにマッチし、次にため赤方偏移でサポートされている、非常に基本的な正規表現のREPLACEでそれを削除する必要があります。

+0

このUDFのブログ記事を確認してください:https://aws.amazon.com/blogs/aws/user-defined-functions-for-amazon-redshift/ – Guy

答えて

1

は実験のトンの後、これは私が使用するものです。正規表現は、私のために何もを生じないこと -

FWIW、あなたはこれがRedshift UDF's introでジェフ・バールが提供する正規表現とは非常に異なるであることがわかります。