2016-06-13 8 views
0

私はRedshiftでsplit_part関数を使用していて、ハイブで同等のものを探しています。私は以下の形式でURLを解析したい。私はparse_url関数を見てきましたが、必要なオプションがないと思います。だから私は文字列関数が必要だと思う。下記のURLのようハイブでの文字列の解析

www.ibm.com 
www.fr.ibm.com 

私はWWWの後にすべてのものをしたいです。ドキュメントには、私が必要とするようなsubstring_index関数がありますが、使用しているHiveのバージョンでは機能しません(バージョンの確認方法がわかりません)

+0

4文字目以降、または最初のピリオドの後にすべてを取るのはなぜですか。 –

+0

regexp_replaceは常にwww – Abhi

+0

@GordonLinoffを置き換えることができますが、httpがあると文字位置が常に信頼できるとは限りません。 – Moosa

答えて

1

REGEXP_EXTRACT()を使用してすべてを取得してください最初の後に.

SELECT url 
    , REGEXP_EXTRACT(url, '\\.(.*)') AS parsed_url 
FROM db.tbl