私は現在、例えば行(SQL-アテナ)
で私たちのwebserverlogからのメッセージを分割するに取り組んでいます: 私のメッセージ(データ型string)は次のようになります。
at=info method=GET path="/v1/..." host=web.com request_id=a3d71fa9-9501-4bfe-8462-54301a976d74 fwd="xxx.xx" dyno=web.1 connect=1ms service=167ms status=200 bytes=1114
と私は列にこれらをカットする:
path | service | connect | method | status | fwd | dyno |
------ | ------- | -------- | ------ | ------ | ------- | ------ |
/v1/...| 167 | 1 | GET | 200 | xxx.xxx | web.1 |
私はregexp_extractで遊ん標準SQLのAmazon Athena上で(初めての)関数であり、既に文字列から数行を取得していますが、いくつかの行で苦労しています。
私は例えば、私が
REGEXP_EXTRACT (message,'dyno=[^,]+[a-z]')AS dyno
-> dyno=web.2 connect=0ms service=192ms status=200 bytes
は、私は再びそれが希望
を抽出した結果&としてdyno=web.1
を持って欲しい必要以上の情報を取得し、文字列イムのうち、ダイノをカット取得しようとすると、私は文字列を空白文字まで "dyno ="から "connect ="まで切り詰めるといいですが、読んだサイトで正しいオプションを見つけることができませんでした。
文字列の正しい部分を取得するオプションはどのように記述しますか?
は、なぜあなたは '[^、] +'ここで使うのですか?あなたのサンプルからは、ターゲットの文字列にスペースや '。*?(?= connect =)'を含めることができない場合は、 '\ S +'を使用します。 –
[^、] +以前の行で作業していたので、他のものでもうまくいくと思いました。 –
文字列にはカンマがまったくないので、 '[^、]'は無意味です。 –