9
jsonスキーマで上書きするディレクトリを挿入するにはどうすればよいですか?HIVE json形式の上書きディレクトリを挿入します
生ハーブavroテーブルがあります。 (これは実際に多くのフィールドがあります)
tb_test--------
name string
kickname string
-----------------
私はjsonserdeでHDFS内のいくつかのディレクトリにクエリ結果を保存したいです。
私はこれを試しました。
insert overwrite directory '/json/'
ROW FORMAT SERDE 'org.apache.hive.hcatalog.data.JsonSerDe'
WITH SERDEPROPERTIES (
"stat_name"="$._col0",
"stat_interval"="$._col1"
)
STORED AS TEXTFILE
select name, nickname
from tb_test limit 100
しかし、/ json /に書かれたjsonは、起点フィールド名の代わりに_colXXフィールド名を持っています。
{"_col0":"basic_qv"," _col1":"h"}
{"_col0":"basic_qv","_col1 ":"h"}
{"_col0":"basic_qv","_col1 ":"h"}
{"_col0":"basic_qv"," _col1":"h"}
{"_col0":"basic_qv","_col1 ":"h"}
私はこれを助ける何
{"name":"basic_qv","nickname":"h"}
{"name":"basic_qv","nickname":"h"}
{"name":"basic_qv","nickname":"h"}
{"name":"basic_qv","nickname":"h"}
{"name":"basic_qv","nickname":"h"}
を期待?
ありがとうございます!
私はAVRO形式で同様の問題に直面しています。あなたは解決策を見つけましたか?回避策がわかっている場合はお知らせください。 – Munesh
はavro出力のfotmarまたはtable形式ですか?私はハイブの回避策を見つけることができませんでした。代わりに私は火花でこれをしました。 spark sqlを実行し、データフレームをjsonとしてエクスポートします。自然の中でさまざまな輸出フォーマットをサポートします。 –
AVROは必要な出力ファイル形式です。はい、Sparkは良い回避策です。 – Munesh