私は、Azure BLOBストレージに、HD InsightのApache Sparkを使用した寄木張りファイル構造を作成しました。 これは構造体である:Apache Drillは分割された寄せ集めファイルを読み取ることができません
/root
/sitename=www.site1.com
/datekey=20160101
log-01-file.parquet
/sitename=www.site2.com
/datekey=29160192
私たちは、この寄木細工の構造againtsクエリを実行するために、Apacheのドリルを使用したいが、我々はいくつかの問題を発見しました。
このクエリに
SELECT datekey FROM azure.root.`./root` WHERE sitename='www.mysite.com' GROUP BY datekey
を実行しているときに我々は、エラーの原因である可能性がありますどのような
"org.apache.drill.common.exceptions.UserRemoteException: SYSTEM ERROR: NumberFormatException: www.trovaprezzi.it Fragment 2:2"
このエラーが出ますか?
また、WHERE句を指定せずにクエリを実行すると、パーティションキーがNULL値として認識されるようです。
SELECT sitename, COUNT(*) as N FROM azure.root.`./root` GROUP BY sitename
|sitename|N
|NULL |100000|
誰もがこの問題を実験しましたか? 本当にありがとうございます。
おかげ ロブ
私の個人用ラップトップでドリルを使用しています。ドリルの文書では、私は紺碧のブロブストレージを見てきました。私の懸念は、私はDrillでsparkで作成されたパーティションを読み取ることができないということです。 –
親愛なる皆さん、amazon S3やローカルファイルシステムなどでsomethinkを似たような実験をしている人はいますか? –
ローカルのドリルインスタンスを使用して私のデスクトップPC上の寄木張りファイルも使用しましたが、寄木張りパーティション(XXX = yyyディレクトリ)のNULL値を取得しました。 この問題を実験した人は誰ですか(よりよく解決されます) ありがとう –