Apache Drillは分割された寄せ集めファイルを読み取ることができません

私は、Azure BLOBストレージに、HD InsightのApache Sparkを使用した寄木張りファイル構造を作成しました。これは構造体である：Apache Drillは分割された寄せ集めファイルを読み取ることができません

/root 
     /sitename=www.site1.com 
     /datekey=20160101 
      log-01-file.parquet 
     /sitename=www.site2.com 
     /datekey=29160192

私たちは、この寄木細工の構造againtsクエリを実行するために、Apacheのドリルを使用したいが、我々はいくつかの問題を発見しました。

このクエリに

SELECT datekey FROM azure.root.`./root` WHERE sitename='www.mysite.com' GROUP BY datekey

を実行しているときに我々は、エラーの原因である可能性がありますどのような

"org.apache.drill.common.exceptions.UserRemoteException: SYSTEM ERROR: NumberFormatException: www.trovaprezzi.it Fragment 2:2"

このエラーが出ますか？

また、WHERE句を指定せずにクエリを実行すると、パーティションキーがNULL値として認識されるようです。

SELECT sitename, COUNT(*) as N FROM azure.root.`./root` GROUP BY sitename 

|sitename|N 
|NULL |100000|

誰もがこの問題を実験しましたか？本当にありがとうございます。

おかげロブ

2016-05-29 Roberto G.

HDInsightは、今日のドリルをサポートしていません。 Hive（Tez上）はまた、寄木張りの形式を活用できるはずです。多分あなたはその代わりにそれを試すことができますか？

2016-05-30 02:27:24

私の個人用ラップトップでドリルを使用しています。ドリルの文書では、私は紺碧のブロブストレージを見てきました。私の懸念は、私はDrillでsparkで作成されたパーティションを読み取ることができないということです。 –

親愛なる皆さん、amazon S3やローカルファイルシステムなどでsomethinkを似たような実験をしている人はいますか？ –

ローカルのドリルインスタンスを使用して私のデスクトップPC上の寄木張りファイルも使用しましたが、寄木張りパーティション（XXX = yyyディレクトリ）のNULL値を取得しました。この問題を実験した人は誰ですか（よりよく解決されます）ありがとう –

この記事の執筆時点では、ドリル1.6はこのように動作するようです。あなたが使用してディレクトリ構造をparition CALますDRILLを使用するどのようなパーティションスキーム

：DIR0、DIR1、etc.etcを...例えば

、私たちはホスト名と日付で当社のデータを分割ならば、我々は

を取得| dir0 | dir1 | ... | host1 | 20160101 | .... | host2 | 20160101 | ....

2016-07-14 09:50:13

答えて