2016-05-29 5 views
0

私は、Azure BLOBストレージに、HD InsightのApache Sparkを使用した寄木張りファイル構造を作成しました。 これは構造体である:Apache Drillは分割された寄せ集めファイルを読み取ることができません

/root 
     /sitename=www.site1.com 
     /datekey=20160101 
      log-01-file.parquet 
     /sitename=www.site2.com 
     /datekey=29160192 

私たちは、この寄木細工の構造againtsクエリを実行するために、Apacheのドリルを使用したいが、我々はいくつかの問題を発見しました。

このクエリに

SELECT datekey FROM azure.root.`./root` WHERE sitename='www.mysite.com' GROUP BY datekey 

を実行しているときに我々は、エラーの原因である可能性がありますどのような

"org.apache.drill.common.exceptions.UserRemoteException: SYSTEM ERROR: NumberFormatException: www.trovaprezzi.it Fragment 2:2" 

このエラーが出ますか?

また、WHERE句を指定せずにクエリを実行すると、パーティションキーがNULL値として認識されるようです。

SELECT sitename, COUNT(*) as N FROM azure.root.`./root` GROUP BY sitename 

|sitename|N 
|NULL |100000| 

誰もがこの問題を実験しましたか? 本当にありがとうございます。

おかげ ロブ

答えて

0

HDInsightは、今日のドリルをサポートしていません。 Hive(Tez上)はまた、寄木張りの形式を活用できるはずです。多分あなたはその代わりにそれを試すことができますか?

+0

私の個人用ラップトップでドリルを使用しています。ドリルの文書では、私は紺碧のブロブストレージを見てきました。私の懸念は、私はDrillでsparkで作成されたパーティションを読み取ることができないということです。 –

+0

親愛なる皆さん、amazon S3やローカルファイルシステムなどでsomethinkを似たような実験をしている人はいますか? –

+0

ローカルのドリルインスタンスを使用して私のデスクトップPC上の寄木張りファイルも使用しましたが、寄木張りパーティション(XXX = yyyディレクトリ)のNULL値を取得しました。 この問題を実験した人は誰ですか(よりよく解決されます) ありがとう –

0

この記事の執筆時点では、ドリル1.6はこのように動作するようです。あなたが使用してディレクトリ構造をparition CALますDRILLを使用するどのようなパーティションスキーム

:DIR0、DIR1、etc.etcを...例えば

、私たちはホスト名と日付で当社のデータを分割ならば、我々は

を取得| dir0 | dir1 | ... | host1 | 20160101 | .... | host2 | 20160101 | ....

関連する問題