私は以下のようにS3にデータフレームと格納を作成pysparkジョブ実行しているよアテナ

df.write.saveAsTable(table_name, format="orc", mode="overwrite", path=s3_path)

を私はちょうどspark.read.orc(s3_path)を使用することにより、問題なくorcfileを読んで、そうありますすることができますorcファイル内のスキーマ情報。

しかし、私は本当にAthenaを使ってデータフレームの内容を見たいと思います。明らかに、私がハイブ・メタストアに書き込んだのであれば、ハイブを呼び出してshow create table ${table_name}を実行することができますが、それは単純なスキーマだけで十分です。

別の方法がありますか？

2017-10-06 rongenre

AWS Glue Data Catalogにテーブルを作成するS3パスにGlue crawlerを設定する方法があります。あるいは、Glue APIを介してGlueテーブル定義を作成することもできます。

AWSグルーデータカタログはアテナと完全に統合されているので、あなたはアテナであなたの接着剤の表を参照してください、そしてそれを直接照会することができるだろう： http://docs.aws.amazon.com/athena/latest/ug/glue-athena.html

2017-10-06 20:29:02

答えて