のスキーマを読んでいません。私は次のことを実行するとHiveContextがOrcfile
val df1 = sqlContext.read.format("orc").load(myPath)
df1.columns.map(m => println(m))
などの実名とは対照的に、列が「_col0」、「_col1」、「_col2」などと印刷されています'empno'、 'name'、 'deptno'。
ハイブで「mytableを記述しているとき」は列名を正しく表示しますが、「orcfiledump」を実行すると_col0、_col1、_col2も表示されます。私は 'スキーマを読んでいる'か何かを指定する必要がありますか?はいの場合、Spark/Scalaでどのようにすればいいですか?
hive --orcfiledump /apps/hive/warehouse/mydb.db/mytable1
.....
fieldNames: "_col0"
fieldNames: "_col1"
fieldNames: "_col2"
注:次のように私は、テーブルを作成しました:
create table mydb.mytable1 (empno int, name VARCHAR(20), deptno int) stored as orc;
注:答えが「ハイブ」を使用するように私に語ったので、これは、この問題(Hadoop ORC file - How it works - How to fetch metadata)の複製ではありません&私はすでに午前次のようにHiveContextを使用する:
val sqlContext = new org.apache.spark.sql.hive.HiveContext(sc)
をちなみに、私は次のものが含ま私自身のハイブ-site.xmlのを、使用しています:
<configuration>
<property>
<name>hive.metastore.uris</name>
<value>thrift://sandbox.hortonworks.com:9083</value>
</property>
</configuration>
[HadoopのORCファイルの可能な複製 - どのように動作するのか - メタデータを取得する方法](http://stackoverflow.com/questions/30094604/hadoop- – zero323
私はこれをすでに読んでいますが、 "HiveやHCatalogを使用して作成、読み込み...."と書かれています。しかし、私はHiveContextを使って読み込みます。では、この答えはどのように私を助けますか?説明してください。 – DilTeam
スキーマはメタストアに格納されているため、両方の操作で同じメタストアを使用しないことを意味します。 – zero323