HiveまたはPhoenixまたはHortonworksが提供するspark-Hbaseコネクタを使用せずに、Pyspark DataframesとしてHbaseテーブルを直接読み取ることはできますか?HBaseテーブルをpysparkデータフレームとして読むには?
私は比較的新しいHbaseで、HbaseテーブルをPysparkデータフレームに変換するPythonの直接の例は見つかりませんでした。私が見た例のほとんどはScalaかJavaのどちらかでした。
HiveまたはPhoenixまたはHortonworksが提供するspark-Hbaseコネクタを使用せずに、Pyspark DataframesとしてHbaseテーブルを直接読み取ることはできますか?HBaseテーブルをpysparkデータフレームとして読むには?
私は比較的新しいHbaseで、HbaseテーブルをPysparkデータフレームに変換するPythonの直接の例は見つかりませんでした。私が見た例のほとんどはScalaかJavaのどちらかでした。
フェニックス経由でHBaseに接続することができます。サンプルコードは次のようになりますphoenix-spark-4.7.0-HBase-1.1.jar
とphoenix-4.7.0-HBase-1.1-client.jar
:あなたが火花フェニックスコネクタのjarファイルを取得する必要があり
df=sqlContext.read.format('jdbc').options(driver="org.apache.phoenix.jdbc.PhoenixDriver",url='jdbc:phoenix:url:port:/hbase-unsecure',dbtable='table_name').load()
。ありがとうございました