ように、以下に示すデータベースのテーブルがある場合: RDDからインデックスを使用して、スパークにおけるHadoopのデータベース・テーブルをスキャン
Key2 DateTimeAge AAA1 XXX XXX XXX AAA2 XXX XXX XXX AAA3 XXX XXX XXX AAA4 XXX XXX XXX AAA5 XXX XXX XXX AAA6 XXX XXX XXX AAA7 XXX XXX XXX AAA8 XXX XXX XXX BBB1 XXX XXX XXX BBB2 XXX XXX XXX BBB3 XXX XXX XXX BBB4 XXX XXX XXX BBB5 XXX XXX XXX CCC1 XXX XXX XXX CCC2 XXX XXX XXX CCC3 XXX XXX XXX CCC4 XXX XXX XXX CCC5 XXX XXX XXX CCC6 XXX XXX XXX CCC7 XXX XXX XXX DDD1 XXX XXX XXX DDD2 XXX XXX XXX DDD3 XXX XXX XXX DDD4 XXX XXX XXX DDD5 XXX XXX XXX DDD6 XXX XXX XXX DDD7 XXX XXX XXX
私は2番目のテーブルを持っている、AAAため
1 AAA 2 DDD 3 CCC
として与えられたが、DDDとCCCがtable2にあるので、私はtable1からこれらの3つの値に対応するすべての行をスキャンしたい、すなわちAAA1-AAA8、DDD1 -DDD7およびCCC1-CCC7を取得したい。 テーブル1はHadoopデータベーステーブルで、数百万の行があります。私はtable1から取得する行だけをスキャンしたい。 これを行う有効な方法を教えてもらえますか?私はRDDとしてtable1を持っており、table2はHBaseにあります。
@Pushkrこれをご覧ください。 –
spbaseでhbaseテーブルのスキャンを行うには、https://github.com/Huawei-Spark/Spark-SQL-on-HBaseのようなsparkとhbaseコネクタが必要です。 – Pushkr