2
ファイルからデータを集めてHDFSに集めます。 hbaseの特定のテーブルの値を持つデータからいくつかの詳細を追加する必要があります。地図上のスパーク行を呼び出す
が、私は例外を持っている:
org.apache.spark.SparkException: Task not serializable
at org.apache.spark.util.ClosureCleaner$.ensureSerializable(ClosureCleaner.scala:166)
at org.apache.spark.util.ClosureCleaner$.clean(ClosureCleaner.scala:158)
at org.apache.spark.SparkContext.clean(SparkContext.scala:1623)
at org.apache.spark.rdd.RDD.map(RDD.scala:286)
at org.apache.spark.api.java.JavaRDDLike$class.mapToPair(JavaRDDLike.scala:113)
at org.apache.spark.api.java.AbstractJavaRDDLike.mapToPair(JavaRDDLike.scala:46)
at ......
at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method)
at sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:62)
at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43)
at java.lang.reflect.Method.invoke(Method.java:497)
at org.apache.spark.deploy.SparkSubmit$.org$apache$spark$deploy$SparkSubmit$$runMain(SparkSubmit.scala:577)
at org.apache.spark.deploy.SparkSubmit$.doRunMain$1(SparkSubmit.scala:174)
at org.apache.spark.deploy.SparkSubmit$.submit(SparkSubmit.scala:197)
at org.apache.spark.deploy.SparkSubmit$.main(SparkSubmit.scala:112)
at org.apache.spark.deploy.SparkSubmit.main(SparkSubmit.scala)
Caused by: java.io.NotSerializableException: org.apache.hadoop.hbase.client.ConnectionManager$HConnectionImplementation
Serialization stack:
at org.apache.spark.serializer.SerializationDebugger$.improveException(SerializationDebugger.scala:38)
at org.apache.spark.serializer.JavaSerializationStream.writeObject(JavaSerializer.scala:47)
at org.apache.spark.serializer.JavaSerializerInstance.serialize(JavaSerializer.scala:80)
at org.apache.spark.util.ClosureCleaner$.ensureSerializable(ClosureCleaner.scala:164)
我々はmap関数の間のHBaseにアクセスしようとしたとき、私は、問題が発生したことを知っています。
私の質問は、hbaseテーブルに含まれている値で自分のRDDを完成させる方法です。例えば
:HDFS内 ファイルはCSVです:HBaseの中
Name;Number1;Number2
toto;1;2
は、我々は、名前TOTOへのデータ仲間を持っています。
私はNumber1とNumber2(もっとも簡単な部分)の合計を から取得し、テーブルのデータと集計する必要があります。 例:
還元剤のキーはtataで、hbaseテーブルのrowkey totoを取得することで取得できます。
提案がありますか?
私の答えを確認してください[類似の問題](http://stackoverflow.com/a/41759525/647053)のように見えます。 htableなどのようなものを移動する...閉鎖にその場合に修正されます –
マッピングの数は、基本的にデータのHbaseのキーの数はどのくらいですか? –
あなたの答えをありがとう、私はこのRam Ghadiyaramを試してみます。 テーブルには何百万ものキーがあり、各キーには何千ものカラムがあります – okitas