rdd

1熱

1答えて

JavaSparkContext.wholeTextFilesのDataset-APIアナログ

JavaSparkContext.wholeTextFilesと呼び、JavaPairRDD<String, String>を取得できます。最初の文字列はファイル名で、2番目の文字列はファイル全体の内容です。データセットAPIにも同様のメソッドがありますか、またはファイルをJavaPairRDDにロードしてからデータセットに変換するだけです（動作していますが、非RDDソリューションを探しています）

0熱

1答えて

私のRDDの要素のすべてのカップルで機能を実行してください

私は一般的な方法で問題を調べようとします。私はこの myFunction (Object first, Object second) のような機能を持っていると私は、オブジェクトRDD [Object]のRDDを持っています。私は、私は私のオブジェクトのすべてのカップルがMyFunctionを（.. ..）一つの方法で実行されていることを確認する必要がプロセスの最後に、すべてのRDDの要

0熱

1答えて

pyspark MlLib：行の列の値を除外します

データフレームからLabeledPointのRDDを作成しようとしていますので、後でMlLibに使用できます。 my_targetの列がsparkDFの最初の列の場合、以下のコードは正常に動作します。ただし、my_target列が最初の列でない場合は、my_targetを除外して正しいLabeledPointを作成するために、以下のコードを変更するにはどうすればよいですか？ある import py

0熱

1答えて

spark/scalaのJavaRDD [org.apache.spark.sql.Row]のマッピングに使用できる関数を作成する方法は？

val drdd = Seq(("a", 1), ("b", 2), ("a", 3)).toDF("name", "value").toJavaRDD drdd.map{ (row: Row) => row.get(0) } 私は渡された匿名関数は、行=>どれそれが期待されている間org.apache.spark.api.java.function.Function [org.apache

0熱

1答えて

pyspark RDD to DataFrame

私はSparkを初めて使用しています。 (326033430, [Row(userid=326033430, poiid=u'114233866', _mt_datetime=u'2017-06-01 14:54:48', outmoney=1127.0, partner=2, paytype=u'157', locationcity=u'\u6f4d\u574a', locationprovin

0熱

1答えて

Sparkのリソース使用に関する疑問

私はSpark Streamingアプリケーションを実行していますが、履歴のルックバックのためにrddをキャッシュしています。バッチは1分、平均処理時間は14秒です。したがって、エグゼキュータは全体を計算しませんバッチ持続時間。私はメモリ内のrddをキャッシュしているので、エグゼキュータもそうです。また、エグゼクティブが黙っている場合、エグゼクティブの抱擁はリソースの浪費であると考えてください。

0熱

1答えて

PipelinedRDDをデータフレームに変換する

pysparkのpipelinedRDDをデータフレームに変換しようとしています。これは、コードスニペットです： newRDD = rdd.map(lambda row: Row(row.__fields__ + ["tag"])(row + (tagScripts(row),))) df = newRDD.toDF() 私もコードを実行すると、私はこのエラーが表示されます。 'list' obj

0熱

1答えて

PythonのペアRDDから値を取得

値のペアをRDDから取得する方法：[('key', (value1, value2))]。

1熱

1答えて

pyspark - カスタム区切り文字を含むファイルをRDDに読み込みますか？

私はpysparkの初心者です.RDDの行を1行に読み込んでマージしようとしています。私は、次のテキストファイル持っていると仮定すると：今 A1 B1 C1 A2 B2 C2 D3 A3 X1 YY1 DELIMITER_ROW Z1 B1 C1 Z4 X2 V2 XC2 D3 DELIMITER_ROW T1 R1 M2 MB2 NC2 S3 BB1 AQ3 Q1 P1"