rdd

    1

    1答えて

    JavaSparkContext.wholeTextFilesと呼び、JavaPairRDD<String, String>を取得できます。最初の文字列はファイル名で、2番目の文字列はファイル全体の内容です。データセットAPIにも同様のメソッドがありますか、またはファイルをJavaPairRDDにロードしてからデータセットに変換するだけです(動作していますが、非RDDソリューションを探しています)

    0

    1答えて

    私は一般的な方法で問題を調べようとします。 私はこの myFunction (Object first, Object second) のような機能を持っていると私は、オブジェクトRDD [Object]のRDDを持っています。 私は、私は私のオブジェクトのすべてのカップルがMyFunctionを(.. ..) 一つの方法で実行されていることを確認する必要がプロセスの最後に、すべてのRDDの要

    0

    1答えて

    データフレームからLabeledPointのRDDを作成しようとしていますので、後でMlLibに使用できます。 my_targetの列がsparkDFの最初の列の場合、以下のコードは正常に動作します。ただし、my_target列が最初の列でない場合は、my_targetを除外して正しいLabeledPointを作成するために、以下のコードを変更するにはどうすればよいですか?ある import py

    0

    1答えて

    val drdd = Seq(("a", 1), ("b", 2), ("a", 3)).toDF("name", "value").toJavaRDD drdd.map{ (row: Row) => row.get(0) } 私は渡された匿名関数は、行=>どれそれが期待されている間org.apache.spark.api.java.function.Function [org.apache

    0

    1答えて

    私はSparkを初めて使用しています。 (326033430, [Row(userid=326033430, poiid=u'114233866', _mt_datetime=u'2017-06-01 14:54:48', outmoney=1127.0, partner=2, paytype=u'157', locationcity=u'\u6f4d\u574a', locationprovin

    0

    1答えて

    私はSpark Streamingアプリケーションを実行していますが、履歴のルックバックのためにrddをキャッシュしています。バッチは1分、平均処理時間は14秒です。したがって、エグゼキュータは全体を計算しませんバッチ持続時間。私はメモリ内のrddをキャッシュしているので、エグゼキュータもそうです。また、エグゼクティブが黙っている場合、エグゼクティブの抱擁はリソースの浪費であると考えてください。

    0

    1答えて

    pysparkのpipelinedRDDをデータフレームに変換しようとしています。これは、コードスニペットです: newRDD = rdd.map(lambda row: Row(row.__fields__ + ["tag"])(row + (tagScripts(row),))) df = newRDD.toDF() 私もコードを実行すると、私はこのエラーが表示されます。 'list' obj

    0

    1答えて

    値のペアをRDDから取得する方法:[('key', (value1, value2))]。

    1

    1答えて

    私はpysparkの初心者です.RDDの行を1行に読み込んでマージしようとしています。 私は、次のテキストファイル持っていると仮定すると:今 A1 B1 C1 A2 B2 C2 D3 A3 X1 YY1 DELIMITER_ROW Z1 B1 C1 Z4 X2 V2 XC2 D3 DELIMITER_ROW T1 R1 M2 MB2 NC2 S3 BB1 AQ3 Q1 P1"