data-partitioning

    0

    1答えて

    私はTypedTipe[(String, String, Long)]を持っていますが、最初のStringは限られた数(〜10)しか取れません。私の出力を分割して、各タイプ(最初の文字列の名前を持つI.E. 10フォルダ)ごとにフォルダを作成するようにしたいと思います。これはHiveで実現するのは簡単ですが、私はScaldingでそれを行うエレガントな方法を見つけることができません。メソッドdef

    2

    1答えて

    FlinkにはカスタムパーティショニングAPIが付属しています。しかし、DataStreamでpartitionCustomを呼び出した後にDataStreamが返され、KeyedStreamではないという問題があります。 一方、KeyedStreamのパーティション戦略を上書きすることはできません。 DataStreamためのAPIがreduceとsum演算子を持っているため、自動的に仕切られた

    5

    2答えて

    ハッシングとインデックス付けは、あらかじめ定義された数式でデータを分割するために使用します。しかし、私は両者の主な違いを理解することができません。 ハッシングの場合と同様に、いくつかのキー値のペアに基づいてデータを分割しています。同様に、インデックス作成でも、あらかじめ定義された値でデータを分割しています。 ハッシングとインデックス作成の違いと、ハッシングやインデックス作成のどちらを使用するかを決

    1

    1答えて

    でデータパーティションの作成: inTrain<- createDataPartition(y=spam$type,p=0.75, list=FALSE) 注:データセットはspamという名前の変数を対象とされるがtype 命名されました私の質問は、y=spam$type引数を含める目的は何ですか? 訓練とテストの両方に必要な割合に基づいてデータセット全体を分割するだけの目的はありませんか?そ

    0

    2答えて

    2つの列を持つ日付パーティションテーブル(sample_tableと呼んでいます)が1つあり、日付時間をUTCで保存します。私はこのテーブルの上にビューを持っています(sample_viewと呼んでください)。このビューはテーブルから_partitiontimeを取り込み、partitionDateカラムとして表示します。また、別のカラムcustomerDateTimeがあり、timeTimeOf

    1

    2答えて

    私は完全にカーソルベースのセットからセットベースにコードを移動しています。これは私の頭の中で行われています。挿入された各社に6文字のショートコードデータベースと私は(カーソル)の外側でこれを達成するために(私が望む)。私はこれまでで午前どこの 例: CREATE TABLE #customers (name VARCHAR(50), shortname VARCHAR(10)) INSERT I

    6

    2答えて

    DataFrame repartition()とDataFrameWriter partitionBy()メソッドの違いは何ですか? 私は両方ともpartition data based on DF columnに使用されることを願っていますか?または何か違いがありますか?

    0

    1答えて

    DATE列を使用してデータベースをパーティション化しようとしていますが、MySQL 5.7でパーティション・プルーニングを利用しています。内部的な理由から、私はRANGE COLUMNSでパーティションを追加する必要があります。パーティションを追加/削除するのが簡単で速いからです。 the MySQL websiteは言うものの: オプティマイザもRANGE列またはリストの列分割を使用する表の複数

    3

    1答えて

    マニュアルから: ブートストラップサンプルの場合、単純なランダムサンプリングが使用されます。 他のデータ分割については、yが、 内のクラス分布の均衡をとるための要因である場合、y のレベル内でランダムサンプリングが行われます。数値Yの は、試料をパーセンタイル 及びサンプリングに基づくセクションがこれらのサブグループ内で行われるグループに分割されます。 createDataPartitionについ

    0

    1答えて

    私は整数の合計パーティションを持っており、すべての値が等しくないパーティションだけを必要とします。例えば、3のパーティションは{1,1,1,1}、{2,2}、{3,1}、{1,1,2}、{4}です。したがって、必要な不等分割は{3,1}と{4}です。なぜならそれらは等しい要素を含んでいないからです。 私はすべてのパーティションを見つけるために使用したコードを以下に示します。パーティションをフィルタ