partition

    7

    2答えて

    私は、ユーザクリックのような多くの追跡イベントを格納する巨大なテーブルを持っています。 テーブルはすでに数百万の10にあり、毎日大きくなっています。 大規模な時間枠からイベントを取得しようとするとクエリが遅くなり始め、対象をかなり読み込んだ後にテーブルを分割するとパフォーマンスが向上する可能性があることを理解しています。 私がやりたいことは、月ごとにテーブルを分割することです。 私は毎月手動でパー

    7

    1答えて

    Sparkで生成された分割された寄せ木馬ファイルを読み取る際に問題があります。私はハイブで外部テーブルを作成することができますが、いくつかの行を選択しようとすると、ハイブは行なしの「OK」メッセージのみを返します。 Sparkで分割された寄木細工のファイルを正しく読み取ることができるので、正しく生成されたと仮定しています。 パーティションなしでハイブで外部表を作成すると、これらのファイルを読み取る

    0

    1答えて

    私は現在、カッサンドラで世界中の顧客を扱う最善の方法について考えています。私はアメリカとヨーロッパにサーバーがあると仮定します。データが格納されているサーバーに影響を与えるメカニズムはありますか?米国のユーザーの場合、アメリカのサーバーでデータをホストし、ヨーロッパでは1つの安全なコピーのみをホストする必要があります。一般的に私は特定の場所として識別できるUUIDを考えていました。たとえば、最後の

    6

    1答えて

    私はテラを使用しています、私はこの ID String 123 Jim 123 John 123 Jane 321 Jill 321 Janine 321 Johan のようなテーブルを持っている私は、テーブルを照会したいので、私はパーティションを試してみましたが、多くがあることができ ID String 123 Jim, John, Jane 321 Ji

    1

    1答えて

    [0.0,1.0,2.0,3.0,4.0] 私は5つの数字と2つのグループを左右に持っています。 各番号には2つの選択肢があります。左右に移動できます。 リスト[0,1,2,3,4]のすべてのパーティショニングを2つの空でない部分に含むリストが必要です。たとえば、[([0]、[1,2,3,4])、([0,1]、[2,3,4])、...] (2^5 -2)/ 2パーティショニングの合計は問題ではなく

    2

    1答えて

    std::partitionは素晴らしいですが、インプレースです。 std::partition_copyもうまくいきますが、2つの出力イテレータが必要です。つまり、同じ出力配列を使用する場合は、少なくとも述語を満たす要素の数を事前に数えなければなりません。アウトオブプレイスstd::partition、または単一出力イテレータstd::partition_copyが、<algorithm>に存在

    0

    1答えて

    100,000ソース/センサー/シンボルがあります。それぞれから、私は毎日の価値観を読んだ。 これらの日次データ/値を使用してデータベーステーブルを読み込みます。 1つの値ANDシンボルあたり1行、1日あたり100,000行です。 Query1を:私は、年、月、週、日にデータベースを分割し、すべてのシンボルの上に毎日のデータを分析したいと 。 QUERY2: しかし、私はまた戻ってシンボル当たりの