bigdata

    1

    1答えて

    私は自分のプロジェクト(Java)でテストするためにcassandraユニットを使用していますが、問題はあります:テストデータの読み込みにはかなりの時間がかかります(〜25 000プレーンインサートの場合100秒)。 私はいくつかのアイデアを持っているが、それらはカサンドラユニットのための実現可能であるように思えません:CSV からバックアップ準備したデータフォルダをデータをコピーし、それを与える

    1

    1答えて

    私は現在、私はリレーを使用して枠組みを反応させるのフロントエンドからクエリを作成するための中間体としてAPIエンドポイントを作成するためのloopbackjsを使用して、そしてgraphQLよ。 は今、私はユーザーがプロジェクト(作成日、名前などのような非常に一般的な情報を持っているプロジェクト)のリストを表示することができ、アプリケーションを持っています。このプロジェクトのリストは非常に大きくな

    0

    1答えて

    私のHBaseテーブルは、4つの異なる要素(K1:DateTime、K2:Int、K3:String、K4:Double)を組み合わせたキーでアクセスする必要があるとします。これのための鍵を構築するベストプラクティスは何ですか?私は特に可変長データ型(文字列)について心配しています。 現在、私は文字列にバイト長を追加しているので、キーバイトから各要素を解析することができます。私は、文字列の長さが一

    2

    1答えて

    GAS APIを学習して使用して、データベース上のランダムウォークを実装し、訪問された各頂点を開始頂点に関連付けようとしています。 私はこれをどうやって管理できるか理解しているいくつかの問題があります。私は、PATHS、BFS、PR、および他のGASクラスを例としてレビューしてきましたが、私はどのように起動するかについてはあまりよく分かりません。 私の実装はBaseGASProgramに拡張し、必

    1

    1答えて

    documentation of the Dask package for dataframesは言う: DASKのデータフレームを見て、パンダのデータフレームのように感じるが、複数のスレッドを使用してメモリよりも大きな データセット上で動作します。 しかし、その後同じページに: 一つDASKのデータフレームは、インデックスに沿って分離いくつかのインメモリパンダのデータフレーム で構成されています

    1

    1答えて

    フェニックスクエリのHBaseで行キーとして変換されている方法:私はちょうど2つのカラムを持つが午前のHBaseで CREATE TABLE STORE.DETAILS (Market UNSIGNED_INT NOT NULL, Product UNSIGNED_INT NOT NULL, Period UNSIGNED_INT NOT NULL, Units double CONSTRAINT

    0

    2答えて

    私は複数のcsvファイルを持っており、それらをCDHテーブルにインポートしたいと思います。私はファイルからデータをインポートするためのsqoopのようなツールがあるかどうかを知りたい。自動的に行う方法やツールはありますか?

    0

    1答えて

    特定のRDDは、例えばスパークに作成されます。 lines = sc.textFile("README.md") そして変換は、このRDDに呼び出されます。 pythonLines = lines.filter(lambda line: "Python" in line) あなたは、この上のアクションを呼び出す場合変換されたフィルタRDD(pythonlines.firstなど)an RD

    2

    1答えて

    コンピュータのメモリに収まらない要素の集合を持つ非常に大きな配列があるとします。 Pythonでこの配列の平均値、中央値、標準偏差、およびその他の要約統計値をどのように計算しますか? 平均値を計算する数学を漸進的に説明し、リストやイテレータオブジェクトをとるPython関数も提供していますが、必ずしもイテレータオブジェクトにアクセスできない場合があるため、 collections.Counterと

    4

    1答えて

    私は特に、この記事で言及columnSimilarities()関数を関数columnSimilarities()、computeColumnSummaryStatistics() を使用しようとしています: https://databricks.com/blog/2014/10/20/efficient-similarity-algorithm-now-in-spark-twitter.html