bigdata

1熱

1答えて

大規模な販売を可能にするスケーラブルなデータストレージシステムを設計するにはどうすればよいですか？

システムはACIDの保証を提供する必要があります。データベースコースでこのプロジェクトに取り組まなければなりません。私はどこから始めるべきかわかりません。どんな助けも役に立つでしょう。

0熱

2答えて

誰もが！私はいくつか問題があります。私の仕事は： "トランザクションテーブルを取るには、取引日ごとにグループ化された行とステータスを計算します。この操作は、ページ上にレンダリングされる統計情報を形成します"。 10万下の取引行のカウント場合、これは、この統計情報生成 public static function getStatistics(Website $website = null)

1熱

1答えて

この資料の保管方法は？

データセットは、このようなものです：それはメモリ内に収まらないので、（サイズの39861 X 39861は、私が推測する）私たちが行列にそれを格納するをしないことをお勧めします 39861 // number of documents 28102 // number of words of the vocabulary (another file) 3710420 // number of n

0熱

1答えて

Apache Kylin - "Timeout visit cube"と他の奇妙さ

MapR配布でKylinをインストールしましたが、事柄はまでうまくいくようです。私はsample.shスクリプトを実行しました。今は "learning_kylin"プロジェクトがあり、キューブ上で "build"を実行でき、ジョブの成功率は100％完了しました。しかし、この後、ディスプレイには0.0 バイトのキューブが常に表示されます。ドキュメントからサンプルクエリを実行すると、「キュー

1熱

2答えて

HDFSファイルのための相互排他書き込み？

私のプログラムでは、タスクはHDFSファイルに追加されます。しかし、私は2つのタスクが同時にファイルを追加することは望ましくありません。私はHDFSファイルに追加するタスクが1つしかないというメカニズムがありますか？基本的にmutexの仕組みです。ファイルを作成するときには、そのようなmutexも必要です。

1熱

1答えて

BigQueryで週ごとに細かく分解するベストな方法

私が探しているのは、週に何社の売上があったかを示すレポートを作成することです。だから我々は時間フィールドは、次のようになりますが作成と呼ばれている：販売が行われるとき、このフィールドが表す 2016年4月6日20時58分06秒UTC 。ここでは、週単位で販売した売り上げの数を示すレポートを作成するとします。だから、上記の例は、 "Week of 2016-04-03"のようなものになるでしょう

0熱

1答えて

ハイブの増分アップデート

ソースMySqlテーブルがあります。分析目的のために日付をHiveにエクスポートする必要があります。当初は、MySQLのデータサイズが少なかったため、MysqlデータをHiveにエクスポートすることはSqoopを使用することで問題にはなりませんでした。私のデータサイズが増えたので、MySqlデータの増分更新をどのようにしてハイブにすることができますか？

0熱

1答えて

> 100 mioで大きなデータプロジェクトに使用するデータモデルを選択します。アイテム

私は、価格、タイトル、売り手など、さまざまなオンライン売り手から大量の商品情報が収集される大規模なデータプロジェクトに取り組んでいます（1アイテムあたり30以上のデータポイント）。 Webアプリケーションまたはウィジェットで特定の製品の最新のデータポイントは、履歴データを分析ディスプレイ、例えば一般に、プロジェクトの2ユースケースがあります価格履歴、製品のクラスタリング、意味解析などに私は

1熱

1答えて

ハーフープ（シングルおよびマルチ）ノード、spark-masterおよびspark-workerとは何ですか？

私は次の用語を理解したい：私はこれまで理解することは、スパークマスターである Hadoopの（単一ノードおよびマルチノード）スパークマスタースパークワーカー名前ノードデータノードがジョブエグゼキュータですすべてのスパーク作業員を処理します。 hadoopはhdfs（私たちのデータが格納されている場所）であり、spark作業者が与えられた仕事に賛成するデータを読み込む場所です。私が間違って

1熱

2答えて

入力分割とハブロックのブロック

ファイルサイズが100 MBで、デフォルトのブロックサイズが64 MBだとします。入力分割サイズを設定しないと、デフォルトの分割サイズはブロックサイズになります。現在、分割サイズも64 MBです。この100 MBファイルをHDFSに読み込むと、100 MBファイルは2つのブロックに分割されます。すなわち、64MBおよび36MBである。例えば、以下は100MBの詩の歌詞です。このデータをHDFSに