bigdata

    0

    2答えて

    私は999,000レコードのリストデータを持っています。 データを取得するためにselectクエリとwhileループがあります。array_pushを使用して、取得した値を1つの配列にループで追加します。 そして、すべてのループがこの配列の1000個の値を処理するようにします。 ビッグデータと使用array_pushが、私はエラーを取得するときに私の問題がある: Fatal Error: Allo

    -1

    1答えて

    コマンドプロンプトで次のコマンドを実行すると、JavaのHDFSディレクトリの行数をカウントする方法はありますか? hadoop fs -cat /abc/def/* | wc -l 特にmap-reduceまたはsparkコードを書く代わりにHADOOP APIを使用します。このような

    -1

    2答えて

    多くのJson-Files(平均50ファイル、すべてのファイルの平均ファイルサイズが9MB)を評価するアルゴリズムを作成しました。この評価は138回繰り返します。 最初に、大きな500mbのjsonfileにデータが書き込まれ、その後、小さなファイルに分割されてデータが処理されます。私はJSON.NETを使っています。 ファイルの読み込みに時間がかかりませんが、ファイルをJObjectに解析するに

    0

    2答えて

    xlsxファイル300GBを読む必要があります。行数〜10^9。私は1つの列から値を取得する必要があります。ファイルは8列で構成されています。私はできるだけ早くそれをやりたい。 from openpyxl import load_workbook import datetime wb = load_workbook(filename="C:\Users\Predator\Downloads\l

    -1

    1答えて

    amazon Webサービスを使用して、次の4つのノードで構成されるクラスタを作成しました。 - 1つのノードをマスターノード(RAM 1GB、CPU 1コア、HDD 8 GB) - スレーブノードと各ノードの仕様として (RAM 2GB、CPU 2コア、HDD 8 GB) 私の質問: - このクラスタを正しく設定するにはどうしたらいいですか? - 同時に動作できるコンテナの数はいくつですか? あ

    0

    1答えて

    select文の "WITH"句を使用してHive Viewクエリをコンパイルするとエラーが発生します。これは私が作成しようと、私はエラーが発生した create view test_view as( with data_set as (select * from test_data) select * from data_set ) ; エラー - エラー文のコンパイル中:FAILED

    0

    1答えて

    FlinkのDataStream APIを使用してMisraGriesアルゴリズムを実装しています。 kカウンタに増分または減分のデータサマリを記録させます。 DataStream APIを使用してアルゴリズムを実装する場合、このようなカウンタを格納する最良の方法は何ですか?今私はオペレータの変数HashMapを宣言しました。これは正しいアプローチですか、あるいは私は州のようないくつかの他の機能を

    0

    1答えて

    Rでサイズが約1300000 * 10000(約50 GB)のビッグマトリックス(データフレーム)を生成します。この行列を適切な形式で保存したいので、後でPythonや他のプログラムコードにデータを入力して解析を行うことができます。もちろん、私はデータを一度に送ることができないので、マトリックスを部分集合し、少しずつフィードしなければなりません。 しかし、行列の格納方法はわかりません。私は2つの方

    1

    1答えて

    私の質問にいくつかの背景があります。 あなたはここで見ることができるように:例として、このトポロジを使用してHDFS Sqoop カフカ にデータをロードするために2 "扉" をあります https://medium.com/airbnb-engineering/data-infrastructure-at-airbnb-8adfb34f169c FTPサーバー情報HDFSでホストされているバッチ

    0

    2答えて

    私はHadoopのPIGへの新たなんだと私はこのようになりますデータセットがあります。私は、各地域のスコアの合計を計算したい region_id region participation score 1 SSA YES 10 1 SSA NO 22 2 MONTPELIER YES 15 .... を。