bigdata

    -1

    1答えて

    InsertおよびDeleteは、ファイルのサイズを変更して、ファイルの途中でデータを追加および削除する操作です。 通常のテキストエディタ(メモ帳、vim、emacsなど)で編集された小さなテキストファイルの場合、テキストファイル全体がアトミック操作で書き換えられます。具体的には、ファイルの末尾ではなく一部のコンテンツをテキストファイルに挿入したり削除したりすると、まず、ファイルの先頭からデータの

    -2

    1答えて

    こんにちは私はナイーブベイズモデルを使って病気の分類に取り組んでいます。 症状とともに症状を持つCSVファイルがあります。 CSV形式: 症状-1症状-2症状-3病気 naiveベイズモデルにこのCSVを提供し、症状に基づいて病気を分類する方法 CSVを読み、NaïveBayesモデルに提供する標準コードはありますかクラスを実行する 私はスパークマシン学習ライブラリを使用してこれを行う。 CODE

    0

    2答えて

    ハーフ・ワード・カウントのhello worldプログラムを拡張して、入力ファイルの文字数を数えられるようにしたい。 私はこれまでこれを書いており、私はこのコードの何が間違っているのか理解できません。問題を特定するための助けに感謝します。 A = load '/tmp/alice.txt'; B = foreach A generate flatten(TOKENIZE((chararray)$

    0

    1答えて

    これまでに見たことのないPythonの奇妙な動作が発生しました。 私は、次のコードを実行しています: from __future__ import print_function, division import itertools import sys R1_file = sys.argv[1] R2_file = sys.argv[2] out_stats = sys.argv[3]

    0

    1答えて

    TL; DR:私のsparkアプリがKafkaから送信された合計メッセージの0.1%を摂取しています。 私の主な疑惑:各バッチ間隔(この例では1秒)ごとに、新しいJVMがインスタンス化されます。遅延ロードされた.map()変換を使用してデータを取り込みしようとしています。ドライバ&実行者コードが相互に網羅的である可能性がありますか? 詳細ロングバージョン:次のように マイイベント・フローは次のとお

    -2

    1答えて

    ハイブのパーティションに最適なユースケースは何ですか?私の場合は、日付と論理的にデータを分割し、最適なパーティションタイプは何ですか? これで助けてください。

    0

    1答えて

    私はAWSに中央データストアを持っています。私はそのデータベースの複数のテーブルにアクセスし、それらのデータの収集についてパターンと予測を見つけたいと考えました。 私のテーブルには、コールの詳細、マーケティング・キャンペーンの詳細など、人々の連絡先情報などのいくつかのトランザクションデータを持っている関係を見つけるために、ビッグデータ分析のためにすべてのデータを統合し、 効率的にそれらを格納する方

    0

    4答えて

    Hadoopを1つのマスタと1つのスレーブが異なるノードとして完全分散モードで設定しようとしています。マスターとスレーブノードの状態を示すスクリーンショットを添付しました。マスターで : Ubuntuの@のHadoopのマスター:は/ usr/local/Hadoopのの/ etc/Hadoopの$の$のHADOOP_HOME/binに/ HDFS dfsadmin -refreshNodes r

    1

    1答えて

    基本的に私はHDFSにファイルをアップロードするプログラムを持っています。ファイルは、タスクの実行の終了時にアップロードされます。それで、何が起こるのかということは、(実行終了時に)同時にHDFSにファイルをアップロードし、競合を引き起こす多くのタスクが同時に発生するということです。ファイルサイズはHDFSブロック(< 64 MB)未満です。 HDFSファイルをあらかじめ作成するほうが速いのですが

    0

    1答えて

    私はhbase(v-1.2.1)にテーブルを持っており、その上にいくつかの機械学習技術を適用したいと思います。したがって、テーブルフォームhbaseをpandasデータフレームにロードしたいと思います。 hbase(main):006:0> list TABLE cust_sms 1 row(s) in 0.0120 seconds => ["cust_sms