bigdata

    2

    1答えて

    非常に複雑なApache PySparkパイプラインがあり、非常に大きなセットのテキストファイルに対していくつかの変換を行います。私のパイプラインの意図された出力は、パイプラインの異なる段階です。どのような方法が最適です(より効率的ですが、より多くのスパークリングという意味で:Sparkのプログラミングモデルとスタイルに合っています)これを行うには? 今、私のコードは次のようになります。 # in

    0

    1答えて

    私は、REST API(Flask)がspark-sumbitを使用して、稼働中のpysparkにジョブを送信するシステムを持っています。 さまざまな理由から、すべてのタスクを同時に実行する必要があります(つまり、エグゼキュータの数=実行時のタスクの数を設定する必要があります)。 たとえば、タスクが20個でコアが4個の場合、各コアで5個のタスク(executor)を実行し、sparkを再起動する必

    -2

    1答えて

    私は大きなデータ技術に慣れていないし、従来のアプリケーション開発に関連する好奇心を持っています。 ウェブアプリケーションを開発する従来の方法は、ホスティングサーバー(またはアプリケーションサーバー)とデータを管理するデータベースを持つことです。 しかし、ウェブサイトで生成された巨大なデータセット(つまり、GB /秒)がある場合、ウェブサイトは大きなデータを管理するカテゴリに分類されます。 私は、2

    0

    1答えて

    ファイルをポーリングし、あらかじめ定義された間隔でそのファイルを読み込むことから得られるかなり大きな反応データセットがあります。データは頻繁に更新され、一定のリロードが必要です。確かに、リロードは段階的に行われ、Rの既存のオブジェクトに追加される可能性がありますが、そうではありません。しかし、現在のところ、このアクションは、光沢のあるアプリケーションの各ユーザーに対して行われますが、セッション間で

    0

    1答えて

    Sparkジョブの場合、入力と出力はすべてHDFSになります。しかし、Sparkジョブの実行中に、ローカルファイルシステムに書き込むか、ローカルファイルシステムから読み込む必要があるものがあるのでしょうか?

    -1

    2答えて

    私はインフォマティカのPowerCenterでソーターの形質転換のためのセッションログのキャッシュ創出のための警告の下に直面しています **セッションログで警告。* ソーター変換[HIGHYIELDSPRDDELTA]必要な2パスソート(1パスの一時I/O:23224320バイト)。 1パスメモリ内ソートの場合、キャッシュサイズを に設定すると、30 MB以上になることがあります。 Web上 、人

    0

    3答えて

    巨大なデータセットを処理するために設計されたツールやアーキテクチャのリアルタイム処理を使用する方法について話している人々のビデオを読んで見ているのに多くの時間を費やしました。また、Hadoop/Cassandra/Kafkaなどのツールが何をしているのか理解しているうちに、データがこれらの大規模な処理ツールからどのようにクライアント/ Webページ上に何かをレンダリングする方法を説明するようには思

    2

    1答えて

    ハイブでビューを作成しましたが、これは複雑なクエリです(結合、結合などがあります)。 DFでクエリを実行しているときに、Catalyst &タングステンが機能するのですか、それとも100%のハイブですか? 私が尋ねようとしているのは、ビューが実行されているクエリを取得してから、スパークSQLを使用してクエリを実行することができますか?Catalyst &タングステンの改良? 例: sqlConte