bigdata

6熱

1答えて

私のデータ（通常は30Gb〜60Gb）が大きすぎてコンピュータのメモリに収まらないため、memmapfileを使用することに決めました。私のデータファイルは、2つのセンサーの出力に対応する2つのデータ列で構成されています。これらのデータファイルは.binと.txtの両方の形式です。 m=memmapfile('G:\E-Stress Research\Data\2013-12-18\LD101_

5熱

2答えて

c3.2xlargeインスタンスからなる1つの以上減速

WRT 3ノードクラスタを強制的にハイブクエリを変更します。私は2つのテーブルを持っています。表Uには約6500万レコードがあり、緯度と経度のフィールドにはが含まれています。表Lには約1百万件のレコードがあり、緯度と経度も含まれています。 UはORCテーブルとして格納されます。タスクビット3960 * acos(cos(radians(l.lat)) * cos(radians(u.lat

8熱

1答えて

Hiveに文字列データ型の最大サイズはありますか？

Googleはどこでもそれを見つけられませんでした。それとも、Hiveがクラスタが許可されている限り、任意の大きな文字列データ型をサポートできるということですか？もしそうなら、私のクラスターがサポートできる文字列データ型の最大サイズはどこですか？ありがとうございます！

13熱

1答えて

Flinkストリーミング：データに応じて1つのデータストリームを異なる出力に出力する方法は？

Apache Flinkでは、私はタプルのストリームを持っています。本当に単純なものと仮定しましょうTuple1<String>タプルは、値フィールドに任意の値（たとえば、 'P1'、 'P2'など）を持つことができます。可能な値のセットは有限ですが、私は事前にフルセットを知りません（したがって、 'P362'がある可能性があります）。タプルの内部の値に応じて、特定の出力場所にそのタプルを書きたい

5熱

2答えて

Azure Webアプリケーションの4分のタイムアウト

私のプロジェクトはASP.NET MVC 4プロジェクトです。 Azureでホストするとlocalhostで正常に動作します 4分以上かかるajax呼び出しでタイムアウトが発生します。私はサーバで何をしているのかは問題ではないので、問題は紺碧にあると確信しています。でも設定します。Thread.sleep(300000)タイムアウトが発生しました。私が読んで：長い期間のためにアクティブな接続

5熱

1答えて

Apache Sparkで時系列データベース（TSDB）を実行できますか？

私は大きなデータとApache Sparkについて学び始めており、疑問があります。将来的にはIoTからデータを収集する必要があり、このデータはtime series dataとして私に届きます。私は実際にはApacheのスパークを必要とするので、私は知りたい私は、時系列データベースについて読んでいた（TSDB）と私はなどアトラス、KairosDB、OpenTSDB、のようないくつかのオープンソ

5熱

2答えて

スパークストリーミングアプリケーションを再デプロイするためのチェックポイントの設定方法は？

私はSparkストリーミングを使用して一意のユーザーを数えます。私はupdateStateByKeyを使用しているので、チェックポイントディレクトリを設定する必要があります。アプリケーションを起動している間、私はまたthe example in the docとして、チェックポイントからのデータをロード：私のコードが変更された場合ここで // Function to create and setu

21熱

2答えて

Sparkは、RDD自体がそれ以上使用されないことを認識すると、それを理解しませんか？

RDDを複数回使用する場合、RDDをメモリおよび/またはディスクに保存することができます。しかし、私たちは後でそれを理解しなくてはいけませんか、あるいはSparkは何らかのガベージコレクションを行い、不要になったときにRDDをunpersistしますか？私は、自分自身がアンパッショニスト機能を自分自身と呼んでいると、パフォーマンスが遅くなることに気付きます。

10熱

2答えて

大きなデータ統合テストのベストプラクティス

私は、さまざまな方法でHbaseから読み書きするKafka、storm、spark（ストリーミングとバッチ）を使用しているAWSベースのデータ処理パイプラインのベストプラクティスについていくつかのリソースを探しています。マイクロ・サービスを使用してデータ・レイヤーを公開します。私のローカルenvでは、私はenvとやりとりすることを可能にするドッカーやぼかし画像の作成を考えています。私の問題は、環境

5熱

3答えて

ハイブクエリを保存する

私はコマンドラインで書いたクエリを、私たちがsqlで行ったのと同じように（私たちはSQLサーバでctrl + Sを使う）知っている必要があります。ヒアリングされたハイブリーQLクエリは、.qまたは.hql拡張子を使用します。私が実行しているコマンドのリストを保存することによって同じ結果を得るためにクエリを保存する可能性はありますか？