2012-04-11 18 views
9

私はHiveでタスクを実装しました。現在、私のシングルノードクラスタで正常に動作しています。 これをAWSにデプロイする予定です。Amazon EC2 vs. Amazon EMR

私はAWSについて何も知らない。それを展開する予定がある場合は、Amazon EC2またはAmazon EMRを選択する必要があります。

私の仕事のパフォーマンスを改善したい。どの方が私にとってより良く信頼できますか?彼らに近づく方法。 VM設定をAWS上に登録することもできると聞きました。出来ますか?

できるだけ早く私に提案します。

多くのありがとうございます。

+0

これはプログラミングに関する質問よりもSysAdminの質問ではありません...? –

+0

あなたの質問の終わりに「できるだけ早く」から推測すると、代わりにあなたの会社のプラットフォームサポートチームに質問を電子メールで送信してみることをおすすめします; –

答えて

14

EMRは、Hadoop(およびオプションでHiveおよび/またはPig)をインストールして設定したEC2インスタンスの集合です。 Hadoop/Hive/Pigジョブを実行するためにクラスタを使用している場合は、EMRを使用してください。 EMRインスタンスは、EC2インスタンスに比べて少し余計です。アマゾンの価格を素早くチェックすると、小さなEC2インスタンスは0.08ドル/時間、小さなEMRインスタンスは0.015ドル/時間の追加費用がかかることが明らかになりました。 私の意見では、Hadoop(HiveとPigと一緒に)のインストールと設定、作成と保守、AMIの使用とその使用の面倒を節約するために、余計なお金を払う価値があります。さらに、EMRのHadoopとHiveのバージョンには、Apache Hiveで利用できない(少なくとも、少なくとも)パッチがいくつかあります。あなたはEC2を使用する場合は、おそらくApacheのHadoopのとハイブを使用することになります(またはであってもよいし、Clouderaのディストリビューション)とALTER TABLE my_table RECOVER PARTITIONS

参考文献などのS3やコマンドのネイティブサポートなどのこれらのパッチへのアクセスを(持っていないでしょう。

一般的に
+0

EMRとEC2の価格設定https://aws.amazon.com/emr/pricing/ – Saad

5

2〜3か月間余裕がなければ、自分のHadoopクラスタを配備しないことをお勧めします。

Elastic MapReduceを使用すると、あらかじめ設定されたハープープ環境を提供することで、非常に迅速に開始することができます。あなたはただ一つの仕事しか持っていないので、それはうまくいくはずです。

+0

Thats Fine。私のユースケースでは、SQOOPを使用してMS SQL Serverからデータをインポートしたいと考えています。私はそれを処理するためにHive JDBCを使用してジョブを作成しました。 しかし、私はMSSQL-SERVERに膨大なデータを持っています(GBの近く)。ジョブを毎日または毎週実行する必要がある場合は、SQL-SERVERから毎日または毎週インポートするのが効率的です。私はこの問題を出てS3とそのデータを保存すると思うのですが、どうすればHDFSとS3の間にリンクを張ることができますか? (Hiveテーブルのデータは/ user/hive/warehouseディレクトリのHDFSに格納されているため)。 –

1

、歴史的に、EMRはかなり遠くのHadoopコンポーネントの最新バージョンの後ろにいた、といくつかは完全に欠落していた。それは、主要なREASです他のディストリビューションを使用している。たとえば、HBaseが必要だった場合は、EMRにはありませんでしたが、そうではありません。今日、スパークはEMRに欠けています。 EMRは一般的に遅れます。

しかし、あなたが最新かつ最高の機能を使用していない場合、EMRに行ってください。