2017-06-05 5 views
0

ファイルがHFDSまたはローカルファイルシステムにある場合、EMRFSを有効にしてこのファイルをS3にコピーしてすぐにクラスタをシャットダウンし、このコピー操作が完了するとすぐにリストアップして外部の読者に読んでください。または、EMRFSは、有効になった特定のEMRクラスター内でのみ一貫性がありますか? HDFSからEMRFS経由でS3にファイルをコピーするとどうなるでしょうか?ローカルのファイルシステムから?EMRFSは外部クライアントに対してS3を一貫させます

答えて

0

私はこの同じ質問をAWS開発者フォーラムhttps://forums.aws.amazon.com/thread.jspa?threadID=257220&tstart=25で尋ねました。これには多くの貴重な詳細が含まれており、EMRFSのすべてのIMOドキュメントよりもEMRFSの概要がはるかに優れていますが、

1)一貫性のあるビューは、EMRFS構成で明示的に有効にする必要がある機能です。それ以外の場合は、S3の一貫性の保証のみがあります。

2)は、通常

3)S3が提供する唯一の真の一貫性保証は、新しいファイルがあることである同じEMRFSが、それはS3にアクセスする外部クライアントには影響しませんconfiguration--一貫したビューでのみ共有し、クラスタ内に有効になりますEMRFSこれまでに書かれていないものは、一貫性が保証されていますが、リストには含まれません。したがって、クライアントが新しく作成されたパスによってファイルを要求すると、常にそれが取得されますが、リスト操作でファイルのパスが取得される場合とされない場合があります。クライアントが読み取り操作でどのバージョンを取得するかは保証されません。

1

EMRFSは、EMR hadoopジョブによって作成されたオブジェクトに対して有効な一貫性のあるビューです。

1)EMRFSの主な目的は、hadoopジョブによって作成されたオブジェクトが即座に一貫していることです。したがって、依存関係がある場合は、ファイルを次のジョブに使用できます。

2)ファイルをS3にコピーして、次のhadoopジョブと一貫性を持たせる方法は、ファイルをhdfsにコピーし、s3 次のコマンドを使用してコピーします。

  1. HDFS DFS -put file.txtを/ユーザー/ Hadoopの/
  2. HDFS DFS -cp /user/hadoop/file.txt S3://バケット名

s3のファイルをリストするのは非常にコストがかかります。データをs3で一貫性のあるものにするには、s3にインデックスを実装する必要があります。以下は、dynamodb https://aws.amazon.com/blogs/big-data/building-and-maintaining-an-amazon-s3-metadata-index-without-servers/を使用して、ファイルを即座に一貫性のあるものにするためのリンクですか?

s3 apiを使用すると、s3整合性はEMRFSメタデータを経由しないため、画像になります。

関連する問題