は、私は小さなファイルはチャンクの数が少ない、おそらくちょうど1で構成されていGoogle File Systems Paper小さなファイルがGoogleファイルシステムでホットスポットを作成するのはなぜですか?
からこれを理解していません。多くのクライアント が同じファイルにアクセスしている場合、それらのチャンクを格納しているチャンクサーバーはホットスポットになる可能性があります。
小さなファイルではどのような違いがありますか?多くのクライアントからアクセスされている大きなファイルに問題が発生する可能性はありませんか?私は/には、以下を読んで考えた
: -
- 私は大きなファイルのチャンクが、これにより、負荷を分散するさまざまchunkserversに格納されていることを(私が間違っているなら、私を修正)を前提としています。このようなシナリオでは、1000のクライアントは各チャンクサーバーからのファイルの1/100にアクセスします。したがって、各チャンクサーバーは必然的に1000のリクエストを受け取ることになります。 (1000のクライアントが1つの小さなファイルにアクセスするのと同じではありません。サーバーは小さいファイルに対して1000件の要求を、大きなファイルの一部に対しては1000件の要求を受け取ります)
- 私はスパースファイルについて少し読んでいます。紙に応じて小さなファイルがチャンクまたは複数のチャンクを埋めます。だから私の理解には、小さなファイルは再構成されないので、ホットスポットの原因としてこれを排除しました。
"このようなシナリオでは、1000のクライアントは各チャンクサーバーのファイルの1/100にアクセスするため、各チャンクサーバーは必然的に1000の要求を受け取ることになります。ここであなたの考えをさらに広げることができますか?クライアントが1/100thファイルにアクセスすると、クライアントごとに1/100thチャンクサーバーだけが接続されます。紙が得ようとしている考え方は、大きなファイルの場合、アクセスパターンは事実上チャンクサーバー間でランダムに分布していますが、一度にすべてではありません。 – GManNickG
@GManNickG大きいファイルは100チャンクサーバーに格納されます。 1000のクライアントにはその特定のファイルが必要です。最終的に100チャンクサーバーからのデータが必要になります。したがって、各チャンクサーバーは常に1000人のクライアントにサービスを提供します。ランダムな分布があっても、各ファイルが小さなファイルによって生成された負荷と同じ要求を1回も実行しないでしょうか? さらに重要なのは、大きなファイルの一部が異なるチャンクサーバーに格納されていることです。 –
Gotcha。シナリオでは、すべてのチャンクサーバーは最終的にチャンクを1000回配信しますが、瞬間的な負荷は低くなります。 1つのサーバーに一度にデータを要求する1000のクライアントはホットスポットです.100のチャンクサーバーを超える1000のクライアントは、クライアントがすべてのチャンクサーバーに同時に接続するだけでなく、任意のサーバーの瞬時負荷が低いことを意味します。しかし、私は、論文の要点の意図された解釈は、実際のアプリケーションでは、すべてのクライアントがファイル全体を読み上げることはなく、その場合、チャンクサーバが(例えば)1つの要求を処理するだけであるということです。 – GManNickG