オンライン予測の待ち時間の問題

Google Machine Learning Engineで分類するための線形モデルを導入し、オンライン予測を使用して新しいデータを予測したいと考えています。オンライン予測の待ち時間の問題

Google APIクライアントライブラリを使用してAPIを呼び出したとき、1つのインスタンスでリクエストに応答するには約0.5秒かかりました。レイテンシは10マイクロ秒未満でなければならず（モデルが非常に単純であるため）、0.5秒は長すぎると予想しました。私はまた、predict_probaメソッドを使用して新しいデータをオフラインで予測しようとしました。 Google MLエンジンを使用するよりもはるかに高速ですが、10万インスタンスを超えるスコアには8.2秒かかりました。オンライン予測の待ち時間を短縮できる方法はありますか？要求を送信したモデルとサーバーは、同じ地域でホストされています。

リアルタイムで予測したい（APIが要求を受け取った直後に応答が返されます）。 Google MLエンジンはこの目的に適していますか？

出典

2017-06-20 user3490118

以下のLakの答えに加えて、--enable-loggingでモデルをデプロイした場合に役立ちます。ログには、要求ごとの待ち時間情報が含まれています（StackDriverロギングでアクセス可能）。これらのログを見ると便利です。 – rhaertel80

待ち時間の原因を特定するのを手助けしたいと思います。プロジェクト/モデル/バージョンをcloudml-feedback @に送ってください。サイドノート：リクエストごとに多数のインスタンスを含めることで、スループットを向上できます（現在の制限は1.5Mbのペイロードサイズです）。 – rhaertel80

いくつかのより多くの情報が参考になる：

あなたがGCPへのサービスにアクセスしているマシンからネットワーク遅延を測定することはできますか？モデルをデプロイしたのと同じ地域のCompute Engineインスタンスから呼び出している場合は、待ち時間が最も短くなります。
あなたのコーリングコードを投稿できますか？
これは、最初の要求またはすべての要求の待機時間ですか？

最後の質問に答えるために、はい、クラウドmlエンジンは1秒あたりの高クエリをサポートするように設計されています。

出典

2017-06-20 14:19:41 Lak

オンライン予測の待ち時間の問題

答えて

関連する問題