2017-06-08 2 views
0

私はストリーミング方式でGoogle音声認識APIを使用したいので、ファイルをストリーミングしてリアルタイムでテキストを取得します。それが必要なので、私は何かがオーディオファイルで言われた時を知っています。問題は、GoogleがSDKを提供する言語を使用していないことと、SDKがなくてもそのような要求を行う方法がドキュメントに示されていないことです。Google音声認識ストリーミングAPIによるカール

誰かがそれを行う方法を知っていますか?

答えて

0

Google Cloud音声認識APIのストリーミングサポートは、only through gRPCで利用できます。その理由は、単純な古いREST APIを使用してストリーミングを実装するのは難しく、ほとんど不可能なためです。

ストリーミング音声認識を使用すると、クラウド スピーチAPIにオーディオストリームとオーディオが処理されるよう、実際の 時間内のストリーム音声認識結果を受け取ることができます。ストリーミング音声認識要求の の音声制限を参照してください。ストリーミング音声認識は、 で、gRPC経由でのみ利用可能です。

これは、Cloud Speech API Client library is available in the following languagesであり、一般的な開発者言語のまともなスペクトルをカバーしています。

  • C#
  • ゴー
  • のJava
  • のNode.js
  • PHP
  • Pythonの
  • ルビー

あなたが使用している言語について言及していないので、上記のリスト以外の言語を使用している場合は、クライアントライブラリのソースコード(別の言語用)とその使い方をよく調べることができますgRPCはストリーミングを行い、使用している言語で実装します。

ここでも唯一の制限はlanguage which gRPC has support forです。上記のリストと比較して、gRPCはC++とObjective Cをサポートしています。そのうちの1つを使用している場合は、クライアントライブラリのコードベースを掘り下げても実行可能なオプションになる可能性があります。

私は、GoogleのクライアントライブラリのC++やObjectiveCをサポートすることは、開発者にとって本当に役に立つことに同意します。

UPDATE: クイック検索では、私はC++(つまり、あなたがが使用している言語であれば、まだわからない)を使用してGoogleクラウドスピーチAPIを呼び出す方法にはいくつかのサンプルを持っているthis github repoを見つけました。

+0

お返事ありがとうございます。私はgRPC実装では提供されていないElixirを使用します。私はサポートされている言語の1つで小さなスクリプトを作成しなければならないようです。 – Phillipp

+0

@Phillipp - はい、これらのサポートされている言語のいずれかで動作するプログラムを呼び出す必要があります。私はエリキシルについてあまりよく知られていませんが、エリクサーのサポートと上記の言語のサポートを持つRPCライブラリを使用することもあなたの問題を解決すると思います。'Elixir program <--RPC--> Python < - Speech API Client lib>> Google Speech API Service'(Pythonを例として、RPCライブラリにはPythonとelixirサポートがあると仮定します)。 – Tuxdude