Node.js WebアプリケーションでIBM Watsonスピーチからテキスト・オーディオへの変換

問題の要点は、IBM Watson Speech to Textは、FLAC、WAV、およびOGGファイル・フォーマットをアップロードしてAPIとともに使用できることです。Node.js WebアプリケーションでIBM Watsonスピーチからテキスト・オーディオへの変換

私の解決策は、ユーザーがmp3をアップロードしてからファイルをワトソンに送信する前に、データ変換が行われるということです。本質的に、ユーザーはmp3をアップロードし、ffmpegまたはsoxを使用してオーディオをOGGに変換し、その後オーディオをWatsonにアップロードします。

私が確信していることは、次の点です。Node.js Watsonコードで、オーディオ変換を行うために正確に何を変更する必要がありますか？下にリンクされているのは、私が取り組んでいるワトソンのレポです。変更が必要なファイルはfileupload.jsであることが確信していますが、その変更はどこにあるのかは不明です。

私はSOとdeveloperWorksの両方でこの問題の答えを探しましたが、なぜ私がここに投稿しているのかわかりません。それが必要な場合は、私の質問を明確にすることができれば幸いです。

Watson Speech to Text Repo

出典

2016-04-24 Raquel Hosein

使用しようとしているSpeech to Textサンプルアプリケーションは、OGGにMP3ファイルを変換しません。 srcフォルダ（fileupload.jsを含む）は、クライアント側で使用されるjavascriptです（Browserifyのおかげで）。

基本的にアプリケーションはCORSを使用してブラウザとAPIを通信しているので、オーディオはブラウザからWatson APIに移動します。

あなたがffmpegやsoxを使用してオーディオを変換したい場合は、それらのモジュールがジェームズ・トーマスは上のソックスとbuildpackを持っている（その中にC++コード）バイナリの依存関係を持っているので、カスタムbuildpackを使用して依存関係をインストールする必要があります。それ：https://github.com/jthomas/nodejs-buildpack。次のようなものであるためにあなたのmanifest.ymlを更新する必要があります。

memory: 256M 
buildpack: https://github.com/jthomas/nodejs-buildpack.git 
command: npm start

ノード：

var sox = require('sox'); 

var job = sox.transcode('audio.mp3', 'audio.ogg', { 
    sampleRate: 16000, 
    format: 'ogg', 
    channelCount: 2, 
    bitRate: 192 * 1024, 
    compressionQuality: -1 
});

出典

2016-04-25 04:37:44

は、私は現在、ファイル変換のためのffmpegを使用しています、これに質問をフォローアップ。しかし、このオーディオ変換ライブラリは、チャンクで行うのではなく、オーディオファイル全体をメモリにロードします。この問題の良い解決策は何でしょうか？ – YAL

Node.js WebアプリケーションでIBM Watsonスピーチからテキスト・オーディオへの変換

答えて

関連する問題