2016-04-24 16 views
2

問題の要点は、IBM Watson Speech to Textは、FLAC、WAV、およびOGGファイル・フォーマットをアップロードしてAPIとともに使用できることです。Node.js WebアプリケーションでIBM Watsonスピーチからテキスト・オーディオへの変換

私の解決策は、ユーザーがmp3をアップロードしてからファイルをワトソンに送信する前に、データ変換が行われるということです。本質的に、ユーザーはmp3をアップロードし、ffmpegまたはsoxを使用してオーディオをOGGに変換し、その後オーディオをWatsonにアップロードします。

私が確信していることは、次の点です。Node.js Watsonコードで、オーディオ変換を行うために正確に何を変更する必要がありますか?下にリンクされているのは、私が取り組んでいるワトソンのレポです。変更が必要なファイルはfileupload.jsであることが確信していますが、その変更はどこにあるのかは不明です。

私はSOとdeveloperWorksの両方でこの問題の答えを探しましたが、なぜ私がここに投稿しているのかわかりません。それが必要な場合は、私の質問を明確にすることができれば幸いです。

Watson Speech to Text Repo

答えて

2

使用しようとしているSpeech to Textサンプルアプリケーションは、OGGにMP3ファイルを変換しません。 srcフォルダ(fileupload.jsを含む)は、クライアント側で使用されるjavascriptです(Browserifyのおかげで)。

基本的にアプリケーションはCORSを使用してブラウザとAPIを通信しているので、オーディオはブラウザからWatson APIに移動します。


あなたがffmpegsoxを使用してオーディオを変換したい場合は、それらのモジュールが ジェームズ・トーマスは上のソックスとbuildpackを持っている(その中にC++コード)バイナリの依存関係を持っているので、カスタムbuildpackを使用して依存関係をインストールする必要があります。それ:https://github.com/jthomas/nodejs-buildpack。 次のようなものであるためにあなたのmanifest.ymlを更新する必要があります。

memory: 256M 
buildpack: https://github.com/jthomas/nodejs-buildpack.git 
command: npm start 

ノード:

var sox = require('sox'); 

var job = sox.transcode('audio.mp3', 'audio.ogg', { 
    sampleRate: 16000, 
    format: 'ogg', 
    channelCount: 2, 
    bitRate: 192 * 1024, 
    compressionQuality: -1 
}); 
+0

は、私は現在、ファイル変換のためのffmpegを使用しています、これに質問をフォローアップ。しかし、このオーディオ変換ライブラリは、チャンクで行うのではなく、オーディオファイル全体をメモリにロードします。この問題の良い解決策は何でしょうか? – YAL

関連する問題