C#アプリケーションからPDFファイルを解析し、そのファイルからオーディオファイルを作成します。 どうすればいいですか?.pdfファイルをプログラムで読み込み、それをオーディオ(.mp3形式)に変換する方法は?
私は特に、テキストライブラリからpdfファイルを取り除く方法、またはpdfファイルをテキストから取り除く方法を探しています。
C#アプリケーションからPDFファイルを解析し、そのファイルからオーディオファイルを作成します。 どうすればいいですか?.pdfファイルをプログラムで読み込み、それをオーディオ(.mp3形式)に変換する方法は?
私は特に、テキストライブラリからpdfファイルを取り除く方法、またはpdfファイルをテキストから取り除く方法を探しています。
私はそれが難しいことだと思います。まず、そのpdfのテキストを読んでから、合成音声生成のメカニズムを使って音声コンテンツを作成する必要があります。次にmp3として保存する必要があります。
MicrosoftからSpeech SDKが必要です。指示を読むhere
テキストを読み上げるにはFestivalを使用してください。さまざまなpdfからテキストAPIが存在します。
フェスティバルを使ってオーディオファイルを生成するにはどうすればいいですか?私はまだこれを理解しようとしています。 –
Mac OS Xでは、pdfのテキストを抽出して「say」でパイプすることができます。他のOSで同等のシンセサイザを見つける必要があります。
ホイールを再発明するのではなく、単に既存のテクノロジー(つまり、祭りのようなスピーチエンジンにテキスト)やPDFファイルを処理するためのOCRエンジンを再利用するだけで、 。
最も複雑なものは、おそらく、テキスト認識処理を難読化して別のPDFのレイアウト(列、行、組み込みグラフィックス、フットノート、URLのなど)と連携することです。
しかし、一般的には(これは、学習経験することになっていない場合)、それだけで、既存のソフトウェアソリューションを使用してに頼る確かに簡単です:
あなたは入力文書としてtagged PDF文書を使用することをお勧めします。つまり、ドキュメントにはドキュメントの論理構造をマークアップするためのタグが含まれています(通常、PDFドキュメントにはビジュアル情報のみが含まれます)。
このPDFは、デジタル会話帳の標準であるDAISY形式に変換することができます。つまり、書籍のテキストを論理構造とナビゲーション機能とともに保存する中間XML形式です。
このデイジーXML形式は、converted to an audio formatのいずれかです。また、MP3プレーヤのような物理的なデバイスであるDaisyリーダーを使用して、この書籍を聴くこともできます。
このツールチェーンの原則を説明するデイジーのWebサイトで入手可能なプレゼンテーションがあります:他のポスターが概説したように
、最初のあなたはからテキストを抽出する必要があります。 pdfファイル。 pdfファイルはオープンフォーマットなので、おそらくGoogleを通じてパーサを見つけることができます。
次に、図のタイトル、ページヘッダー、目次などを無視して、ファイルから音声に変換するテキストを抽出する必要があります。
テキストを取得したら、音声に変換する必要があります。これはおそらく最も難しい部分です。
私は腐った声優であるため、以前はゲームモードの音声ファイルを生成していました。
Cepstralには、私が見つけた最高のTTSコンバータがありました。 (無料のものはスピーチにCepstralの広告を挿入する厄介な傾向があったが、私が行っていたことを手動で編集することができた)
音声合成マークアップ言語があり、アクセントを置くためにどの音節についてTTSコンバータへの手がかりなどここではLinkyはあります:
http://www.w3.org/TR/speech-synthesis/
テキストにSSMLの追加について自動的に行くどのように少し私を超えています。
とにかく、TTSコンバータはオーディオファイルを生成し、最後のステップはオーディオをmp3形式の希望のビットレートで圧縮することです。
あなたの唯一の仕事は、PDFからの音声合成テキストを聞くことですが、「表示」メニューの下部にあるAcrobatの「読み上げ」機能はどうですか?
これは冗談でしたが、私はあなたがテキストを聞くことを意味していたことを理解しました:) – Zifre
私はむしろAcrobat Readerを使用したいと思います! –
@Zifre - あなたがこれをクリアしてくれた神に感謝します。私はこれで涙を浮かべようとしていました! – joshcomley