2009-05-20 37 views
1

私は現在、OpenOfficeマクロとpdf2textプログラムを組み合わせてテキストを抽出していますが、PowerPointファイルからテキストを取り出す方が簡単で効率的な方法を探したいと思っています。PowerPoint(.pptまたは.pptx)ファイルからテキストを抽出しますか?

Apache POIライブラリを使用しようとしましたが、私が見ているファイルを処理しようとしているときにライブラリ内で数多くの例外が発生しました。特にソースコードを見逃したくない図書館。

上記のライブラリを使用せずに簡単に行う方法はありますか?

答えて

1

MS Officeをお持ちで、PPTをRTF(リッチテキスト形式)で保存すると、プレゼンテーションのテキストだけが含まれます。 RTFファイルを理解し、テキスト(TXT)ファイルとして保存するエディタでファイルを開くことができます。

私はこれもOpen Officeでもうまくいくと思っています。

あなたはAPIのことを話しているので、これはあなたのために行く方法ではないかもしれませんが、おそらくそれはあなたにそこに行くための新しいアイデアを与えるでしょう。

編集...あなたが段階的に変換を行うために複数のマクロを使用し、言う:私は好奇心旺盛だし、短いGoogle検索

をしました。これは私が人としてone of the www.openoffice.org pages

で見つけたものですOW 文書からのテキストの取得は難しいことではない。なぜなら、これはちょうど perlスクリプトで解析できるxmlだからだ。問題はMicrosoft Powerpoint文書を最初に に圧縮したXML形式にすることです。

「ファイル」 - >「ウィザード」 - >「ドキュメントコンバータ」のようなものが見つかりました。 はあなたのソースディレクトリを指していて、あなたは の結果を吐き出したいと思っています。あなたは離れています。

次に、unzip -p $ file.sxi content.xml |/[^>] >/\ n/g; s/+ //; s/\ n \ n/\ n/g; -w

は、テキストを抽出するのに適しています。

申し訳ありませんが、私はOpen Officeを持っていないので、それを試してみてください。

+0

RTFとして保存できません。それはファイルのスライドのインデックスだけを保存するようです – ekkis

1

pptxファイルは単純に圧縮されているので、比較的簡単です - 圧縮解除したものの 'ppt/slides'サブディレクトリにあるファイルの内容からすべてのxmlタグを取り除くだけです関連するテキストのほとんどを生成します。

pptファイルはまったく別のボールゲームであり、catdocパッケージのcatpptはバッファオーバーフローの影響を受け、ほとんど役に立たなくなるため、プロセスはさらに苦しくなります(大きなパーセンテージのsegfaults pptファイル)。

関連する問題