2012-02-01 169 views
10

PDFファイルから強調表示されたテキストと注釈をプログラムで抽出する方法はありますか?どの言語も歓迎します。私はPython、JavaおよびPHPでいくつかのライブラリを見つけましたが、どれもその仕事をしていません。PDFファイルから注釈とハイライト部分を抽出する方法

可能かどうかわかりません。私は、ある種のプログラムがこの種の情報を保持するために余分なファイルを作成していることも知っています(もしKindleが別のファイルを生成して間違っていないのであれば)。

+0

答えをありがとう。私はもう少し長いことでこれを解決する別の方法を見つけました:) Adob​​e Readerで作成された付箋は、コンテンツと位置情報の両方を含むpdfファイルに付箋が付いているので解析が簡単ですが、情報私は場所によってテキストを抽出する必要があります。だから私はそれのためのいくつかのコードを記述する必要があります。ベースライブラリとして、私はPDFMinerを使うことができます.PDFMinerは、テキストの部分についての情報を提供します。 – user1183057

答えて

8

[OK]を見て、私はpdfからハイライトされたテキストをテキストファイルにエクスポートするためのソリューションを見つけました。非常に難しいことではありません:

  1. まず、あなたが使用したいツールを使用してテキストをハイライト(私はGoodReaderのアプリを使ってiPadで読んでいる間、私の場合、私はハイライト)。

  2. NOTESを変換しに、ドキュメントのすべてのノートを変換する選択し、ファイルをコンピュータにPDFファイルを転送して(ウェブ上で見つけるのは無料で簡単にPDFリーダー、)スキムミルクを使用して、それを開く

  3. スキムメモ。

  4. これはすべてです:単にEXPORT SKIM NOTESを選択してください。強調表示されたテキストのリストをエクスポートします。一旦開かれると、このリストは再びtxt形式のファイルにエクスポートできます。

これはあまりうまくいかず、結果は素晴らしいです。

+3

スキムはMAC専用です。 Windowsの代替手段はありますか? –

関連する問題