スクリプトを使用してpdfドキュメントからテキストを取得するにはどうすればよいですか?私は窓を使い、時にはLinuxを使う。スクリプトを使用してpdfドキュメントからテキストを取得
答えて
ほとんどのLinuxディストリビューションではpdftohtml
が利用可能です。名前が示すとおり、PDFをHTMLに変換できます。 HTMLをプレーンテキストに変換するには、多くの方法があります。例:lynx -dump file.html
ありがとう。しかし、文書がテキストのコピーを無効にしている場合、ツールはテキストをコピーできません...私は音声リーダーで読みたいと思う非常に長い文書を持っています。 – user1141649
ありがとうございます。しかし、文書がテキストのコピーを無効にした場合、またはパスワードが含まれている場合、ツールはテキストをコピーできません。 – user1141649
私は知らないのですが、私はtextcopy-disabled pdfで試してみませんでした。それを試しましたか? – uzsolt
目的は、マウスを使用してPDFからテキストを取得する場合は、xpdf
を実行する必要があります。セキュリティ設定には注意を払わないようです。少なくとも、私がMac上で実行しているバージョンはそうではありません。
- 1. itextsharpを使用してPDFからテキスト段落を取得
- 2. GoogleでPDFからテキストを取得
- 3. Pythonを使用してドキュメントからテーブルを取得する
- 4. iTextを使用してpdfファイルからテキストフォントを取得する
- 5. PDFNetを使用してPDFからURLを取得する
- 6. Perlを使用してPDFからデータを取得する
- 7. ReadOnlyからのテキストの取得MSWordドキュメント
- 8. Hpricot、ドキュメントからすべてのテキストを取得
- 9. Jsoup(java)を使用してスパンからテキストを取得
- 10. HtmlAgilityPackを使用してWP7でHTMLからテキストを取得
- 11. Selenium(Python)を使用してラベルからテキストを取得
- 12. jscriptを使用してdivからテキストを取得
- 13. 要素からjQueryを使用してテキストを取得
- 14. BeautifulSoupを使用してからテキストを取得するには?
- 15. pdfドキュメント内のハイライトから位置を取得するClown
- 16. PHPを使用してPDFからテキストを抽出する
- 17. JestClientを使用してIntegerの代わりにDouble値を取得してelasticsearchからドキュメントを取得する
- 18. PDFドキュメント(* .pdf)をテキストにダンプしますか?
- 19. URLを使用してドキュメントをロードせずにjavacriptからオブジェクトを取得
- 20. PDFBox APIを使用してPDFからテキストの方向を取得する方法
- 21. BeautifulSoupを使用してtext/htmlドキュメントからクリーンテキストを取得する
- 22. C#でword(docx)ドキュメントからテキストを取得するには?
- 23. Node.jsエラー:exiftoolを使用してPDFからメタデータを取得する
- 24. Javaを使用してMySqlデータベースからBlob pdfファイルを取得する方法
- 25. Javaストリームを使用してWebからPDFファイルを取得する方法
- 26. jqueryを使用してDOMからテキストを取得しますか?
- 27. jQueryを使用した後に文字からテキストを取得
- 28. PDFからテキストのフォント名を取得する方法は?
- 29. Aspose.PDFライブラリを使用してPDF文書からテキストを削除しますか?
- 30. tclスクリプトを使用してpdfにテキストと画像を追加するには
これはグーグルの努力をあまり示していないので、私はちょうどここにTIKAを投げます(http://tika.apache.org/) – mindandmedia