pdfファイルの分割に関する質問があります。基本的に私は段落の観点から分割したいファイルのPDFファイルのコレクションを持っています。 pdfファイルの各段落にそれ自身のファイルであるように。私はあなたが私を助けることができれば、好ましくはPythonで感謝しますが、もしそれができないなら、どんな言語でもできます。PDFファイルを段落に分割する
1
A
答えて
0
上記の場合pdftotextを使用して、pythonサブプロセスでラップすることができます。あるいは、すでに暗黙のうちにのような他のライブラリを使用して、を使用することもできます。ここでは簡単な例です。注:区切り文字として4つのスペースを使用してテキストを段落リストに変換しましたが、別の手法を使用したいことがあります。
import re
import textract
#read the content of pdf as text
text = textract.process('file_name.pdf')
#use four space as paragraph delimiter to convert the text into list of paragraphs.
print re.split('\s{4,}',text)
+0
この例をありがとう。私の場合はうまく動作します。 – LoniF
関連する問題
- 1. 段落を分割する
- 2. Itext 7段落を分割する
- 3. PHP、段落に分割.docx(PREG_SPLIT、 "/\.\n/u")
- 4. PHP +段落を配列に分割する
- 5. 段落にテキストを分割する方法
- 6. ファイルを段階的に分割する
- 7. Regex - テキストをウォークしない段落に分割します。
- 8. Rの特定の段落を分割する方法は?
- 9. iTextの段落を2ページに分割しない
- 10. ファイルに段落を書く
- 11. プログラムでPDFファイルのページをUNIXのPDFファイルに分割する
- 12. PHPで段落の文字を3等分して分割する
- 13. 段落の段落右下
- 14. Emacsの現在の段落の分割線
- 15. 段落タグを内容段落に配置する
- 16. Apache Zeppelin段落にURLパラメータを渡す段落
- 17. 段落
- 18. 複数の段落を含む文字列をJavaScriptで2つの半分に分割する
- 19. CSS段落の下の段落を整列する
- 20. 段落間と段落内の間隔を変更する
- 21. Pythonの段落単位でテキストファイルを段落にコピー
- 22. 次と前のボタンを持つ私は、3つの段落に大きな文字列を分割する必要が3つの段落C#
- 23. テキストを段落に分割しようとしていますが、改行や段落の代わりにカンマで区切ります。
- 24. HTMLは、私は、段落のラインを持っている段落
- 25. 2つにPDFを分割する
- 26. 1つのテキスト段落の変更/差分を他の段落からハイライトする方法は?
- 27. itextsharpを使用してPDFからテキスト段落を取得
- 28. doc2vecの目に見えない段落の段落表現を取得する
- 29. 段落パターン
- 30. 段落インラインimg
PDFからテキストを抽出するためにPythonで使用する予定はありますか? pdf2textも使用できます。 – Radan
私は現在、サブプロセス呼び出しを使用してpdftotextを使用してPDFを解析するプログラムを作成しています。それは非常に便利です:https://en.wikipedia.org/wiki/Pdftotext – Steampunkery
@ラジャン私は段落間の類似性を計算したいと思います。すべてのPDFファイルは複数の段落で構成されており、段落同士がどのように似ているかを見たいと思っています。しかし、まず私は段落にPDFファイルを分割する必要があります。 – LoniF