2017-02-07 20 views
1

pdfファイルの分割に関する質問があります。基本的に私は段落の観点から分割したいファイルのPDFファイルのコレクションを持っています。 pdfファイルの各段落にそれ自身のファイルであるように。私はあなたが私を助けることができれば、好ましくはPythonで感謝しますが、もしそれができないなら、どんな言語でもできます。PDFファイルを段落に分割する

+0

PDFからテキストを抽出するためにPythonで使用する予定はありますか? pdf2textも使用できます。 – Radan

+0

私は現在、サブプロセス呼び出しを使用してpdftotextを使用してPDFを解析するプログラムを作成しています。それは非常に便利です:https://en.wikipedia.org/wiki/Pdftotext – Steampunkery

+0

@ラジャン私は段落間の類似性を計算したいと思います。すべてのPDFファイルは複数の段落で構成されており、段落同士がどのように似ているかを見たいと思っています。しかし、まず私は段落にPDFファイルを分割する必要があります。 – LoniF

答えて

0

上記の場合pdftotextを使用して、pythonサブプロセスでラップすることができます。あるいは、すでに暗黙のうちにのような他のライブラリを使用して、を使用することもできます。ここでは簡単な例です。注:区切り文字として4つのスペースを使用してテキストを段落リストに変換しましたが、別の手法を使用したいことがあります。

import re 
import textract 
#read the content of pdf as text 
text = textract.process('file_name.pdf') 
#use four space as paragraph delimiter to convert the text into list of paragraphs. 
print re.split('\s{4,}',text) 
+0

この例をありがとう。私の場合はうまく動作します。 – LoniF

関連する問題