私はラテックスで書かれた科学的研究論文のPDFを持っています。 各研究論文は、「はじめに 『関連作品としてセクションがある』などと、私は別に、各セクションの下にテキストを抽出したい。Pythonを使用して、ラテックスからエクスポートされたPDFのセクションからテキストを抽出します。
このPDFは、セクションがある 『上の『抽象』と』はじめに「概要」のセクションでは、italictsのテキストを取得したいと思います。「紹介」については、そのセクションのすべての段落が必要です。
私はラテックスソースファイルを持っていればデータマイニングし、\ section {}キーワードに基づいてテキストを抽出しました
それゆえ、私はPython3でいくつかの方法を試してみましたが、pdfをlatex [link]に変換しましたが、提案されているソフトウェアは私のシステム(Ubuntu 16.04)と互換性がないか、有料ソフトウェアです。私はtextractを使ってみましたが、PDFからセクションを抽出するオプションはありません。
ラテックスを使って作られたPDFからセクションを抽出する方法を知っている人はいますか?
arXivからlatexソースファイルをダウンロードしてからpandocで処理するほうが簡単かもしれません。 – dseuss