私はPDF仕様に全く慣れていません。私は、PDFファイルを直接操作することが可能かどうか疑問に思っていたので、私が重要と判断した特定のテキストブロックが自分の好みの色で強調表示されるようにしました。選択する言語はPythonになります。PDFでテキストのフォント色をプログラムで変更する
答えて
PDF形式が非常に豊富なので可能ですが、必ずしも簡単ではありません。詳細については、hereのドキュメントを参照してください。
BT
/F13 12 Tf
288 720 Td
(ABC) Tj
ET
BTとETはテキストオブジェクトの開始と終了のコマンドです。 Tfは、サイズ12で外部フォントリソースF13(Helveticaになる)を使用するコマンドです。 Tdは、指定された座標にカーソルを置くコマンドです。 Tjは、前の文字列のグリフを書き込むコマンドです。フレーバーは多少「逆ポリッシュ表記」ですが、Adobeの他のタイプセットへの大きな貢献の1つであるPostscriptの風味にかなり近いです。
問題は、表示されているページ上で「見た目に」見えるテキストは実際には「一緒」でなければならないということは、PDF仕様には何もありません。精密な座標を常に与えることができるので、PDFが洗練された印刷システムによって生成された場合、座標によってテキストを正確に位置付けることができる。したがって、文字や単語の形でテキストを再構築することは必ずしも容易ではありません。光学式テキスト認識とほとんど同じですが、文字を正確に与えられている点を除きます。 ... ;-)。
pyPdfは、非常に単純な純粋なPythonライブラリで、PDFファイルを再生するのに適しています。その "テキスト抽出"機能は非常に初歩的なもので、いくつかのテキスト描画コマンドの引数を連結するだけです。それはいくつかのドキュメントで十分であることがわかりますし、他のものではまったく使用できませんが、少なくとも始まりです。配布されているように、pyPdfは色についてはほとんど何もしませんが、いくつかのハッキングを修正することができます。
reportlabの強力なPythonライブラリは、既存のPDFを解釈または変更するのではなく、新しいPDFを生成することに専念しています。他の極端なところでは、純粋なPythonライブラリpdfminerは完全にPDFファイルの解析に焦点を当てています。よりシンプルなライブラリが困惑するケースでは、テキストを再構築しようとするためにいくつかのクラスタリングを行います。
あなたが望む変換タスクを実行する既存のライブラリはわかりませんが、これらの既存のライブラリを混在させて一致させることは可能です。
PDFアノテーションを使用してpdfファイルでハイライトが可能ですが、ネイティブで行うことは簡単ではありません。上記の図書館のいずれかがそのような施設を提供する場合は、あなたが探しているかもしれないものです。
- 1. NavBarのフォントとテキストの色の変更
- 2. reportlab.pdfgenでテキスト/フォントの色を変更する方法
- 3. JSONでテキストの色をプログラムで変更する方法
- 4. ハンバーガーメニューのテキストのフォントの色とフォントファミリを変更する
- 5. Javascript - テキストエリア内の特定のテキストのフォント色を変更する
- 6. テーブルヘッダーのテキストとフォントの色を変更する - 材質テーブル(0.19.4)
- 7. android-tvブラウズフラグメント行のテキストの色とフォントを変更する
- 8. 色の編集テキスト選択ハンドルをプログラムで変更する
- 9. PyQt5 TextEdit Widget入力テキストのフォント色を変更する
- 10. Android:ボタンのテキストの色をプログラムで変更できない
- 11. TCLでフォントの色を変更してテキストを太字にする
- 12. supportActionBarの色をプログラムで変更する
- 13. プログラムでセルの色を変更する
- 14. カスタムボタンシェイプの色をプログラムで変更する
- 15. リンクのフォント色を変更する
- 16. UIBarButtonItemのフォント色を変更する
- 17. フォントの色を変更するには
- 18. テキストエリアのフォント色を変更する
- 19. javascriptを変更する.textフォントの色
- 20. スライダでテキストの色を変更する
- 21. 変更フォントの色は
- 22. テキストを置き換えてフォントの色を変更
- 23. テキストフィールドのテキストをプログラムで変更する
- 24. iOS Swiftで特定のテキストの色をプログラム内で変更する
- 25. C#プログラムでフォントをPDFに追加
- 26. フォントを太字、イタリック、フォントの色に変更する方法
- 27. Rのggplot2のgeom_textでフォントの色を変更するには?
- 28. 親のホバーで子divのフォントの色を変更する
- 29. eclipseでjavadocの表示フォントの色を変更するには?
- 30. jquery datepickerで週末のフォントの色を変更する
私は1つのpdfを読むことを試みましたが、その文字とストリームは、PDFとEOFを認識でき、多くの特殊文字があります。特定のエンコーディングはありますか?あなたはBTとETを検索するための簡単なコードを共有してください。同じ質問がありました。http://stackoverflow.com/questions/12982188/how-to-access-lines-in-a-pdf-page-programmatically - と - 与える - それら - 別の色、おかげで – Shan