私は、文書内のどのページにある単語があるかを見つけるための洗練されたソリューションを探しています。文書内のページにある単語を検索する
私は最初に.docx形式を入力と見なし、検索機能を持つPythonDocxを見ましたが、実際にはdocx/xml形式のページ属性ではありません。 文書を解析すると、xmlツリー内で<w:br w:type="page"/>
の出現を探すことができますが、残念なことにこれらは非強制ページ区切りを表示しません。
ファイルを最初にPDFに変換し、ドキュメントをページ単位で解析するためにPDFminerのようなものを使用することさえ考えました。
docxファイルを構成するXMLファイルを解析して文字列の.docxの文書を検索し、それが
[('foo' ,[1, 4, 7 ]), ('bar', [2]), ('baz', [2, 5, 8, 9)]
私はこれがあなたが探していると思います: [link](http://stackoverflow.com/questions/12571905/finding-on-which-page-a-search-string-is-located-in -a-pdf-document-using-python) – Roxy
@birgitこのトピックに関する解決策はまだ探していますか? – mabe02
@ mabe02私は実用的な解決策を見つけられませんでしたが、興味があります – birgit