私はDOCX Word文書でテーブルの内容を抽出しようとしています。少年はxml/xpathを初めて使っています。PythonのDOCX Word文書からテーブルを抽出する
from docx import *
document = opendocx('someFile.docx')
tableList = document.xpath('/w:tbl')
これにより、「XPathEvalError:Undefined namespace prefix」エラーが表示されます。私はそれがスクリプトを開発している間に期待する最初のものだと確信しています。残念ながら、私はpython-docxのチュートリアルを見つけることができませんでした。
テーブル抽出の例を教えてください。
あなたはDOCXたのですか?あなたはURLを提供できますか? –
あなたはpython xmlチュートリアルを探す必要があります。 opendocx関数は、ソースに基づいてxmlドキュメントを返します。 python-docxライブラリの残りの関数は、lxmlのpythonライブラリのラッパーです。http://lxml.de/にあります。 –
@Spencer Rathbun:次のコードではエラーは発生しませんが、間違って[]を返します。 'tableList = document.xpath( '// tbl')' 'print tableList' これは私が使っていないDOCX機能ですわかる? – mgierdal