1
python-docx
(python-docx-0.8.6、python 2.7,32ビット)を使用してMS Word文書でハイライトカラーを検索しようとしました。テキストの各部分はその強調表示色に基づいている。NameError:名前 'WD_COLOR_INDEX'がpython-docxを使用しているときに定義されていません
ドキュメントに続いて、私はWD_COLOR_INDEX
をインポート/使用しようとしましたが、見つけられないようです。
from docx.enum import *
if (doc.paragraphs[i].runs[j].font.highlight_color == WD_COLOR_INDEX.YELLOW):
#do the appropriate thing for the yellow-highlighted text
カラーインデックスをインポートするにはどうすればよいですか?あなたの代わりにこれを使用することができますので、
from docx.enum.text import WD_COLOR_INDEX
また、(よりコンパクトな表現のための)別名を持っています:そうdocx.enum.text
モジュールで発見され
ありがとうございました。私はフォローアップの質問をすることができます:私は各単語/トークンのテキストの強調表示された色(色は実際に名前付きエンティティの種類をエンコードする)と品詞(POS)タグを関連付けることを試みています。 POSタグは、例えばNLTKのPOSタグャーを使って抽出され、ハイライト(感謝裡に)はpython-docxを使って抽出されます。難しいのは、トークナイザとタガーが、フォント+ハイライトなどに関連する実行時分割とは異なるテキストを分割することです。対応関係を取得する最も良い方法は何でしょうか(たとえば、タプルは? –
@HWこれは本当に別の質問です。投稿して「python-docx」とタグを付けると表示されます。 – scanny