3
私はテキスト(単語)が強調表示されている(色コード(黄色、青色、灰色など)を使用している)各色に関連する強調表示された単語を抽出する。私はPythonでプログラミングしています。私が現在行っていることは次のとおりです。[python-docx][1]
で文書を開き、文書内にトークン(単語)を含む<w:r>
タグを取得しました。今、私はそれが<w:highlight>
タグを持っており、それから、カラーコードを抽出し、それが<w:t>
タグ内の黄色のプリントテキストに一致する場合ならば、私は各単語のチェック部分で立ち往生していますPythonのWord文書(.docx)からハイライトされた単語を抽出する
#!/usr/bin/env python2.6
# -*- coding: ascii -*-
from docx import *
document = opendocx('test.docx')
words = document.xpath('//w:r', namespaces=document.nsmap)
for word in words:
print word
:私は、次のコードを使用しています。誰かが解析されたファイルから単語を抽出することを私に指摘できるかどうか本当に感謝します。
ありがとう@BioGeek :)それは素晴らしいです! :) –
私はいくつかのマイナーチェンジを行った(tag_tの宣言がなく、utf8文字へのasciiの処理が行われていた)。改訂されたコードはhttps://gist.github.com/1982168で再び利用可能である@BioGeek! –
よろしくお願いいたします。クールな質問だったし、新しいことも学びました。仲間のバイオインフォマティクスからのご挨拶! – BioGeek