-1
Python 2.7を使用してIMチャットログを解析する際に問題が発生しています。私は現在BeautifulSoup.get_text
を使用しています。これは一般的には機能しますが、面白いものを隠すことがあります。例えば:この場合Pythonでチャットログを解析中、現在BeautifulSoupを使っています
<font color="#A82F2F"><font size="2">(3/11/2016 3:11:57 PM)</font> <b>user name:</b></font> <html xmlns='http://jabber.org/protocol/xhtml-im'><body xmlns='http://www.w3.org/1999/xhtml'><p>Have you posted the key to <a href="https://___.edu/sshkeys/?">https://___.edu/sshkeys/?</a></p></body></html><br/>
、私はHave you posted the key to
一部を取得するが、それはhttps:________
一部を除去します。
ほとんどの場合、すべてではなく、行のフォーマットが同じです。すなわち、日付時間、ユーザ、面白いもの。
これを解析してテキストとすべての面白いものを得る良い方法がありますか?
'get_text()を使うときに、あなたは' https://___.edu/sshkeys/? 'にキーを投稿しましたか? '(3/11/2016 3:11:57 PM) '。これまでのコードを投稿してください。ありがとう。 – alecxe
Hmm。私はあまりにも空想的ではなかった: 'soup = BeautifulSoup(i、" lxml ") soupy = soup.get_text()' –