2016-03-23 8 views
-1

Python 2.7を使用してIMチャットログを解析する際に問題が発生しています。私は現在BeautifulSoup.get_textを使用しています。これは一般的には機能しますが、面白いものを隠すことがあります。例えば:この場合Pythonでチャットログを解析中、現在BeautifulSoupを使っています

<font color="#A82F2F"><font size="2">(3/11/2016 3:11:57 PM)</font> <b>user name:</b></font> <html xmlns='http://jabber.org/protocol/xhtml-im'><body xmlns='http://www.w3.org/1999/xhtml'><p>Have you posted the key to <a href="https://___.edu/sshkeys/?">https://___.edu/sshkeys/?</a></p></body></html><br/> 

、私はHave you posted the key to一部を取得するが、それはhttps:________一部を除去します。

ほとんどの場合、すべてではなく、行のフォーマットが同じです。すなわち、日付時間、ユーザ、面白いもの。

これを解析してテキストとすべての面白いものを得る良い方法がありますか?

+0

'get_text()を使うときに、あなたは' https://___.edu/sshkeys/? 'にキーを投稿しましたか? '(3/11/2016 3:11:57 PM) '。これまでのコードを投稿してください。ありがとう。 – alecxe

+0

Hmm。私はあまりにも空想的ではなかった: 'soup = BeautifulSoup(i、" lxml ") soupy = soup.get_text()' –

答えて

0

あなたはfind_allを利用することができます

for anchor in soup.find_all('a', href=True): 
    print("The anchor url={} text={}".format(anchor['href'], anchor['text']) 

あなたがこの情報を出力したいかに応じて、多かれ少なかれ賢いを取得する必要があるだろう。

関連する問題