2017-07-31 9 views
0

Goodreadsから引用符を削っています。引用者だけでなく、著者名が必要です。最後の子供のテキストを除くノードからテキストをぼかします

以下はHTMLソースです。

<div class="quoteText"> 
     “Don't cry because it's over, smile because it happened.” 
    <br> ― 
    <a class="authorOrTitle" href="/author/show/61105.Dr_Seuss">Dr. Seuss</a> 
</div> 

私は以下に試みましたが、著者情報が付属しています。

quotes = [quote.text.strip() for quote in soup.findAll('div', {'class':'quoteText'})] 

私もcontents[0]を使用してみましたが、それは複数行の引用符の場合には失敗しました。以下を参照してください:

あなたが quote.text.strip()を行う際に単純なものだ
<div class="quoteText"> 
     “You've gotta dance like there's nobody watching, 
<br> 
Love like you'll never be hurt, 
<br> 
Sing like there's nobody listening, 
<br> 
And live like it's heaven on earth.” 
    <br> ― 
    <a class="authorOrTitle" href="/author/show/1744830.William_W_Purkey">William W. Purkey</a> 
</div> 

答えて

1

あなたはちょうど\nで文字列を分割することができ、その場合の'“Don't cry because it's over, smile because it happened.”\n ―\n Dr. Seuss'を取得し、唯一の見積もりを取得します。 例: [quote.text.strip().split("\n")[0] for quote in soup.findAll("div", {"class":"quoteText"})]

あなたが引用符たくない場合(すなわちを。」と「)あなたはああ.replace()

+0

を使用して""ことによってそれを置き換えることができます。奇妙なことに、私の心を渡らなかった。 –

関連する問題