1
10-Kファイルのセクションをスクラップしようとしています。私は「項目7(a)」の位置を特定するのに問題があります。 beautifulsoupが返すテキストから、その中に単語を持つことを促します。しかし、次のコードは、 'Item 7(a)'を含む文字列に対して機能しています。python string find関数がbeautifulsoupから返されたテキストから位置を指定しない
import urllib2
import re
import bs4 as bs
url=https://www.sec.gov/Archives/edgar/data/1580608/000158060817000015/santander201610-k.htm'
html = urllib2.urlopen(url).read().decode('utf8')
soup = bs.BeautifulSoup(html,'lxml')
text = soup.get_text()
text = text.encode('utf-8')
text = text.lower()
print type(text)
print len(text)
text1 = "hf dfbd item 7. abcd sfjsdf sdbfjkds item 7(a). adfbdf item 8. skjfbdk item 7. sdfkba ootgf sffdfd item 7(a). sfbdskf sfdf item 8. sdfbksdf "
print text.find('item 7(a)')
print text1.find('item 7(a)')
Output:
<type 'str'>
592214
-1
37
あなたは万が一python2を使用していますか? –
はい。私はPython 2.7を使用しています。私もPython 3.6で試しましたが、私は同じ結果を得ました。 – Vinay
'text'を表示しましたか?たぶんサーバーは、Webブラウザーとは異なる結果をもたらします。 – furas