2017-10-30 19 views
1

ベンダーのリンクディレクトリを掘り下げています。私はfind_allメソッドを使用してほしいすべてのデータを隔離したスープ&を作成しました。しかし、私が必要とする文字列は、スープ内にさらにネストされています。私はfind_allがリストを返すことを理解していますが、私は必要なものを得るためにリストをさらに蒸留する必要があります。私のラップトップを部屋の向こう側にチャックするので、助けてくれてありがとう。以下は私の現在のコードです。find_allの後にBeautifulSoupがhrefを取得します。

Pythonをよく理解しているが、美しいスープの基本的な理解だけで、コーディングの世界に新しい。

URL = get(https://www......) # importing the url I want to work over 
soup = BeautifulSoup(URL.text, 'html.parser') # making the soup 
IsoUrl = soup.find_all('a',class='xmd-listing-company-name') # Isolates the tags of the links I need. 

これは多かれ少なかれ私が立ち往生する場所です。上記の分離から、私は以下のものからなるリストを得る。以下はリストの1つの項目だけです。

<a class="xmd-listing-company-name"href="/rated.company.html" itemprop='url><span itemprop='name'>Company</span></a>' 

上記の文字列が10個以上あります。私は各文字列から '/rated.company.html'を掻き出して、反復するリストにそれらを追加したいと思っています。

どのようなガイダンスも大変ありがとうございます。私は何かを明確にする必要がある場合、私はあなたがfind_allの結果に単純にループすることができ、以下のようにHREFを抽出

+0

ちょうど真= HREFを追加( 'a'、class = 'xmd-listing-company-name'、href = True) –

答えて

0

を教えてください: IsoUrl = soup.find_allを動作するはず

results = [iso['href'] for iso in IsoUrl] 

# >>> ["/rated.company.html", ...] 
+0

ありがとうございました。他のフォーラムに基づいて同様のものを無駄にしようとしていた。あなたのアプローチは、私が必要としていた通りに正確に機能しまし再度ありがとう – ScoobertTheDoo551

+0

ようこそ!あなたはそれほど解決策ではありませんでした。この[doc](https://www.crummy.com/software/BeautifulSoup/bs4/doc/#attributes)をチェックして、他の方法のアイデアを得てください – PRMoureu

関連する問題