私は美しいスープを使って特定のdivタグを取り出していますが、それは私が 単純な文字列のマッチングを使うことができないようです。美味しいスープのためのPython正規表現
ページは、Xが任意の長さの整数を表し
<div class="comment comment-xxxx...">
の形で私は無視する
<div class="comment form new"...>
の形でいくつかのタグ、および、いくつかのタグを有しています、楕円は空白で区切られた任意の数の他の値を表します(私が気にしていないもの)。私は 正しい正規表現を理解することはできません。特にPythonのreクラスを使ったことがないからです。
soup.find_all(class_="comment")
を使用して
はワードコメントで始まるすべてのタグを検索します。私は
soup.find_all(class_=re.compile(r'(comment)()(comment)'))
soup.find_all(class_=re.compile(r'comment comment.*'))
や他のバリエーションの多くを使用して試してみましたが、私はどのように正規表現式またはマッチ()の仕事について、ここで何かを明らかに不足していると思います。誰か助けてくれますか?
まず、BS3、BS4を使用していますか? 1つは 'findAll'、1つは' find_all'、 'findall'はありません... – abarnert
申し訳ありません、BS4 - 自分のコードから直接貼り付けて編集しませんでした。 – user1890572
BS3の答えがあったからね。でも、BS4の場合、クラスのスペースがあまり好きではないようですね。あるいは、私はBS4をよく知っていないかもしれません。私は ''コメント ''とマッチすることはできますが、 ''コメントのコメント ''ではマッチできません。私はそれを調べます。 – abarnert