私は、Python 3.5とその機能の1つがYouTubeチャンネルのURLを取得する必要があるre
モジュールを使用してスクレーパー/ Webクローラーを開発しています。私はこれを達成するために、正規表現のマッチングを含むコードの以下の部分を使用しています:正規表現を使用して特定の情報を含まないURLを見つけよう
href = re.compile("(/user/|/channel/)(.+)")
何それは返すべきであることは/user/username
または/channel/channelname
のようなものです。これは大部分が成功していますが、今度は/user/username/videos?view=60
などの詳細情報や、username/
部分の後に続く何かの情報を含むURLの種類を取得します。
この問題をアドレスする試みにおいて、ノー成功と他のバリエーションと一緒として
href = re.compile("(/user/|/channel/)(?!(videos?view=60)(.+)")
上記のコードのビットを書き直し。 URLにvideos?view=60
が含まれていないURLをフェッチするようにコードを書き直すにはどうすればよいですか?
... '(?=/| $)'ここで役に立たないようです... –
@ l'L l、同意し、取り除いた – RomanPerekhrest
@RomanPerekhrestありがとう!これはうまくいった。 – erik7970