悪い質問タイトルで申し訳ありませんが、私はより良いものを見つけることができませんでした。正規表現で1つのダッシュだけの文字列を取得する
シーズン、エピソード、テレビ番組のタイトルを抽出する正規表現が必要です。
([\d]+x[\d]+)\s?[-]?\s?([\w\s]*)
この正規表現マッチRegex101 Example here
を参照してください:
01x02 - The Big Bran Hypothesis
01x07 - The Dumpling Paradox
01x07 - The Dumpling Paradox
06x04 - The Re
私が直面してる問題私が試した
<span class="topic">01x02 - The Big Bran Hypothesis</span><b
<td><b>01x07 - The Dumpling Paradox</b></td>
<title>Transcripts - Forever Dreaming :: 01x07 - The Dumpling Paradox - The Big Bang Theory</title>
<title>Transcripts - Forever Dreaming :: 06x04 - The Re-Entry Minimisation - The Big Bang Theory</title>
:私のファイルでは、彼らは次のように表示されますなしで最後のタイトルの残りの部分を取得する方法(「再エントリの最小化」)です。
2番目のキャプチャグループに-
を追加してみましたが、これもタイトルの後ろの部分が含まれています。
また、-
の肯定先読みを追加しようとしましたが、シーズンとエピソード後の最初の-
と一致しているため、これも機能しません。
私はこれを行う方法はかなり単純ですが、私はそれを理解することはできません。誰かアイデア?ありがとうございました!
[(\ d + x \ d +)\ s?([^ <] *) '](https://regex101.com/r/9IpNLa/1)を参照してください。 –
これは、 "The Big Bang Theory"のパートにも一致しています。例えば4番目の一致。 06x04 - Re-Entry Minimization - Big Bang Theory " – Igle
Regexはプレーンテキストに適用する必要があります。はい、あなたは['(\ d + x \ d +)\ s? - ?\ s?([^ - <] *(?:\ b- \ b [^ - <] *)*)'] https://regex101.com/r/9IpNLa/2)、本当に醜いです。 –