このページの「http://www.rottentomatoes.com/movie/box_office.php」でlynxコマンドを使用してプログラムを作成しようとしています。特定の問題....それだけでタイトルを取得します。私の問題は、タイトルには特殊文字や数字を入れることができ、すべてのタイトルは長さが変わることです。私は、ページ全体を解析し、このような行を見つけることができる正規表現を書いてみたいです.... (タイトルと次の番号の間にスペースを追加しました。リリース)正規表現解析の問題
1 -- 30% The Vow 1 $41.2M $41.2M $13.9k 2958
2 -- 53% Safe House 1 $40.2M $40.2M $12.9k 3119
3 -- 42% Journey 2: The Mysterious Island 1 $27.3M $27.3M $7.9k 3470
4 -- 57% Star Wars: Episode I - The Phantom Menace (in 3D) 1 $22.5M $22.5M $8.5k 2655
5 1 86% Chronicle 2 $12.1M $40.0M $4.2k 2908
私が出始めている正規表現は次のとおりです。
/(\d+)\s(\d+|\-\-)\s(\d+\%)\s
誰かが私をはるかに高く評価されるだろうに成功タイトルをつかむ方法を見つけ出す手助けができれば!ありがとうございました。
ページを解析するために、あなたの割り当てた、またはページを解析する正規表現を書くこと?前者の場合は、正規表現の代わりにDOMライブラリを使用することを検討する必要があります。 – Borealid
これを行うには正規表現を使用していますか?データはすでに正当化されているので、適切な列を切り捨ててトリム関数を適用するだけではどうですか? – VeeArr
私はあなたに完全に同意しますが、割り当てはlynxコマンドを使用してすべての情報を解析することです=/ – Trance339