HTML文書のテキストファイルへのリンクをすべて取得する必要がありますが、これを実行する最良の方法はわかりませんが、私はルビーで次のように試しました.. 。* .txtファイルへのすべてのリンクを集める
line.scan(/<a href="([\w+:\/.-]*.txt)/)
が、私はこの表現は、テキストファイルを指しているすべての可能なリンクをカバーする場合、一部が内蔵されている場合は、このための正規表現、私は疑問に思ってわかりませんか?または巨大なWebページのテキストファイルへのすべてのリンクを取得するためのより良い方法を誰かが知っている場合。
、その後、すべてのリンクを収集するために、DOMパーサを使用します正規表現を使ってすべてのリンクの配列を調べ、 '.txt'で終わるものを探します。両方の作業を行うために正規表現を使用しないでください。 – CanSpice