正規表現を生成するコードや、HTML文書に基づいてリンクを解析するXPathを記述することはできますか?自己学習の正規表現またはxpathクエリですか?
私が望むのは、一部のリンクのページを解析することです。私が知っている唯一の事は、ページ上のリンクの大部分がそれらのリンクであるということです。
簡単な例として、Google検索エンジンの結果ページ(例:this)をご覧ください。リンクの大半は、検索結果からのものであり、このようなものになります。
<h3 class="r"><a onmousedown="return rwt(this,'','','res','1','AFQjCNERidL9Hb6OvGW93_Y6MRj3aTdMVA','')" class="l" href="http://stackoverflow.com/"><em>Stack Overflow</em></a></h3>
それはGoogleが彼らのプレゼンテーションを変更しても、これを学習し、これを認識し、すべてのリンクを解析することができ、コードを書くことは可能ですか?
私はすべてのリンクを解析し、各タグの前後にXの文字を見て、それから作業することを考えています。
これもXPathで行うことができると私は理解していますが、問題は同じです。このコンテンツを解析し、有効なXPathを生成してserpリンクを見つけることはできますか?
uh ...リンクは常にhref = "something"ですか? – dss539