もしNutch 1.4がフォームの外に出てきたのかどうか疑問に思っていました。たとえば、ドロップダウンリストがある場合、ドロップダウンリストの項目から結合されたすべての可能なページを取得しようとしますか?フォームの上にnutchクロールはありませんか?
ありがとう
もしNutch 1.4がフォームの外に出てきたのかどうか疑問に思っていました。たとえば、ドロップダウンリストがある場合、ドロップダウンリストの項目から結合されたすべての可能なページを取得しようとしますか?フォームの上にnutchクロールはありませんか?
ありがとう
Nutchは、HTTPリクエストを介して目的のページのhtmlソースを取得します。今、ページのhtmlソースには、その中にコード化されたドロップダウンリストを含めることができます。それがdojo/ajaxのような複雑なスクリプトを使ってコード化されていれば、ブラウザが行うように解釈することはできません。ドロップダウンリストのアウトリンクがHTMLソースですぐに表示される場合、nutchはそれらのページをクロールします。通常のテキストコンテンツとは別に、NutchはHTMLページのJavaスクリプト部分の解析も行います。
これを確認するには、ページをbowser/wgetで開きます。メモ帳/ viのようなテキストエディタでページソースを表示します。そこにドロップダウンボックスへのアウトリンクが見えますか?はいの場合、nutchはそうでないアウトリンクをクロールします。