IMDBのウェブサイトから特定のムービーレビューのレビューをクロールしようとしています。このため私は74ページあるのでループ内に埋め込んだクロールウェブを使用しています。ラピッドマイナーがクロールのWeb結果を保存しない
設定のイメージが添付されています。助けてください。これにひどく詰まっています。
クロールのWebのURLは次のとおりです。http://www.imdb.com/title/tt0454876/reviews?start=%{pagePos}
IMDBのウェブサイトから特定のムービーレビューのレビューをクロールしようとしています。このため私は74ページあるのでループ内に埋め込んだクロールウェブを使用しています。ラピッドマイナーがクロールのWeb結果を保存しない
設定のイメージが添付されています。助けてください。これにひどく詰まっています。
クロールのWebのURLは次のとおりです。http://www.imdb.com/title/tt0454876/reviews?start=%{pagePos}
私はそれを試したとき、私は403 forbidden
エラーを得ましたIMDBサービスは私がロボットだと思うからです。 Loop
をと使用すると、Loop
オペレータは待機を実装しないため、悪い習慣です。
このプロセスは、演算子に減らすことができます。重要なパラメータは以下のとおりです。
で物事を格納するフォルダを選択しますルールに一致する可能性のあるすべてのURLを抽出し、一致するものを保存します。この訪問は、サーバでロボットの除外を引き起こさないように、1000ミリ秒(遅延パラメータ)だけ遅延します。
これはあなたが最初になることを望みます。
私は既にマクロを値0として初期化しており、レビューのためにウェブページを作成するたびに10を追加しています。http://www.imdb.com/title/tt0454876/reviews?start=0 http:// www。 imdb.com/title/tt0454876/reviews?start=10 http://www.imdb.com/title/tt0454876/reviews?start=20など。それで、なぜ私はすべてのレビューを取得するために各ループで10の増分を使用しています。私の執行命令をどうやって修正すればいいのですか? –
また、私はコンテキストタブでマクロ名 'pagePos'と '0'として値を初期化しました。ループの中で何が実行命令であるべきか教えてくれますか?また、私はちょうどレビューをフェッチする必要があるようにクロールルールは何ですか? Rapidminerの初心者なので、助けてください。 –
現在のプロセスでは403エラーが発生します。その理由は、直接URLにアクセスするタイトなループで、 'Crawl Web'を正しく使用しないことが原因です。プロセスを単純化すると、 'Loop'演算子をまったく使用しないようにすることができます。私は私の答えを更新しました。 – awchisholm