私はApache Nutchには新しく、mysqlデータベースから動的にURLを挿入したいと思います。 Apache Nutchはこのような可能性を提供していますか?そうでない場合は、私が学ぶことができる同様の実験はありますか?または何か提案?Apache Nutchにseed.txtの代わりにmysqlからURLを注入してください。
答えて
Nutch 1.x =>梱包状態ではありません。 Injectorコードを変更してMySQLから読み込むようにしなければなりませんが、これは確かに実行可能です。私は年前の顧客のためにそれをしました。
また、StormCrawlerを使用することもできます。このモジュールにはMySQLモジュールがあり、動作させるための特別な作業は必要ありません。私たちのブログのCloudsearch tutorialは、SCでMySQLを使用する方法を示しています。
Nutch 2.xはGORAを中間層として使用し、IIRCにはSQLプラグインがありました。そのステータスとこれが適切かどうかはわかりません。
Julienは、これを実現するためにINJECTORコードを変更する必要があると述べています。しかし、私はこれの回避策を提案することができます。サーバーモードでは、コマンドbin/nutch startserverを使用してNUTCHを使用し、データベースからシードURLをロードできます。次に、Nutch REST APIを使用して、データベースからロードされたURLを使用してシードリストを作成し、そのシードファイルをINJECTジョブ作成サービス呼び出しにポイントすることができます。
あなたが現在のREST APIに関するより詳細な情報を見つけることができます: -
http://nutch.apache.org/miredot/1.12/index.html#1153761698 またはhttps://docs.google.com/document/d/1OGg22ATohapP2ycewIaTcUnENc2FeyYzni0ED_Jjxz8/edit https://wiki.apache.org/nutch/NutchRESTAPI
- 1. Apache Nutch注入URL
- 2. Nutchがseed.txtで指定されたURL以外のURLをクロールしない
- 3. appendingPathComponent 'is unavailable:代わりにURLにappendingPathComponentを使用してください。
- 4. Apache Nutch:フェッチするURLがありません。シードリストとURLフィルタを確認してください。
- 5. メインの代わりにrun()を使用してください
- 6. スワイプジェスチャーの代わりにビューコントローラーをドラッグしてください。
- 7. Playframework:Twirlの代わりにScalatagsを使用してください
- 8. `inserted_at`の代わりに` created_at`を使用してください
- 9. ユーザロールの代わりにユーザロール(例:Admin、User)を入力してください。
- 10. Nutch注入を使用してコンテンツをウェブURLにインデクシング
- 11. google plusの代わりにwebviewをラッパーから開いてください
- 12. 代わりにsitecustomize.pyを使用してください:.bash_profile?
- 13. NotImplementedError:代わりにCrypto.Cipher.PKCS1_OAEPモジュールを使用してください。
- 14. 代わりにliを使用してください
- 15. Nutch 2.3の代わりにフェッチされたURLのみを生成する012
- 16. helvetica ttfまたは代わりにしてください!
- 17. コードブロックに空白の代わりにタブを挿入しないようにしてください
- 18. 通常のデバッグ用ファイルの代わりにJQuery minを代入してください
- 19. ブラウザを開く代わりにXMLファイルをダウンロードしてください。 MVC
- 20. エラー:object.Finalizeをオーバーライドしないでください。代わりに、デストラクタを提供してください
- 21. ファイルの代わりに変数にmofcomp.exeを使用してください。
- 22. 注釈の代わりに?
- 23. 挿入する代わりに、挿入する前に列を変更してください
- 24. テーブルの代わりに新しい行を付けてください
- 25. AIX5.2にApache、php、mysqlをインストールしてください
- 26. ダウンロード画像からURLを入力してください。
- 27. Apache Nutch Web CrawlingのシードURL
- 28. system32の代わりに独自のmsvcrt.dllを使用してください
- 29. controller.jsの代わりにdirective.jsのangularjsモジュールを使用してください。
- 30. Microsoft botのインデックスの代わりに説明を表示してください。
こんにちはジュリアン、あなたの答えに感謝。私はナッチだけに興味があります。はい、Apache Nutch 2.3.1のGoraの小道具にmysqlプラグインがありますが、それはデータを保存するためだけであり、URLの入力はしないと仮定しています。 mysqlとmongodbの両方のコメントを外すと何が起こるのか分かりません(mongodbでのみ結果を保存したい場合に備えて)。 – Sparkan
両方のコメントを外すと、恐らく私は思った素敵な混乱を招くでしょう;-)。私はNutch 1.xに固執していました(より良いパフォーマンス、少ない設定など...)、カスタムInjectorを書いてください。とにかく、GORAと同じシリアライゼーションを使って種を処理しない限り、Nutch2.xでも同じことをしなければなりません。これはおそらくあなたが望むものではありません。 –