2017-03-02 15 views
1

私はすでに知っている多くの人が4月に行っているGSSを利用した、非常に特定のグローバルサイト検索機能を持つサイトで作業しています。私はサイトをクロールして、CloudsearchにXMLを送信する必要がありますが、これについてどうやってどうなるか混乱しています.WS Cloudsearchを使ってインターネット検索を行った後、数日。これまでは、Apache Nutchを使ってサイトをクロールしようと考えていますが、私は本当に入力を感謝します。前もって感謝します!Google Site SearchをAWS CloudSearchに置き換える

+0

あなたはhttp://docs.aws.amazon.com/cloudsearch/latest/developerguide/what-is-cloudsearch.htmlを読んでください。 –

+0

@RicardoC私は過去2〜3日間それらを読んできましたが、文書は私の知識ではクローラの使用を具体的に話しません。 –

+0

Amazon CloudSearchはウェブクローラではありません。 –

答えて

1

あなたは私たちのブログを見ましたか? Index the web with AWS CloudSearchIndex the web with StormCrawler (revisited)。 NutchとStormCrawlerを使ってAWS Cloudsearchにインデックスを付ける方法について説明しました。

検索が必要な場合は、代わりにElasticsearchとElastic Cloudをお勧めします。私はCloudsearchが遅く、面倒で高価であることを発見しました。また、StormCrawlerとApache NutchのためのElasticsearchのためのより多くのリソースがあります。

+0

Nutchについて言及した最初の記事を読んだことがあります。私は本当にElasticsearchの提案に感謝します。私は現時点ではサイトに取り組み、Google Site Searchの代替案を見つけようとしています。あなたはElastic Cloudがまともな代替品になると思いますか?それは吸うが、それはその特定の市場でGoogleの残酷な空白のように思える。再度、感謝します! –

+0

@EthanStepanianよろしくお願いします。 Elastic Cloudはクロール自体を助けませんが、StormCrawlerと組み合わせると良いアプローチになります。あるいは、Apache SOLRに基づいたホスティングされたソリューションがあり、Nutchのような別のクローラを使うこともできます。 –

関連する問題