2017-02-09 7 views
0

ウェブサイトを自分のコレクションにインデックスしたいのですが、基本的には、すべての投稿のURLをループしてWordpressウェブサイトのインデックスを作成します。URLのタイプのドキュメントをコレクションに追加できますか?

など。

url=http://www.szirine.com/blog/2016/02/07/anne-dunn/ 

勿論、理想的に私は、例えば 、繰り返しインデックスドメイン全体またはURIにできるようにしたいでしょう

url=http://www.szirine.com/ 
url=http://www.szirine.com/blog/ 

答えて

2

現時点で最適な解決策は、BluemixのDiscovery ServiceダッシュボードにあるData Crawlerを使用することです。

v1.3.0のデータクローラでは、にはHTTPまたはHTTPS経由でWebサイトをクロールするネイティブの方法がありません。これは、将来のバージョンのData Crawlerで変更される可能性があります。

現在のところ、広範に利用可能なミラーリングモードのHTTPクライアントを使用してウェブクロールを模倣することができます。

ウェブサイトをミラーリングするには、wget --mirror http://www.example.comを使用してください。詳細については、上記のリンク先のドキュメントをお読みください。

ネイティブウェブクロールが大変ご希望の場合は、チケットを開いてこの機能の需要がどれほど強いかを理解できるようにします。

ワンノート:wget for Windowsが存在しますが、Data Crawlerはv1.3.0時点でWindowsをサポートしていないため、現時点ではあまり価値がありません。

+0

データクローラはどこですか?私はダッシュボードで見つけられないようです。 – robyates

+0

少し残念ですが、残念です。 https://console.ng.bluemix.net/dashboard/appsにアクセスし、下部にあるサービスのリストからDiscoveryをクリックします。 Discovery Serviceのインスタンスを自分で作成していない場合は、[Create Service]ボタンを使用してDiscovery Serviceのインスタンスを作成する必要があります。 Discovery Serviceのインスタンスのダッシュボードで、「使用目的」セクションを探します。 Data Crawlerのダウンロードリンクは、その段落にあります。 –

+0

ありがとうございました。個々のスクラップされたhtmlファイルをループしなければならないので、私が望んでいたものではありません。 wgetコマンドとクローラは、Webページを取得します。この場合はWordPressサイトですので、WP REST APIを使用することもできます.GET/wp-json/wp/v2/postsを使用するとJSONを取得できます。 – remkohdev

関連する問題