私は1年ほどNutchを見ておらず、かなり変化しているように見えます。再クロールに関するドキュメントは明確ではありません。既存のNutchインデックスを更新する最良の方法は何ですか?Nutchインデックスを更新する最良の方法は何ですか?
1
A
答えて
2
このスクリプトは、最初に私のために動作しませんでしたNutchのよくある質問の1、に緩く基づいています。
#!/bin/sh
#
# Automate crawling my site
#
crawldir=./crawl
urldir=./urls
NUTCH_HOME=${NUTCH_HOME:=.}
nutch=$NUTCH_HOME/bin/nutch
# Make sure the crawl directories exist
mkdir -p $crawldir/crawldb $crawldir/segments $crawldir/linkdb
# Inject the initial urls
$nutch inject $crawldir/crawldb $urldir
depth=1
while(true) ; do
echo "beginning crawl at depth $depth"
echo "-generate"
$nutch generate $crawldir/crawldb $crawldir/segments
if [ $? -ne 0 ] ; then
echo "finishing at depth $depth - no more urls"
break
fi
segment=`/bin/ls -rtd $crawldir/segments/*|tail -1`
echo "$nutch fetch $segment"
$nutch fetch $segment
if [ $? -ne 0 ] ; then
echo "fetch failed at depth $depth, deleting segment"
rm -rf $segment
continue;
fi
echo "$nutch updatedb $crawldir/crawldb $segment"
$nutch updatedb $crawldir/crawldb $segment
depth=`expr $depth + 1`
done
echo "$nutch mergesegs $crawldir/MERGEDsegs $crawldir/segments/*"
$nutch mergesegs $crawldir/MERGEDsegs $crawldir/segments/*
if [ $? -eq 0 ] ; then
rm -rf $crawldir/segments/*
mv $crawldir/MERGEDsegs/* $crawldir/segments
rmdir $crawldir/MERGEDsegs
else
echo "Something went wrong"
exit
fi
echo "$nutch invertlinks $crawldir/linkdb -dir $crawldir/segments"
$nutch invertlinks $crawldir/linkdb -dir $crawldir/segments
echo "$nutch index $crawldir/NEWindexes $crawldir/crawldb $crawldir/linkdb $crawldir/segments/*"
$nutch index $crawldir/NEWindexes $crawldir/crawldb $crawldir/linkdb \
$crawldir/segments/*
echo "$nutch dedup $crawldir/NEWindexes"
$nutch dedup $crawldir/NEWindexes
echo "$nutch merge $crawldir/MERGEDindexes $crawldir/NEWindexes"
$nutch merge $crawldir/MERGEDindexes $crawldir/NEWindexes
mv $crawldir/index $crawldir/OLDindexes
mv $crawldir/MERGEDindexes $crawldir/index
0
我々はSolrのとの組み合わせでのNutchを使用しています。私たちのNutchインデックスはapprです。 80 MB conatin arround 5000 Webサイト。これまでのところ、再クロールする最良の方法は、インデックスを削除してゼロから作成することです。
関連する問題
- 1. elasticsearchでデータをインデックスする最良の方法は何ですか?
- 2. SQL内のあるテーブルを別のテーブルから更新する最も良い方法は何ですか?
- 3. キューからアクティビティを更新する最良の方法
- 4. ライブデータベーステーブルを更新するための良い方法は何ですか?
- 5. マングースの異なる値を持つマルチプルレコードを更新する最良の方法は何ですか?
- 6. 私の更新ループを「スプライス」する最も良い方法は?
- 7. InputStreamを監視する最良の方法は何ですか?
- 8. HTML5ウェブサイトをテストする最良の方法は何ですか?
- 9. GitHubを検索する最良の方法は何ですか?
- 10. マインドマップデータを保存する最良の方法は何ですか?
- 11. 列挙をインクリメントする最良の方法は何ですか?
- 12. fopen()を使用する最良の方法は何ですか
- 13. キャリッジラインを模倣する最良の方法は何ですか?
- 14. .flaファイルをバッチコンパイルする最良の方法は何ですか?
- 15. サイトマップを生成する最良の方法は何ですか
- 16. サウンドをファイルにする最良の方法は何ですか?
- 17. ライブラリを整理する最良の方法は何ですか
- 18. フォームレイアウトを設計する最良の方法は何ですか
- 19. イオンアプリケーションコードを分割する最良の方法は何ですか?
- 20. Xcodeプロジェクトをバックアップする最良の方法は何ですか
- 21. httpclientをプールする最良の方法は何ですか?
- 22. javascriptをテストする最良の方法は何ですか?
- 23. Umbracoを開発する最良の方法は何ですか?
- 24. MVCリポジトリをテストする最良の方法は何ですか?
- 25. postgresデータベースをアーカイブする最良の方法は何ですか?
- 26. Atom Serverをテストする最良の方法は何ですか?
- 27. ビデオストリームを保存する最良の方法は何ですか?
- 28. フィーチャーファイルを整理する最良の方法は何ですか?
- 29. バイナリデータを表現する最良の方法は何ですか?
- 30. RedirectToActionをテストする最良の方法は何ですか?