2012-04-27 6 views
1

HTMLファイルを解析する必要があります。これは最大500000リンクにすることができます。 うち400 000が私によって望まれるでしょう。Pythonのビッグリストとデータベースへの入力

新しいリストの条件を満たすすべてのリンクを配置してから、このリストの要素をリンクしてデータベースに配置する必要があります。

また、条件を満たすためのリンクがデータベース(sqlite)に追加する(およびコミットする)場合があります。 大量のコミットは問題ではありませんか?

電源などの障害が発生した場合にデータを失いたくないです。それはなぜ私がデータベースに挿入した後コミットしたい。

データベースに多数のアイテムを配置するにはどうすればよいですか?

答えて

4

だけで、すべての1000年の記録の後にコミットするか、これらの多くのリンクが複数のファイルにまたがっている場合はそう

1

は、およそ何が各ファイルを処理した後にコミットすることを検討しますか?次に、処理したファイルを覚えています。

単一のファイルの場合は、各コミットの後にクリーン継続のためにファイルオフセットを記録してください。

0

mongoのようなnoSQLデータベースを使用できます。 mongoでは、6つのフィールドにそれぞれ約15秒(私の古いラップトップで)追加された500.000のドキュメントと、難しいクエリでは約0.023秒を追加します。

関連する問題