私は巨大なログファイル〜4GBを持っています。私はログファイルを1行ずつ解析する必要があります。それぞれの行について、データベースを照会し、別のcsvファイルに接続し、さまざまなソースからデータを結合します。 実行時間は2日近くです。しかし、残念ながら、クエリ中にMySQLサーバへの接続が失われたような理由で、これまでの解析をすべて失ってしまい、何度も何度もスクリプトを実行する必要がありました。それから、最後の1週間、私はこのスクリプトを何度か実行しました。以前のすべての解析を失いました。スクリプトは最終結果をcsvファイルに書き込まなければなりませんでした。私はこの問題を回避するための解決策を探していますが、私は何ができますか? プロセスの最後の状態をどこかで保持する方法はありますか?毎回最初から実行するのではなく、プロセスの最後の点から再実行しますか?またはこの中断を回避できるその他のソリューションPython dbの接続が途中で途絶えて、巨大なログファイルを解析しています
0
A
答えて
0
上記の問題を解決するには上記のディスカッション私はデータベースに一度問い合わせ、私は辞書として保持し、次にキーを辞書に入れます。それは時間の実行をスピードアップしますが、接続が失われても処理にはもう影響しません。時間の実行が20分に短縮されたことに言及したいと思います。それは信じられないです!!辞書のおかげで...
関連する問題
- 1. リーグ/ sftp接続が途中で終了しました
- 2. UILabelの複数行が途中で途切れてしまいます
- 3. ローテーションが途中でない
- 4. クライアントが接続を途中で切断し、nginxの
- 5. カッサンドラは途中で接続を終了しますか?
- 6. 途中で途中でループを止める - Python
- 7. 途中でXMLページからのリンクを解析して追加するCrawlspider
- 8. ソースファイルにヘッダを入れてもUnicode BOMが途中で途切れている
- 9. Pythonマルチプロセッシングが途中で終了する
- 10. テキストが途中
- 11. AuthenticationHandlerが途中でリクエストを終了しています
- 12. Named Pipeがスクリプトの途中で終了していますか?
- 13. mysql接続をpythonスレッドに渡すとパイプが途切れる
- 14. Cakephpテストは途中で中断しています
- 15. Do-Whileループが途中で終了しています
- 16. ダイグラフシリーズの途中で色を変える
- 17. DBがDjangoで絶え間なく爆発しています
- 18. Javaフォーマットが途中です
- 19. Grep巨大なログファイルのパターンが多い
- 20. SoundPlayer.PlaySyncの途中で中止
- 21. ウェブページローディングが途中でスクロール
- 22. 巨大なJSONファイルを解析する
- 23. gulpの依存関係が途中で詰まっている
- 24. Ruby 1.9.3/Passenger 3.0.9のアップグレードが途中で途中で終了する
- 25. Pythonでファイルの途中に行を挿入しますか?
- 26. ログファイルの解析Python
- 27. Golang TCPファイル転送が途中で止まってしまう
- 28. 巨大なファイルの解析のアルゴリズム
- 29. コードの途中でArduinoがフリーズしているのはなぜですか?
- 30. php echo gzippedファイルが途中で途切れる
私の考え:一度に完全なデータベースを読み込まないで、一度に50を取ってください。 – Xevaquor
どのようにすればいいですか?各行でユーザー名を抽出し、dbにクエリしてユーザー情報を抽出します。あなたはユーザー名のリストを保存してから、50人のユーザー名をクエリするのですか? –
申し訳ありませんが、誤解された質問(私はあなたがDBから読んでいることを忘れないで保存する)。しかし、最後に処理された行番号を覚えていれば助かりますか?この番号をファイルに保存して、その行からクラッシュを再開することができますか? CSVファイルの場合、n行をスキップするのは簡単です – Xevaquor