特定のWebサイトのhtmlをインデックス化してディスクにプルダウンするので、htmlのかなりのフラットファイルがあります。私はそれからhtmlを取ってデータを抽出し、必要なデータを含むjsonファイルを生成します。私は構造で多数のhtmlファイルを処理してデータを抽出するフラットテキストファイル用に最適なストレージメカニズム
/pages/website.com/index_date/sectionofsite/afile.jsonこの
/pages/website.com/index_date/sectionofsite/afile.html のようなものに終わる
私はjsonを生成するために再処理する必要があるかもしれないので、元のhtmlを維持する必要があります。問題は今私がギフトと平らなhtmlファイルのギグを持っているということです。
私はhtmlファイルを問題なく圧縮できますが、別の値を抽出するか、バグを修正するためにすべてを再処理する必要があることがあります。私は、HTMLを圧縮した場合、私は一連のファイルを再処理した場合に、問題がある、私は
- する必要があるだろうHTMLに
- 抽出データを解凍し、JSONを生成します。
- htmlを圧縮してzipに戻します。
現実には、トンとファイルがたくさんある場合、それは非常に遅いです。私はmongodb(とzlib圧縮を使ったWiredTiger Storage Engine)を、本質的なテキストでありバイナリではなくhtmlを格納するための可能な解決策と見ていましたが、mongo dbは多くのプレーンhtmlテキストでクラッシュし続けました。私はPHPライブラリは大きなバグだと思う。
プレーンテキストファイルを保存するにはファイルシステム以外の方法が必要ですが、高速アクセスする方法があります。記憶機構がプレーンテキストファイルを圧縮することが望ましいであろう。誰かが同じような問題に遭遇し、どのように解決したのか不思議です。