2016-10-27 7 views
0

非常に多くの場合、文字列を含む基本的に混合されたデータを含むさまざまな形式の非常に大きなバイナリファイル(50〜500Gb)を扱うことがあります。バイナリファイル用の文字列索引ツール

ファイル内の文字列を索引付けしてデータベースまたは索引を作成する必要があるため、クイック検索(基本検索または正規表現による複合)を実行できます。検索の出力は、もちろんバイナリファイル内の見つかった文字列のオフセットでなければなりません。

誰でも、この作業に役立つツール、フレームワーク、またはライブラリを知っていますか?

答えて

0

'strings -t d'(Linux/OS X)を実行すると、対応するオフセットで文字列を引き出し、それをSolrまたはElasticに配置できます。あなたは単にASCII以上のものを望むなら、それはより複雑になります。

Autopsyは、独自の文字列抽出コード(UTF-8とUTF-16用)を持ち、Solrに入れます(ファイル形式がサポートされている場合はTikaを使用します)。しかし、バイナリファイルからオフセットを記録しませんあなたのニーズを満たしていない可能性があります。

関連する問題