私は250K以上のレコードを持つゲノミクスデータを含む300 GBのテキストファイルを持っています。悪いデータを持つレコードがいくつかあり、私たちのゲノムプログラム 'Popoolution'はアスタリスクで「悪い」レコードをコメントアウトすることができます。私たちの問題は、悪いレコードをコメントにするためにデータをロードするテキストエディタが見つからないということです。助言がありますか?私たちはWindowsとLinuxの両方のボックスを持っています。300 GBのテキストファイル(ゲノミクスデータ)の編集方法は?
UPDATE:詳しい情報
それは私たちがその後、コメントアウトすることができます行番号を与える「悪い」の記録に到達したときにプログラムPopoolution(https://code.google.com/p/popoolation/)がクラッシュ。具体的には、Perlから "F#€%&足場"というメッセージが表示されます。このマニュアルでは、アスタリスクを使用して悪い行をコメントアウトすることができます。悲しいことに、このプロセスを何度も繰り返す必要があります...
もう1つの考え方...テキストファイル全体を一度に開くことなく、アスタリスクを行に追加できる方法はありますか?これは、プロセスを未知数回繰り返さなければならないので、非常に便利です。
なぜそれをテキストエディタで開く必要がありますか?確かに250kのレコードをすべて手書きでコメントするつもりはないのですか? awkやsedを使ってみてください。 –
@Joshuaが示すように、それらの不良レコードのパターンを見つけ、awkまたはsedの問題を解決します。手動でチェックされる250KBのレコードは、生涯を意味します。 – fedorqui
私たちはNotepad ++でファイルを読み込もうとしましたが、読み込むのに24時間以上かかりました。 –