2017-05-15 11 views
0

テキストファイルの行をバッファに読み込み、バッファがいっぱいになるとその行を出力するので、すべての行がバッファを通過した後に出力が部分的にソートされます。テキスト行内の点を特定する

出力は行のブロックになるので、出力の各ブロックの終わりをマークする方法が必要です。出力はテキストの行なので、テキストには任意の文字を含めることができるので、どの文字をマーカーとして使用するかはわかりません。私はアスキーnullまたはユニットセパレータを使用することを考えているが、これはテキストでもある可能性があるので、これが信頼できるかどうかはわかりません。あなたはすべてのbuffergroupのためのキーを設定することができるように

+1

問題を特定するために試したコードを投稿することができます。 –

+0

出力ファイルに分離可能な "レコード"がある場合、それはテキスト文書ではありません。それは構造化されています。多くの構造化ファイル形式があります。テキストレコードに任意の文字を使用できるようにしながら、レコードを分離できるものを選択します。 (BTW-XMLは、特定の文字を許可しないため、直接使用することはできません)出力ファイルにどのような特性が必要かは不明です。おそらくそれは追加可能である必要がありますか?他のプログラムがそれを読んでいますか? –

答えて

0

あなたが行を区別する方法がわからない場合、私はあなたが文章トークナイザツールを見てみましょう示唆、その

Hash<int,Buffer> myMap = new HashMap<>(); 
0

のようなものを地図を使用することができますこれは通常NLPで使用されます。これらのプログラムには、行を区別するパターンが含まれています。そうすれば、使用するキャラクターについて心配することなく、すべての日付を送って行を得ることができます。あなたのテキストを英語で書いていると仮定して、Javaのためのたくさんのライブラリがあります。

関連する問題