2012-02-29 18 views
0

私は6000行以上のテキストを持っていますが、PDFからコピーしました。そして、PDFには最後に余分な改行があります。それぞれの可視線のテキスト内の数字の前に改行を挿入する

は、だから今、私は今1. textextexttexttexttext2. texttexttexttexttext3. texttexttexttext4. texttexttexttext ... texttexttext199. texttexttext200. texttexttext

のようなもので質問になってしまった私が手にするためにのみそれらの後にドットとスペースと数字の前に改行を入れて行う方法です:

1. textextexttexttexttext 
2. texttexttexttexttext 
3. texttexttexttext 
4. texttexttexttext 
... texttexttext 
199. texttexttext 
200. texttexttext 

PHPまたはJavaでアルゴリズムを使用するとよいでしょう。

+1

http://xkcd.com/208/ – talnicolas

+1

\r\nのすべてのインスタンスを置き換え、それは正しいですかどうか尋ねますまたは改善できるかどうかを判断する。 –

+1

タルニコロー、これは私が今着ているTシャツです:P – Joey

答えて

-1

ドウで

\n$1 

それとも

(?=\d+\.) 

によって正規表現

(\d+\.) 

を交換してください(CR + LF)(asc 13、asc 10)のように聞こえます。おそらく、元のコピー+貼り付けたテキストを取ると、あなたはその前にALGOを提案し、あなたの仕事をする人を求めることはできません\n

+0

通常(例外を除いて)PDFは、ページレイアウトを記述するためのグリフと位置を格納します。したがって、プレーンテキストは通常​​(例外を除いて)失われます。あなたがコピーしたものは、元のテキストや、スペースや改行、ハイフネーションなどのAcrobatに関する最良の推測が常に問題になります。 – Joey

+0

あなたがここで何を言おうとしているのか分かりません。 pdfからテキストをコピーしてテキストファイルに保存できる場合は、結果として得られる改行はWindowsマシンではcr + lfになります。 – horatio

+0

だから何ですか?これは、彼らが記述して解決しようとしている問題とは何の関係もありません。ヘック、それはCRLFや他の種類の改行でもありません。 – Joey

関連する問題