PDFでは、 '\ n'などの制御文字を使用してレイアウトを制御するものはありません - PDFのグリフは正確な座標を使用して配置されます。行の変化を検出するために、テキストy座標(変換行列から抽出できる)を使用します。
var url = "https://cdn.mozilla.net/pdfjs/tracemonkey.pdf";
var pageNumber = 2;
// Load document
PDFJS.getDocument(url).then(function (doc) {
// Get a page
return doc.getPage(pageNumber);
}).then(function (pdfPage) {
// Get page text content
return pdfPage.getTextContent();
}).then(function (textContent) {
var p = null;
var lastY = -1;
textContent.items.forEach(function (i) {
// Tracking Y-coord and if changed create new p-tag
if (lastY != i.transform[5]) {
p = document.createElement("p");
document.body.appendChild(p);
lastY = i.transform[5];
}
p.textContent += i.str;
});
});
<script src="https://npmcdn.com/pdfjs-dist/build/pdf.js"></script>
あなたはstring.replace 'のようなもので、' \\ N 'に '\のN'と' \\ r'と同じで任意の '\のr'を交換しようとしたことがあり( '\ '\ n '、' \\ n'); '?、note:' \ r'(キャリッジリターン)を知らない人は、一般に改行とペアになりますいくつかの環境(窓など)で文字を –
ええ、試しました。 '\ n'は存在しません。私はpdf.jsが改行文字を見落とすだけであることを心配しています。 –