ヒンディー語のコンテンツをpdfファイルからコピーできません。そのコンテンツをコピー/ペーストしようとすると、別のヒンディー語の文字に変わります。ペースト状の後ヒンディー語からpdf
例 - オリジナル - विधानसभा
नरधरनसभर
それはこのように表示されます。
正確なヒンディー語の文字を手に入れることができますか?
ヒンディー語のコンテンツをpdfファイルからコピーできません。そのコンテンツをコピー/ペーストしようとすると、別のヒンディー語の文字に変わります。ペースト状の後ヒンディー語からpdf
例 - オリジナル - विधानसभा
नरधरनसभर
それはこのように表示されます。
正確なヒンディー語の文字を手に入れることができますか?
PDFの作成に使用したものは何ですか?
埋め込まれたフォントサブセットを使用して作成された可能性があります.Unicodeマッピングはありません。基本的に、PDFのコンテンツで使用される文字のコードはPDFに埋め込まれたグリフにマップされますが、これらのコードから通常のUnicodeコードへのマッピングはありません。元の内容を抽出する唯一の方法は、何らかの形のOCRを使用することです。
別の可能性として、貼り付けるアプリケーションが文字を正しく整形していない可能性があります。
"いいえtoUnicodeマッピング" - または誤解を招くもの、cf. https://stackoverflow.com/a/30804279/1729265 – mkl
ocrソリューションをお試しください。誤解を招くまたは欠落したテキスト情報を含む多くの文書、特にヒンディー語の文書があります。 – mkl