私はあらゆるフォーマットのファイルをテキストに変換できるコンバータを手に入れようとしているので、処理が容易になります。私はPython textract
ライブラリを使用しました。ここ
はドキュメントです:https://textract.readthedocs.io/en/stable/どのように私は任意の形式のファイルをPython 3.6を使用してテキスト形式に変換できますか?
私はpip
を使用してインストールして、それを使用しようとしました。しかし、エラーが発生し、解決方法を理解できませんでした。
>>> import textract
>>> text = textract.process('C:\Users\beta\Desktop\Projects Done With Specification.pdf', method='pdfminer')
File "<stdin>", line 1
SyntaxError: (unicode error) 'unicodeescape' codec can't decode bytes in position 2-3: truncated \UXXXXXXXX escape
でも、方法を指定せずにコマンドを試してみました。
>>> import textract
>>> text = textract.process('C:\Users\beta\Desktop\Projects Done With Specification.pdf')
File "<stdin>", line 1
SyntaxError: (unicode error) 'unicodeescape' codec can't decode bytes in position 2-3: truncated \UXXXXXXXX escape
あなたの提案でこの問題を取り除く方法を教えてください。可能であれば、私に解決策を提案してください。textract
の代わりに便利なことがあれば、それでも私に提案することができます。私は聞いています。
'C Specification.pdfで行わ/ユーザ/ベータ/デスクトップ/プロジェクト'だから、あなたはunixの[strings](http://www.linfo.org/strings.html)コマンドのように、ファイルからすべての文字列を抽出したいのですか? – ChatterOne