pythonを使用して.doc、.ppt、および.xlsをlinuxのプレーンテキストに変換する方法について教えてください。実際にどのような変換方法も有用です。私はすでにOpen Officeを使用していましたが、Open Officeをインストールする必要がないソリューションが欲しいです。python Linux用のMicrosoft Officeドキュメントをプレーンテキストに変換する
答えて
私はコマンドライン - ソリューションのために行きます(そして、Python subprocess moduleを使ってPythonからツールを実行します)。 mswordは(catdoc)、エクセル(xls2csv)とPPT(catppt)用
変換器は、(ソース形式で)ここで見つけることができる:http://vitus.wagner.pp.ru/software/catdoc/。
catpptの有用性については実際にコメントできませんが、catdocとxls2csvはうまく機能します!
しかし、最初にあなたのディストリビューションリポジトリを検索してください...例えば、ubuntuでは、catdocはすぐに1つのapt-get awayです。
+1を行ってきました。 – Droogans
Microsoft OfficeドキュメントをHTMLまたは他の形式に変換するための通常のツールはmswordviewでした。これはその後、vwWareに名前が変更されました。あなたは、コマンドラインツールを探しているなら
、彼らが実際に変換を実行するためにAbiWordのを使用することをお勧め:あなたはライブラリを探しているなら
AbiWord --to=txt
、wvWare overview pageに開始します。彼らはまたa list of libraries and tools which read MS Office documentsを維持します。
Excelスプレッドシートの場合はxlwtが良いです。しかし、.doc
と.ppt
ファイルでは役に立ちません。
(あなたはまた、PyExceleratorのを聞いたことがあります。xlwtは、この、より良いので、私はあなたがxlwtとの方が良いと思う維持のフォークです。)
あなたはOpenOffice via Python APIにアクセスすることができます。
は、ベースとしてこれを使用してみてください:http://wiki.services.openoffice.org/wiki/Odt2txt.pyコマンドラインで
XMLベースのオフィスファイルをXSLTを使って過去に使用可能なものに処理するのに成功しました。それは必ずしもPythonベースのソリューションではありませんが、それは仕事を完了します。
ここに同じ問題があります。以下は、dir 'docs /'内のすべてのdocファイルをcatdocを使ってdir 'txts /'に変換する簡単なスクリプトです。それが誰かを助けることを願っています:
#!/usr/bin/env python
# -*- coding: utf-8 -*-
import glob, re, os
f = glob.glob('docs/*.doc') + glob.glob('docs/*.DOC')
outDir = 'txts'
if not os.path.exists(outDir):
os.makedirs(outDir)
for i in f:
os.system("catdoc -w '%s' > '%s'" %
(i, outDir + '/' + re.sub(r'.*/([^.]+)\.doc', r'\1.txt', i,
flags=re.IGNORECASE)))
- 1. Microsoft OfficeドキュメントとPDFドキュメントをJavaでイメージファイルに変換
- 2. Microsoft Officeドキュメントを自動的に変換する最善の方法
- 3. PythonでプレーンテキストをPDFに変換する
- 4. Microsoftグラフ用Microsoft Office用Api
- 5. Microsoft Graphを使用してOfficeドキュメントのカスタム設定を読む
- 6. Microsoft Office 2013を使用してMicrosoft Officeを使用して開発する2016
- 7. HTMLをプレーンテキストに変換しますか?
- 8. reStructuredTextをプレーンテキストに変換する方法
- 9. 7bitテキストをプレーンテキストperlに変換する
- 10. Bbcodeをプレーンテキストに変換する
- 11. HTMLテキストをプレーンテキストに変換する
- 12. rtfをプレーンテキストに変換するスピードアップ
- 13. ウェブページをプレーンテキストに変換する..?
- 14. Officeドキュメントをプログラムまたはサードパーティ製のツールXPSファイルに変換する
- 15. のMicrosoft Officeカスタマイズインストーラーエラー
- 16. Microsoft Dynamics CRM OnlineでMicrosoft Office 365オンラインアウトルックを使用する方法
- 17. MICROSOFT OFFICE 2010
- 18. Microsoft OfficeのSVNリビジョン
- 19. Microsoft Office 2016、SVGをインポートするには?
- 20. javascriptを使用してプレーンテキストをHTMLに変換します。
- 21. Microsoft GraphはOffice 365専用ですか?
- 22. Officeドキュメントの設定
- 23. パイプサブプロセスをLinuxのファイルに変換する
- 24. OCR AイメージMicrosoft Officeドキュメントイメージングライブラリを使用
- 25. Microsoft Officeの相互運用エクセル
- 26. FSharpとMicrosoft Office PIA
- 27. VB.NET Microsoft Office Interopブックマーク
- 28. Microsoft Graphを使用してMSWordドキュメントを他の形式に変換することはできますか?
- 29. anglejsコントローラでhtmlをプレーンテキストに変換するには?
- 30. Microsoft Officeファイル用Android APIまたはライブラリ
私はOPが望んでいただけのように、オープンオフィス形式を使用していないため、コマンドライン溶液で – Tim