\ section {...}や\ newpageのようなラテックスタグを使わずにプレーンテキストを受信したいいくつかの.texファイルがあります。
これを達成する方法について誰も知りませんか? 私も.pdfファイルを持っていますが、そこからコードをコピーすると、いくつかの単語が連結してしまい、本当に悪いことになります。
ご存じのツールがありますか?texからテキストを抽出してラテックスタグを取り除きます
14
A
答えて
19
OpenDetexの最新バージョンをOpenDetex GitHub pageを参照してください。私の元のDeTeXのより現代的で派生したバージョンです。
私の遺産DeTeX home pageは、hereです。
従来のdetex-2.8.tarソースをそのまま使用したい場合は、hereとすることができます。
6
opendetex WindowsおよびLinux
はこちらから
http://opendetex.googlecode.com/files/opendetex-2.8.1.tar.bz2
http://code.google.com/p/opendetex/downloads/list
使用プログラムopendetexをダウンロードの両方で提供されています: http://code.google.com/p/opendetex/wiki/Usage
はあなたの選択の任意のディレクトリに解凍。 ダウンロードディレクトリに解凍してください。
任意の名前のディレクトリを作成します(オプションですが、作成するとうまくいきます)。ディレクトリ名が "my_paper"であるとします。あなたの論文を "my_paper"ディレクトリに入れてください。あなたの紙名がパスを通してproject.tex
移動
cd ~/Downloads/opendetex
コマンドを実行します
detex -n my_paper/project.tex > out.txt
どういたしまして一般的な形式
detex -n full_path_to_tex_file.tex > output_text_file.txt
関連する問題
- 1. 大きなpdfsからtexを抽出することができません
- 2. mhtからテキストを抽出します
- 3. テキストからJSONを抽出します。
- 4. Texファイルから著者名を抽出するR
- 5. TeX/MetaFontから数式を抽出する
- 6. HTMLからテキストをNLTKより速く抽出しますか?
- 7. jqueryを使用してhtmlからテキストを抽出します
- 8. Powershell:文字列をtexファイルから取り出してそれらを切り取る
- 9. ボレーアンドロイドは、取り出したjsonからdiv-containerを取り除きます。
- 10. pytesseractを使用して画像からテキストを抽出できません。
- 11. tesseractを使用して画像からテキストを抽出できません
- 12. URLからテキストを取り除く
- 13. アクセスクエリからテキストを取り除く
- 14. Perlを使用してWebページからテキストを取り除く
- 15. XMLファイルからテキストを抽出する
- 16. PDFファイルからテキストを抽出する
- 17. テキストから日付を抽出する
- 18. イメージからテキストを抽出する
- 19. IMacros:サイトからテキストを抽出する
- 20. htmlファイルからテキストを抽出する
- 21. HTMLからテキストを抽出する
- 22. テンプレートを使用してテキストからデータを抽出する
- 23. BeautifulSoupを使用してウェブサイトからテキストを抽出する
- 24. Pythonを使用してJavascriptからテキストを抽出する
- 25. PHPを使用してPDFからテキストを抽出する
- 26. Nginxを使用してURLからテキストを抽出する
- 27. VBAはウェブページからテキスト値を抽出しますか?
- 28. C#の特定の列からテキストを抽出しますか?
- 29. X11 GUIからテキストを抽出しますか?
- 30. テキストから動詞句をいつ抽出しますか?
であると言います! –
ASCIIテックスファイルでのみ動作します。 ASCII以外の文字でxelatexとUTF-8でエンコードされたtexファイルを使用している場合、detexはASCII以外の文字に対してjunkを出力します。 – Lucas
オープンソースで、いつでも修正できます。 –