私はPDFの内容を作成する必要があります。PDFの内容を作成
-2
A
答えて
0
collections.Counter
を使用すると、単語数を把握できます。正規表現を使ってページ上のすべての単語をキャッチし、それぞれをカウンターに追加してから次のページに移動します。ルックアップインデックスをすべての単語に対して同時に保存し、一般的な単語(counter[word] > threshold
)をフィルタリングするか、ドキュメントを再度実行して、一般的な単語のみのインデックスを作成することができます。
a)これはやや遅くなります b) 'a'、 'the'、 'and'などのような単語を扱う必要があります。
1
すべてのテキストをPythonで文字列として使用している場合は、Natural Language ToolkitをPythonに使用することができます。 from hereをダウンロードできます。
例:
import nltk, re, pprint
from nltk import FreqDist
tokens = nltk.word_tokenize(pdf_text)
text = nltk.Text(tokens)
fdist = FreqDist(text)
vocabulary = fdist.keys()
print vocabulary[:50] # Print the 50 most common words
1
使用
pdftotext
テキストファイルにあなたのPDFファイルをダンプします。これは、subprocess.call
を使ってPythonスクリプトを通して呼び出すことができます。最も一般的な単語を見つけるために使用
collections.Counter.most_common
またはntlk
:import collections keywords = collections.Counter(open(<...>).read()).most_common(20)
はthis questionを参照してください。
関連する問題
- 1. iText5:PDFを作成中にヘッダーの内容が2回表示される
- 2. pdfファイルの内容をコンソールに出力
- 3. Windowsの検索PDFの内容
- 4. pdfとprintの内容の改ページ
- 5. SAS ODS PDF:ここでは内容
- 6. 内容を開かずにPDF内を検索
- 7. itextsharpのテンプレートからpdfを作成し、内容の処理として出力します。
- 8. dompdf作成pdf
- 9. ディレクトリの内容を使ってウェブサイトのテーブルを作成する
- 10. PDFボックスがゼロビットを作成するPDF
- 11. の内容を依頼する前にファイルを作成する
- 12. Excelスプレッドシートの内容の辞書を作成する方法は?
- 13. ファイルの内容を保持できるJSONオブジェクトの作成
- 14. 端末のpdfファイルの内容を検索できません
- 15. iFrameにPDFの内容を表示する(ファイルへのパス)
- 16. PDFページの内容を個々のページにエクスポート
- 17. ハスケル操作ファイルの内容
- 18. PAppletの内容からBufferedImageを作成する
- 19. Apache仮想ディレクトリをzipファイルの内容から作成する
- 20. Excel VBAでセルの内容からハイパーリンクを作成する
- 21. ファイルの内容からPHP配列を作成する
- 22. テキストファイルの内容から変数を作成する
- 23. 各ページに異なる内容のコンテンツページを動的に作成
- 24. EditTextとその内容からビットマップイメージを作成する
- 25. sqliteデータベースで作成されたテーブルの内容を表示
- 26. ルームパーシスタンスライブラリで作成したデータベースの内容を表示
- 27. djangoディレクトリの内容からリンクを作成する
- 28. カスタムセルの内容は、私は、カスタム・テーブル・ビューを作成したい
- 29. (PHP)可変内容のHTMLファイルを作成する
- 30. BIRTを使用した動的PDF内部リンクの作成
これはまだ私にhttp://stackoverflow.com/questions/6822884/how-do-i-index-pdf-files-and-search-for-keywordsの重複のように見えます。どのように違うのですか? – katrielalex