text-extraction

    3

    1答えて

    私はを使用してPDFからフォントサイズを取得しています。 PDFTextStripperを延長し、writeStringの機能を無効にして、TextPositionオブジェクトにアクセスできます。 半分の時間で正常に動作します。しかし、それ以外の時はフォントサイズを '-1'として返します。何故ですか?これは私のアルゴリズムの残りの部分に影響します。 私は機能を試しましたgetHeight、get

    -1

    1答えて

    DOCX: 私はdocxファイルからテキストを抽出するための次のコードを試してみました。 docxが画像を持っているときは動作しません。をtxtをするPPTXについては unzip -p some.docx word/document.xml | sed -e 's/<[^>]\{1,\}>//g; s/[^[:print:]]\{1,\}//g' 、私はTXTを抽出するためのPerlスクリプ

    0

    1答えて

    私はpandasデータフレームにデータを持っています。私は "Impact Factor:"で始まり "&#"で終わる文字列の間のすべての内容を抽出する必要があります。コンテンツに「Impact Factor:」がない場合は、データフレームのその行にnullが必要です これは単一行のサンプルデータです。ジャーナル2と引用は500 &#その他の情報&#IDS番号レポート:私は以下のような内容にしたい

    0

    1答えて

    私は現在、デジタル署名(.JPGファイル)をPDFファイルの文字列 'コメント'の下に置く必要があるプロジェクトに取り組んでいます。 文字列「コメント」の座標や場所を見つけて、その下にいくつかの座標を配置することができます。 元々、ファイルは(.pdf)ではなく(.doc)です。 (.doc)の文字列の位置を 'コメント'にしてから、それを(.PDF)に変換する方が簡単でしょうか?もしそうなら、私

    1

    1答えて

    textractを使用して、.docファイルを純粋なテキストに変換しようとしています。 import textract text = textract.process('path/to/file.extension') しかし、私はこのエラー AttributeError: 'module' object has no attribute 'process'

    1

    5答えて

    私は以下のように、などの文字、記号、数字を含むことができる文字列のリストを持っている: list = ['\n', '', '0', '38059', '', '', '?_', '71229366', '', '1', '38059', '', '', '?_', '87640804', '', '2', '38059', '', '', '?_', '71758011', '', '', ':

    0

    2答えて

    textract私はパワーポイント(.PPTX)からテキスト、Word文書(に.docx)、およびテキストファイル(* .TXT)を解析するPythonライブラリtextractを使用し始めています。私はそれをテストするための簡単なスクリプトを書いた。私は、コマンドラインまたはアイドルのいずれかで、それを実行すると、私は最後の数行があることでトレースバックを得る # Python textract

    0

    1答えて

    :で区切られたデータの値をテキストファイルからコピーしようとしています。この形式のようなデータを持つ テキストファイル: I have 50+ text file contains data in this form: Type: Assume Number: 123456 Name: Assume Phone Number: 000-000 Email Address: [email p

    0

    1答えて

    これらのファイルタイプの画像を取り除く方法を探していましたが、これは私が思いついた解決方法です。これは、指定されたディレクトリ構造を反復し、適切な拡張子を持つファイルをコピーし、そのコピーの名前をfilename.zipに変更します。次に、zip構造をナビゲートし、適切な拡張子を持つすべてのピクチャタイプファイルを抽出し、元のファイル名に一意性の番号を付けて名前を変更します。最後に、作成した抽出さ

    0

    1答えて

    Pythonを使用してテキストファイルにランダム座標を連続的に追加する方法はありますか? import random import threading #Open a file named numbersmake.txt. outfile = open('new.txt', 'w') def coordinate(): threading.Timer(0.0000000000