2017-03-22 21 views
-1

だから私はかなりPythonには新しく、おそらく簡単な質問をしています。私は、私は章の名前、セクション名とテキストをdocxファイルから抽出してテーブルに転送する方法を探しています。最初の行には章名、2行目、3行目のテキスト章から。ある時点で追加したい別のものは、テキストの新しい段落ごとに新しい行があります。私は心の中で次のステップを持っていたが、私はそれが行くための正しい方法であるかどうかを心から疑問:Python、テキストマイニング、docx to table(CSV)

  1. オープンワード文書

    1.A.ワード文書を読む

    1.b。見出しを定義し、小見出し、脚注&ヘッダ

  2. 2.a.節新しいファイルを作成します。 9行

  3. 名前各行事前に定義されたテキストを持つヘッダ内

  4. 塗りつぶしを持つテーブルを作成します。法的文書

    「パートタイトル章節サブセクションの記事番号記事のテキスト 記事のタイトルリファレンス」

  5. カテゴリのランキングを定義します。

    5.a.テーブルに順位を付け、行1は、文書名を含む

    5.B:行2は、チャプター名、行3セクション名などが含まれている

  6. 読むワード文書開始から最初に

  7. ランキング定義

    6.a:定義されたランクのテキストをコピーする

    6b。

正しい行にコピーしたテキストをファイルに追加私がdocxファイルとxlmlに見てきたが、私はそれは私に私が探している結果が得られますかどうかを疑問に思います。

+5

最も有用なアドバイスは、あなたが何か「開始」/「試みる」ことです。そして、あなたがどこかでいつもどこかで立ち往生したら、あなたは戻ってきます。 See [ask]。 –

答えて

0

docxとCSVまたはopenpyxlモジュールが必要です。また、努力が必要です。あなたがCSVに保存したいものを区別する方法を見つけて、この検出と記憶をループで実行し、何もする必要がないときに感知して停止させます。それはあなたがこのタイプの質問で得られる最もアドバイスです。