2017-12-21 1 views
-2

にPythonで複数のdocxファイルを読むと、私はデータフレームは合計5ワード(.docxの)ファイルがある私のフォルダの一つでは、1つの変数

にこれらのファイルの内容を読み、店舗たい私は1つを読み取ることができていますPythonで以下の構文を使用しています。私はどのように複数のdocxファイルを1つのフォルダに格納してデータフレームに結果を保存することができます誰も助けてください

私はまた、特定のフォルダで利用可能なdocxファイルの名前になるか分からない。

import docx2txt 

# extract text 
text = docx2txt.process("file.docx") 

私は結果がfor loopを使用して、変数に出力を追加し、フォルダ内のすべてのファイルを取得するために使用globスクリプト

import os 
import docx2txt 
import glob 
import pandas as pd  

os.chdir("C:/Data") 

Descriptions = [] 
name = [] 

for file in glob.glob('*.docx'): 
    Descriptions.append(docx2txt.process(file))  
    name.append(file) 

data = pd.DataFrame(
    {'Descriptions': Descriptions, 
    'Name': name, 
    }) 

data.dtypes 
+1

の可能性のある重複(https://stackoverflow.com/questions/46910260/how [pythonのことで、同じフォルダ内の複数のdocxファイル内の表の見方]複数のdocxファイルを同じフォルダ単位で読むテーブル) –

答えて

1

の下に使用して取得することができています。

import glob 
text = '' 
for file in glob.glob('folder_name/*.docx'): 
    text += docx2txt.process(file) 
+0

ありがとうございました。あなたのロジックを使ってデータフレームを構築することができました。私は最初のクエリでスクリプトを更新しました – user3734568

+0

@ user3734568、それが助けられたとして受け入れられたとマークしてください。 :) – sid8491

0

これは動作するはずです:

import os 

directory = '.' 
extension = '.docx' 
text = '' 

for a_file in os.listdir(directory): 
    if a_file.endswith(extension): 
     text = docx2txt.process(a_file) 
関連する問題