2017-06-12 13 views
-1

一部のCSV文書でテキスト解析を開始しています。しかし私のCSVファイルには興味のない単語がいくつかありますので、このCSVファイルを解析したpythonコードを作成して解析用に5単語以上含まれている文章のみを残したいと思いますどこで私のコードを作成し始めるべきか、助けてください。csv文書のテキストの処理

例:これは(Pythonの3.5で)動作するはず

入力文書 enter image description here

出力文書 enter image description here

+0

"python csv tutorial"のGoogle - あなたは 'csv'モジュールと、あなたのプログラムにcsvファイルの内容を読み込む方法について学びます。これが完了すると、設定した基準を満たさない行を除外することができます。 – PaulMcG

+0

まず、入力データの例と取得したい出力を入れてください。 – jberrio

答えて

2

lines = [] 
finalLines = [] 
toRemove = ['a', 'in', 'the'] 

with open('export.csv') as f: 
    lines.append(f.readlines()) 

for line in lines: 
    temp = list(csv.reader(line)) 
    sentence = '' 
    for word in temp[0][0].split(): 
     if (word not in toRemove): 
      sentence = sentence + ' ' + word 
    finalLines.append(sentence.strip()) 

print(finalLines) 
1

あなたはあなたの仕事を効率的に成し遂げることができ、あなたがpandas(Pythonライブラリが広く使われている データ操作)。

http://pandas.pydata.org/pandas-docs/stable/

注:ここでは公式のパンダのドキュメントへのリンクがあるパンダが組み込まれている機能のcsvファイルを読むため。 'skiprow'パラメータを使用すると、必要のないスキップを行い、regexを適用してテキストをフィルタリングすることができます。

関連する問題