2011-10-30 13 views
1

Excelファイル内のテキストデータを分析したいと思います。 私はPython経由でExcelファイルを読む方法を知っていますが、各データはリストの1つの値になります。しかし、私は各セルのテキストを分析したいと思います。私は、このような「IT」の周波数として、たとえば、NLTKを使用して、金融業界の企業情報を分析したいと思いますExcelファイルのNLTK用Python

 
NAME INDUSTRY  INFO  
A  FINANCIAL  THIS COMPANY IS BLA BLA BLA 
B  MANUFACTURE  IT IS LALALALALALALALALA  
C  FINANCIAL  THAT IS SOSOSOSOSOSOSOSO  
D  AGRICULTURE  WHYWHYWHYWHYWHY 

はここでExcelファイルの私の例です。

これは私が(はい、それは動作しません!)、これまで持っているものです。

import xlrd 
aa='c:/book3.xls' 
wb = xlrd.open_workbook(aa) 
wb.sheet_names() 
sh = wb.sheet_by_index(0) 

for rownum in range(sh.nrows): 
    print nltk.word_tokenize(sh.row_values(rownum)) 
+2

どうしたらうまくいかないのですか?それは "動作しません"という方法がたくさんある可能性があります。エラーコード(トレースバック全体)、または予期しない動作を教えてください。 – Blender

答えて

0

あなたがword_tokenizeする行のすべての値を渡しているが、あなたは第三にあるもののみに関心がありますカラム。ヘッダー行も処理しています。試してみてください:

import xlrd 
book = xlrd.open_workbook("your_input_file.xls") 
sheet = book.sheet_by_index(0) 
for row_index in xrange(1, sheet.nrows): # skip heading row 
    name, industry, info = sheet.row_values(row_index, end_colx=3) 
    print "Row %d: name=%r industry=%r info=%r" % 
     (row_index + 1, name, industry, info) 
    print nltk.word_tokenize(info) # or whatever else you want to do 
関連する問題