1
Excelファイル内のテキストデータを分析したいと思います。 私はPython経由でExcelファイルを読む方法を知っていますが、各データはリストの1つの値になります。しかし、私は各セルのテキストを分析したいと思います。私は、このような「IT」の周波数として、たとえば、NLTKを使用して、金融業界の企業情報を分析したいと思いますExcelファイルのNLTK用Python
NAME INDUSTRY INFO A FINANCIAL THIS COMPANY IS BLA BLA BLA B MANUFACTURE IT IS LALALALALALALALALA C FINANCIAL THAT IS SOSOSOSOSOSOSOSO D AGRICULTURE WHYWHYWHYWHYWHY
:
はここでExcelファイルの私の例です。
これは私が(はい、それは動作しません!)、これまで持っているものです。
import xlrd
aa='c:/book3.xls'
wb = xlrd.open_workbook(aa)
wb.sheet_names()
sh = wb.sheet_by_index(0)
for rownum in range(sh.nrows):
print nltk.word_tokenize(sh.row_values(rownum))
どうしたらうまくいかないのですか?それは "動作しません"という方法がたくさんある可能性があります。エラーコード(トレースバック全体)、または予期しない動作を教えてください。 – Blender