I列データや文章のpython NLTK計算
どんな人世界私は
世界
のように私の言葉を分割され、ここで何をする必要があるか
の
すべての人に
男
ので。私はNLTKを使用せずにこれをしなければなりません。
私は1つを試してみましたが、それは私にユニコードデータを与えているが、私は適切なウルドゥー語でそれをしたいです。
コード:このコードの
import codecs
import re
import sys
import io
import itertools
fil1 = codecs.open(".txt","r+", encoding="utf-8")
fil3 = codecs.open(".txt","w",encoding="utf-8")
ans=[]
for line in fil1:
arr = line.split()
for i in range(len(arr)):
if i < len(arr)-1:
ans.append([[arr[i]], [arr[i+1]]])
print ans
出力:
[[U '\ u062f \ u0646 \ u06cc \ u0627']、[U '\ u06a9 \ u06d2']]、 [[U '\ u06a9 \ u06d2']、[U '\ u06a9 \ u0633 \ u06cc']]、 [[U '\ u06a9 \ u0633 \ u06cc']、[U '\ u0628 \ u06be \ u06cc'] ]、 [[U '\ u0628 \ u06be \ u06cc']、[U '\ u0627 \ u0646 \ u0633 \ u0627 \ u0646']]、 [[U '\ u0627 \ u0646 \ u0633 \ u0627 \ u0646'] 、[U '\ u06a9 \ u06cc']]、 [[U '\ u06a9 u06cc \']、[ U '\ u0633 \ u0628']]
方法NLTKまたは任意のライブラリを使用せずに、このように私のデータを分割するには?文字列はUnicodeとして保存され、リスト、dictsなどでそのように印刷されているので、
あなたが実行されているコードを追加していただけますか?また、むしろイメージよりも、テキストに出力を変更します。 – BenignBeppe
は大丈夫エンコーディングの問題であると思われる、ファイルに書き込み、彼らがどのように見えるかを参照しようとすると、 'UTF-8'を使用しようと、私は上記のコードと出力 – smartF
を追加している行って。 –