既存のテキストファイルから情報をコピーし、同じ行にposタグを追加して新しいファイルに書き込む必要がありますが、正しい出力を得る方法がありません、 前もって感謝します。タブで区切られた列にnltk.pos_tagsの出力を書き込む
私の現在の出力:
0 5 1001 China
5 7 1002 's
8 17 1003 state-run
18 23 1004 media
24 27 1005 say
28 29 1006 a
NNP POS JJ NNS VBP DT
コード:
import sys
import nltk
def main():
list1 = []
read = open("en.tok.off", "r")
data = read.read()
result = ''.join([i for i in data if not i.isdigit()])
result = result.split()
data3 = nltk.pos_tag(result)
words, tags = zip(*data3)
tags = " ".join(tags)
print(tags)
outfile = open("en.tok.off.pos", "w")
outfile.write(data)
outfile.write(tags)
outfile.close()
main()
私は5 7 1002 's
後の同じ行に0 5 1001 China
とPOS
で5列目にNNPをしたい、など
所望の出力:
0 5 1001 China NNP
5 7 1002 's POS
8 17 1003 state-run JJ
インデントでこれをフォーマットしてください。 – mauve