1
私は次のように書いていますmain.py
です。括弧のトークン化を防ぐためにNLTKのword_tokenizeを変更してください。
#!/usr/bin/env python
# vim: set noexpandtab tabstop=2 shiftwidth=2 softtabstop=-1 fileencoding=utf-8:
import nltk
import string
import sys
for token in nltk.word_tokenize(''.join(sys.stdin.readlines())):
#print token
if len(token) == 1 and not token in string.punctuation or len(token) > 1:
print token
出力は次のとおりです。
./main.py <<< 'EGR1(-/-) mouse embryonic fibroblasts'
EGR1
-/-
mouse
embryonic
fibroblasts
私はそれが(他の変更なし)1つのトークンとしてEGR1(-/-)
認識するように、わずかにトークナイザを変更したいです。誰かがトークン化ツールを軽く変更する方法があるかどうかを知っていますか?ありがとう。