私の問題はかなりシンプルに見えますが、私はきれいな(そして効率的な)解決策を見つけられません。与えられたリストにある単語のグループに参加する
私は言葉の共通のグループに対応するタプルのリストを持っている:
ngrams = [("data", "scientist"),
("machine", "learning"),
("c", "+"),
("+", "+"),
("c", "+", "+"),
("research", "and", "development"),
("research", "and")]
と文:
"i am a data scientist . i do machine learning and c + + but no deep learning . i like research and development"
私のような単一のトークン内の単語の一般的なグループを統合したいと思いますそれ:
"i am a data_scientist . i do machine_learning and c_+_+ but no deep_learning . i like research_and_development"
私はそうするエレガントな方法があると確信していますが、私はできませんでしたind any any ..
2タプルしかない場合は、zip(sentence, sentence[:1]
を繰り返しますが、ngrams
に最大8タプルがあり、この解決法は扱いにくいです!
#のstr.joinに参加//docs.python.org/3/library/stdtypes.htmlハイライト=: Pythonのドキュメント
ttpsを?あなたは達成しようとしていますか? TF-IDFのバリエーションを試している場合は、Python http://scikit-learn.org/0.18/modules/generated/sklearn.feature_extraction.text.TfidfVectorizer.html#sklearn.feature_extractionのsklearnパッケージをチェックアウトしてください。 text.TfidfVectorizer –
'joined_ngrams = ['_' ngramsのための '_' join(t)] ' – acushner
それは役に立ちません。私が望むのは、与えられた文の入力を、 'ngrams 'に現れる単語のグループが結合されている文に変換することです。 –