はのは、私は、この文字列どのようにすべてのバイグラムを特定のウィンドウサイズ内で取得できますか?
my_string = "This is an example string"
を持っており、与えられた「窓」内のすべてのバイグラムを計算するための高速な方法があります場合、私は思っていたとしましょう。例えば
ウィンドウが二つの単語の場合は三つの言葉は、我々は最初の3ワードウィンドウ
["This is","is an","This an","an this",...]
のためにこれらのバイグラムを持っている場合は、すべての可能なバイグラムは
["This is","is This","is an","an is","an example","example an","example string","string example"]
しかし、もし窓あり
sklearnを使ってbigramsを取得するのは簡単です。たとえば、1は
bigrams = CountVectorizer(analyzer = "word",
strip_accents = "ascii",
lowercase = True,
ngram_range = (2,2))
bigrams_counts = bigrams.fit_transform(my_string)
を行うことができますし、あなたのすべてのバイグラムのリスト(とさえ数)を得ますが、それはすなわち(文字列ではなく、他の組み合わせに存在バイグラム「このANを」のみが含まれますと "これは"そこにはありません)。
したがって、特定のウィンドウ内ですべてのバイグラムを取得する方法があるかどうかは分かりますか?例から
[バイグラム](HTTPSの定義を確認してください。 //en.wikipedia.org/wiki/Bigram)。あなたがバイグラムではなくウィンドウ内の単語の組み合わせを求めるのは、ほとんどの場合です。 –