私はプログラミングがとても新しく、単語とその隣人が単語の袋に入っているかどうかを表す単語のベクトルを作成する方法を知りたいと思います私が持っています。単語の袋の特徴を表すベクトルを作成する方法
仮に、私の語彙リスト['star','moon','sun']
であると私は、私は、各単語[0,0,0]のためのベクトルを作成したいこの
['the','sun','is','brighter','than','the','moon','because','the','moon','only','reflects','light','from','the','sun','anyways','I','like','stars','the','best','.']
のように見えるテキストを持っています各0はボキャブラリリスト内の対応する単語を表し、1単語前と1単語後の文脈を持ち、フレーズ内の各トークンのコンテキストベクトルは次のようになります。 [0,0,1]
(context:sun ) 太陽[0,0,1]
(コンテキスト:太陽)太陽明るいです ... 最高[0,0,0]
(コンテキスト::。最高) は[0,0,1]
(コンテキストがある)です。 [0,0,0]
(コンテキスト:最高。)私はすでにこのようになりますトライグラムのリストを作成していなかったものを
は今:
[('$','the','sun'),('the','sun','is'),('sun','is','bright')...('the','best','.'),'('best','.','$')']
私は、各タプルに存在する場合、この方法は、私がチェックすることができることを考えますボキャブラリーの項目はありますが、ここからどうやって進んでいくのか、これが正しいアプローチであるかどうかはわかりません。
ご協力いただきありがとうございます。 ありがとうございます!
ようこそStackOverflow。ヘルプドキュメントの投稿ガイドラインを読み、それに従ってください。 [on topic](http://stackoverflow.com/help/on-topic)および[How to Ask](http://stackoverflow.com/help/how-to-ask)をここで適用してください。 StackOverflowは、デザイン、コーディング、リサーチまたはチュートリアルサービスではありません。 – Prune