2017-05-25 10 views
-1

私はプログラミングがとても新しく、単語とその隣人が単語の袋に入っているかどうかを表す単語のベクトルを作成する方法を知りたいと思います私が持っています。単語の袋の特徴を表すベクトルを作成する方法

仮に、私の語彙リスト['star','moon','sun']

であると私は、私は、各単語[0,0,0]のためのベクトルを作成したいこの

['the','sun','is','brighter','than','the','moon','because','the','moon','only','reflects','light','from','the','sun','anyways','I','like','stars','the','best','.'] 

のように見えるテキストを持っています各0はボキャブラリリスト内の対応する単語を表し、1単語前と1単語後の文脈を持ち、フレーズ内の各トークンのコンテキストベクトルは次のようになります。 [0,0,1](context:sun ) 太陽[0,0,1](コンテキスト:太陽)太陽明るいです ... 最高[0,0,0](コンテキスト::。最高) は[0,0,1](コンテキストがある)です。 [0,0,0](コンテキスト:最高。)私はすでにこのようになりますトライグラムのリストを作成していなかったものを

は今:

[('$','the','sun'),('the','sun','is'),('sun','is','bright')...('the','best','.'),'('best','.','$')'] 

私は、各タプルに存在する場合、この方法は、私がチェックすることができることを考えますボキャブラリーの項目はありますが、ここからどうやって進んでいくのか、これが正しいアプローチであるかどうかはわかりません。

ご協力いただきありがとうございます。 ありがとうございます!

+0

ようこそStackOverflow。ヘルプドキュメントの投稿ガイドラインを読み、それに従ってください。 [on topic](http://stackoverflow.com/help/on-topic)および[How to Ask](http://stackoverflow.com/help/how-to-ask)をここで適用してください。 StackOverflowは、デザイン、コーディング、リサーチまたはチュートリアルサービスではありません。 – Prune

答えて

0

あなたの質問は「単語のリスト内の単語の位置を見つけるにはどうすればよいですか?これはPythonでこれを行うには良い方法があります

vector = [0, 0, 0] 
for pos in range (3): 
    word = trigram[pos] 
    vector[pos] = word_list.index(word) 

のように、Pythonのindex関数であるが、これは小さなステップに分割されます。これを自分で行うことができるまで、NLPのプログラミングをもっと慎重にしてください。

NLPの問題を攻撃する場合は、最初にというプログラミングを学ぶことをお勧めします。オンラインでPythonチュートリアルを検索し、ドキュメントの使い方を学び、このドメインの検索に必要な用語を徐々に学びます。

関連する問題