nlpを使用してテキストを識別する

いくつかのnlpテクニックを使用して、以下のテキスト行でコースを検索しようとしています。こののプットアウトnlpを使用してテキストを識別する

from nltk import word_tokenize, pos_tag, ne_chunk 
sentence = "SDGI is offering courses like Electronics,Mechatronics, Physics,Mechanical Engineering"  
print ne_chunk(pos_tag(word_tokenize(sentence)))

は

(S 
    (ORGANIZATION SDGI/NNP) 
    is/VBZ 
    offering/VBG 
    courses/NNS 
    like/IN 
    Electronics/NNS 
    ,/, 
    Mechatronics/NNS 
    ,/, 
    (PERSON Physics/NNPS) 
    ,/, 
    (PERSON Mechanical/NNP Engineering/NNP))

である私はライン上からコースを抽出することができます方法はありますか？

実際のプロジェクトでは、私はコース名を取得する必要があるので、非常に多くのドキュメントを取得します。

ご協力いただきましてありがとうございます。

出典

2017-06-20 Manish Kumar

指定されたテキストからすべての名詞を抽出します。
Bag of Wordsフィーチャセットを作成し、ラベル付きデータを含むコースのセットをトレーニングします。
コースは、ほとんどがコンマ（、）の前または後にあるようです。バイグラム（bigram）またはトリグラム（trigram）アプローチは、正確な結果をもたらすことができる。

出典

2017-07-08 09:04:18

これはあまりに単純すぎるかもしれませんが、既存のコース名が有限であれば、大きなルックアップテーブルを作成し、入力をトークン化して各単語を見てみると簡単です。いくつかのエッジケースがありますが、この問題に対してML/NLPアプローチをとる必要があるかどうかはわかりません。

出典

2017-08-04 20:27:13 shathi

nlpを使用してテキストを識別する

答えて

関連する問題