2017-06-20 4 views
1

いくつかのnlpテクニックを使用して、以下のテキスト行でコースを検索しようとしています。こののプットアウトnlpを使用してテキストを識別する

from nltk import word_tokenize, pos_tag, ne_chunk 
sentence = "SDGI is offering courses like Electronics,Mechatronics, Physics,Mechanical Engineering"  
print ne_chunk(pos_tag(word_tokenize(sentence))) 

(S 
    (ORGANIZATION SDGI/NNP) 
    is/VBZ 
    offering/VBG 
    courses/NNS 
    like/IN 
    Electronics/NNS 
    ,/, 
    Mechatronics/NNS 
    ,/, 
    (PERSON Physics/NNPS) 
    ,/, 
    (PERSON Mechanical/NNP Engineering/NNP)) 

である私はライン上からコースを抽出することができます方法はありますか?

実際のプロジェクトでは、私はコース名を取得する必要があるので、非常に多くのドキュメントを取得します。

ご協力いただきましてありがとうございます。

答えて

0
  1. 指定されたテキストからすべての名詞を抽出します。
  2. Bag of Wordsフィーチャセットを作成し、ラベル付きデータを含むコースのセットをトレーニングします。
  3. コースは、ほとんどがコンマ(、)の前または後にあるようです。バイグラム(bigram)またはトリグラム(trigram)アプローチは、正確な結果をもたらすことができる。
0

これはあまりに単純すぎるかもしれませんが、既存のコース名が有限であれば、大きなルックアップテーブルを作成し、入力をトークン化して各単語を見てみると簡単です。いくつかのエッジケースがありますが、この問題に対してML/NLPアプローチをとる必要があるかどうかはわかりません。

関連する問題