いくつかのトピックに関する関連情報を抽出したいと思います。例えば:NLKTが望む情報を抽出する方法
- 最初のステップで、家族や友人
の顧客
私は、企業が最も重要なcomparisonand私の比較と としてAIAは、より多くの、より良い生命保険をすると思う私のopinionyesにも医療保険 であるuは 彼らの任務であることを計画して販売するいくつかの薬があります高...ダンは企業から保険を購入することを心配しています 何が起こっても、会社に連絡することができます...より良い 信頼できるだけでなく、委託のために働いている代理店を見つける 今のところ、将来的に... thanksregardsdiana ""
次にVS2015でNLTKを使用して、単語を分割しようとしました。 pos_tagを使用することにより
toks = nltk.word_tokenize(text)
私は私が何をすべきかわからない、この部分から
postoks = nltk.tag.pos_tag(toks)
私TOKSにタグを付けることができますか? 以前は、IBM text Analyticを使用しました。このソフトウェアでは辞書を作成してパターンを作成し、データを分析します。辞書の
サンプル:インスタンス ためinsurance_cmp:{AIA、IMG、SABB}パターンの
サンプル:
insurance_cmp + Good_Feeling_Pattern
insurance_cmp + [ '購入|購入' ] + Bad_Feeling_Pattern
Good_Feeling_Pattern = [いいね、それなりにいい]
はBad_Feeling_Pattern = [悪い、悪いことに、良いではない、後悔]
私はNLKTで同じことをシミュレートすることができ、私は知っているしてみましたか?チャンクと文法を作成すると、私が探しているものを抽出するのに役立ちますか?私はあなた自身を改善するためにあなたの考えを持っていてもいいですか?
grammar = r"""
NBAR:
{<NN.*|JJ>*<NN.*>} # Nouns and Adjectives, terminated with Nouns
NP:
{<NBAR>}
{<NBAR><IN><NBAR>} # Above, connected with in/of/etc...
"""
chunker = nltk.RegexpParser(grammar)
tree = chunker.parse(postoks)
私の目標に到達するための私の次のステップができたら助けてください。