5

私は文法学校の満足度や一般的な問題を調査することを目的とした生徒のチームの「プログラマー」です。私たちは1-6の尺度に基づいて作成された質問を持っており、私はこれらの答えをPythonで書いたダイアグラムソフトウェアで解釈します。アンケート回答を調査するためにテキスト分析を使用するにはどうすればよいですか?

私たちの質問の最後に、好きなように使うことができる<textarea>があります。 私は現在、このデータを使用可能にする方法を考えています(私たちは800以上の回答を読んでいません)。

Pythonでテキスト解析を使用して、生徒が何を書き込むかを調べるにはどうすればよいですか? 私はのように、「タグ」への道の下に書かれている任意の文を考えていた:

I don't like being in school. [wellbeing][negative] 
I have way too much homework. [homework][much] 
I think there should be more interesting projects. [projects][more] 

はそれを得るために任意の使用可能なアプローチがありますか?既存のトークナイザを使用することは理にかなっていますか?

ありがとうございました!

+0

800回答はNLPを行うのに十分ではありません。手動で回答を読む方が良いです。ナイーブなベイズ分類器を600でトレーニングし、それを200でチェックすることができますが、これは2次元を取得するだけです。さらに多くのタグでこれを行うことは可能ですが、さらに多くのエントリが必要になります。 – kreativitea

+0

ボックスコメントが完全にフリーフォームであることを伝えたら、それとも役に立つトピックがあるのか​​を教えてください。 (またはそれに答えるためにクラスタリングを使う、あるいは普通の古いgrepを使うか、それとも自分自身で眼球を書く) – smci

答えて

2

だけでなく、私はちょうど私がである、

  1. は最初の応答をクラスタリングするクラスタリングアルゴリズムを使用することを考えることができますhere..butアイデアで一つのアプローチを投げています。 K-means のようなものか、LDAのようなものを使ってトピックモデリングを行うことができます。

  2. 次に、あなたがステップ1ステップ1は良いでしょうなぜ

から取得したクラスタ/トピックのそれぞれに頻繁/関連キーワードを生成するために、テキスト分析を行うことによって、あなたのタギングアプローチを使用することができます?さて、私の意見では、テキスト分析をしている間に、あなたがタグ付けする文章を恣意的に調べると、たくさんのタグを生成することができます。したがって、あなたのユーザビリティは低下するかもしれません。それでも、各文のタグの負荷を分析する必要があります。

クラスタリング/トピックモデリングを使用すると、コンテキストの問題をあるレベルまで減らすことができます。したがって、私の意見でより使いやすくなりました。

0

これは、質問と回答に「タグ付け」するという理由だけで、AIプログラミングとよく似ています。たぶんhttp://pyaiml.sourceforge.net/と人工知能マークアップ言語を見てください。私はそれに多くの経験がありませんが、最初からそれを行う代わりに、あなたのニーズにそれを微調整することができるかもしれません。

1

"NLTK Sentiment Analysis"は検索を開始するのに適しています。 Natural Language Toolkitです。Pythonでテキスト解析を行うためのパッケージですが、タスクが非常に複雑であるため正確には単純ではありません。最初のいくつかの結果には魅力的なデモがいくつかありましたが、私は詳細を見ていませんでした。

+0

これは私にとってまさに正しいことだと思います!ありがとうございました! –

1

ご質問にはお答えできません。しかし、あなたが最後に小さなテキストエリアの質問を持つ古典的なアンケート(チェックボックス、...)を持っていることを理解すれば...

あなたは約800以上の回答があります。しかし、私は答えがあまり長くないと思います。通常、それは数行または数語でもあります...手動QDAソフトウェアは完璧ではないアルゴリズムより優れていると思います。たとえば、オープンソースのRQDA(Rプロジェクトパッケージ)やNvivioなどのコマーシャルソフトウェアを使用することができます...

ありがとう

関連する問題