2012-02-15 2 views
2

私は、(例えば)1,000件の顧客サポートノートの記入項目を記録しています。数百段落の文法分析を生成する

これらのメモ(25文字から500文字の長さのもの)は、ユーザーがシステムに入力したものです(ユーザーは複数のメモを作成します)。テキストを分析することによって「文法上のKPI」を得る。

大文字と句読点のような基本的な文法の整合性(可能であれば、正しい句読点)を調べることを控えています。上記の「KPI」の出力を考慮する各ノートの冗長性を含めることも、面白いひねりになります。

プログラミング言語に夢中ではなく、100%正確な表現ではなく、これらのユーザーから提出されたメモの文法の異常を見いだすのに最も効率的な方法/方法は何でしょうか?

私はこのような経験はありません。

おかげ

+0

が、これは非常にあなたがするつもり分析のレベルに依存しないでしょう。大文字の単語の前にあるすべての単語に句読記号があるかどうかは、それほど難しくないかどうかを調べる。実際に英語を解析し、文がどのように "良い"かというヒューリスティックを決定するには、実際には非常に厳しい問題のように聞こえる。 – Dervall

+0

さて、私の本来の意図は、基本的にあなたが言ったことを本質的に行った、非常に粗いものを作成することでした。私は、一連の基本的な文法規則(ある期間の後の大文字小文字の区別など)を範囲指定し、各ブロックを規則に従って実行し、数値/「スコア」を出力することを意図していました。私は、より効率的な方法があるのか​​、おそらくこの仕事に関するアドバイスがあるのか​​どうか知りたいのです。私は外れ値、つまり一貫性のあるユーザーを拾うことを考えているので、基本的な実装は必要であると仮定します。 –

+0

その場合、私はたぶんレクサーを使ってノートを単語と句読点に分割し、トークンストリームを実行し、与えられた規則に従ってミスマッチをチェックします。レクサーのためのジェネレータを使うのがおそらく最も簡単で最速のルートでしょう。 – Dervall

答えて

1

Pythonソフトウェア財団のディレクターによるこのプレゼンテーションは、正式な文書(特許ライセンス)のうちのセマンティクスを抽出について実際にある:

http://vimeo.com/53058803

このホワイトペーパーでは、技術を説明センチメントを抽出するため書面によるテキストのうち:

http://goo.gl/wY9sW

関連する問題