2017-03-17 21 views
0

私はいくつかの英語の文章を提供するプログラムを作っています。例えば2つの文章間の文法の類似度を計算する

まず、私は文を提供し、ユーザーにを「今日は学校を行かなければなりません」。 その後、そのような文章をもっと習得したい場合は、その文章と文法の類似性が高い文章がいくつか見つかります。

文章を提供する唯一の方法は類似性を計算することだと思います。

2つの文の間の文法の類似度を計算する方法はありますか?

またはそのアルゴリズムを作るための良い方法はありますか?

何かアドバイスや提案をいただければ幸いです。ありがとうございました。

答えて

1

この問題を解決する私のアプローチはPart of Speech TaggingNLTKのようなツールを使用してデータベースと比較することです。

その他の方法で、あなたはすでにフレーズを接続するための機械学習するアプローチを使用するようにWEKAを使用して、トレーニングデータセットを持っている場合。

1

あなたは、構成や依存関係ツリーのどちらかとして、あなたの文章を解析し、あなたが同様の構造を持つ候補文を見つけるために使用できるクエリのいくつかのフォームを定式化するためにこれらの表現を使用することができます。

あなたはStanford NLPからこの利用できるツールを確認することができます。

Tregexは木との関係や、正規表現に基づいて、木のパターンをマッチングするためのユーティリティです名前は「木の正規表現」の略である(ノードに一致します)。 Tregexには木の変換言語であるTsurgeonが付属しています。また、既に文法を使用して、深い学習モデルを構築したのは、構文解析木から生成された、あるいは解析を使用して上のバージョン2.0から任意の紙やいずれかがあるsemgrexと呼ばれる依存グラフ上で動作し同様のパッケージ(クラスSemanticGraph、である。

+0

含まトレーニングデータとしてのツリー? –

関連する問題