-1

私は以下の非常に単純化された訓練とテストの観察を持っていると言います。自然言語処理のための機械学習 - カスタム翻訳

トレーニング

input: her favourite dog was a huskey and her favourite cat was a leopard 
output: dog=huskey, cat=leopard 

input: her favourite dog was a beagle and her favourite cat was a lion 
output: dog=beagle, cat=lion 

input: her favourite dog was a poodle and her favourite cat was a burmese 
output: dog=poodle, cat=burmese 

テスト

input: her favourite dog was a collie and her favourite cat was a moggie 
desired output: dog=collie, cat=moggie 
  • 所望の出力に変換テスト用入力を持つために私を可能にするためのpythonで最高の機械学習アプローチは何ですか?
  • この未処理データをこの予測に使用する手順は何ですか?私は何をしようとしていますが、翻訳の形である一方、エリア内のいくつかの研究から、

(例えばhttp://scikit-learn.org/stable/)既存の機械学習パッケージの多くは、分類、回帰およびクラスタリングの周りにあるようです。

また、いくつかのNLPパッケージを調べましたが、その機能はキーワード識別、単語タイプの識別と感想分析(例:http://www.nltk.org/)にあります。そこにいくつかの翻訳パッケージが利用可能でもあるが、これらは、私は、この特定のケースの機械学習を徹底的に不要であるため、しかし、実際にははるかに複雑、異なる多数の入力があることを認識し、既存の言語(http://pythonhosted.org/goslate/

ためのものです翻訳すること。

答えて

0

は、(1)私はあなたが解決しようとしている問題を定式ます:いくつかの特定の動物を考えるで文S最高の動物クラスCを見つけます。だから、与えられた文1:

彼女のお気に入りの犬がhuskeyだったと彼女のお気に入りの猫はヒョウ

だったと対象動物A =「huskey」与えられた、あなたのようにCは=「犬」になるだろうクラス;同様にA = "leopard"の場合はC = "cat"となります。

(2)あなたの疑問を尋ねたところから、私は、あなたが外部の辞書や他のデータを使用したくないと仮定しています(クラスCの関連する動物種とのコロケーションを見つけるのは比較的簡単です)教師付き分類器を訓練すること)。だから私はあなたが言及したデータの種類に限定されていると仮定します。また、クラスCが各文に明示的に記載されていると仮定します。

(3)データの制約から、構文情報を使用する必要があるようです。英語の構文では、主に単語の順序で伝わるので、私はこれらに焦点を当てます。おそらく、あなたのデータに品詞タグを適用するのに便利です。

(4)文Sの可能なターゲットAごとに、データ行を作成します。したがって、文#1には2つのターゲットA = {husky、leopard}があるので、訓練データにはそれぞれのクラス、犬と猫に対応する2つの行があります。

row送信しました。ターゲットF1、F2、...FNクラス

1 1ハスキー犬...

2 1ヒョウ...猫

(5)機能として例のデータでは、おそらく有用ではないターゲットのPOSを...含めるますA = "大きな白いハスキー"は完全名詞句をC = "dog"にマッピングする必要があります。上記のデータがあれば、簡単な解法はターゲットの左に最も近い名詞を見つけます。

her.d favorite.a dog.n is.va husky.nとher.d favorite.a cat.n is.va leopard.n

ですから、機能を持っている可能性がF_LftClosestNoun、F_RtClosestNoun、F_ClosestNoun 。その後、分類データを訓練データに訓練し、目に見えないデータをテストします。おそらくより現実的なサンプルを提供すれば、追加の有用な機能を特定することができます。

関連する問題