2017-08-01 23 views
-3

私は単語が果物かどうかを判断する必要があるプロジェクトに取り組んでいます。私はいくつかのアプローチを試みましたが、いずれの結果にも満足していませんでした。助言がありますか?複数のカテゴリへのテキストの分類

マイトレーニングセットは、この

  • 入力のようになります。Appleはフルーツです。 出力:アップル。
  • 入力:グアバもフルーツです出力:グアバ。
  • 入力:パイナップルは季節のフルーツ出力:パイナップルです。

例トレーニングデータ外で実行されている:

  • 入力:私はすべての果物を愛するがお気に入りはグアバとリンゴです。 出力:Guava、Apple
+0

これまでに何を試してみましたか?私はあなたがただ用意されたソリューションを望んでいると仮定します。あなたの質問を言い直してください –

+0

私が今までscikitを使って行ってきたのは、SVMが単一ラベル分類ではうまくいきますが、マルチラベルでは性能が良くないことです。私は自分の問題を解決する方法についていくつかのアイデアが必要です。 @ArpitSolanki –

+0

文字列から情報(_i _._ e_。フルーツ名)を抽出するだけですか?もしそうなら、マルチラベル分類器は過度のものかもしれない。 – arturomp

答えて

1

このタスクは、名前付きエンティティ認識と呼ばれます。あなたはそれについて最初にon Wikipediaを読むことができます。

このための一般的なライブラリは、スタンフォードのCoreNLPです。 Stanford Natural Language Processing Groups websiteで読むことができます。

これを使用するには、トレーニングデータの中にフルーツかどうかを示す各トークン(単語)を付けなければなりません。お役に立てれば。

+0

@Soham Chakrabortyは役に立ちましたか? – langkilde

関連する問題