2017-02-13 23 views
0

ソーシャルメディアの投稿(テキスト)を映画/テレビ番組のデータベースにマッチさせたいと思います。データベースには、映画やテレビ番組の名前、文字、俳優に関する情報が含まれています。入力テキストに十分な証拠がある場合は、アルゴリズムがテキストをそのムービーに分類するか、十分な証拠がない場合は何もしないでください。機械学習のないテキスト分類

私は機械学習アプローチに精通していますが、トレーニングサンプルと有限数のカテゴリが必要です。私のアルゴリズムは、コンテキストを使用して、新しいコンテンツに対してスケール可能でなければなりません。たとえば、マシンに「ハリー・ポッター」映画を認識させることを奨励するのではなく、「ファンタスティック・ビースト」とそれがどこにあるのかを認識することができません。

私は、これに対する解決策は部分的な文字列のマッチングであることを理解していますが、この種の問題に関する一般的なガイドラインについては適切な指導をしたいと思います。私はまたスペルミスの単語を認識し、特定のマッチに多くの重みを割り当てることに興味があります。

また、サイドノートとして、SQLiteまたは外部で文字列のマッチングを行う必要がありますか?このケースの私の推測は外に出るだろうが、私はちょうど確認したい。

ありがとうございました!

+0

おそらくIBM AlchemyLanguageのAPIを使用することができます情報検索システム をベースと効率的なファジィ論理の

実装。テキストを取り、概念を打ち出すことができます。例えば、 "Love Robert Deniro in Heat"は、Robert DeNiro、Heat、Al Pacino、Michael Mannを返します。ムービーを特定するための4つの主要コンポーネント、それを引き出したデータベースへのリンクがあります。 – Chris

+0

提案していただきありがとうございます、私はワトソンと働いているとは思っていませんでした。私はすぐにそれをチェックします。 – humma4

答えて

0

あなたが探しているものは、ファジールールベースの情報検索システムです。エンティティ/ドキュメントの知識ベースに対するクエリを照合するために、いくつかの手作業のルールとファジーマッチング(通常はLuceneを使用)が必要になります。

は、例えば、この論文を参照してください。 https://arxiv.org/pdf/1503.03957.pdf