機械学習のないテキスト分類

ソーシャルメディアの投稿（テキスト）を映画/テレビ番組のデータベースにマッチさせたいと思います。データベースには、映画やテレビ番組の名前、文字、俳優に関する情報が含まれています。入力テキストに十分な証拠がある場合は、アルゴリズムがテキストをそのムービーに分類するか、十分な証拠がない場合は何もしないでください。機械学習のないテキスト分類

私は機械学習アプローチに精通していますが、トレーニングサンプルと有限数のカテゴリが必要です。私のアルゴリズムは、コンテキストを使用して、新しいコンテンツに対してスケール可能でなければなりません。たとえば、マシンに「ハリー・ポッター」映画を認識させることを奨励するのではなく、「ファンタスティック・ビースト」とそれがどこにあるのかを認識することができません。

私は、これに対する解決策は部分的な文字列のマッチングであることを理解していますが、この種の問題に関する一般的なガイドラインについては適切な指導をしたいと思います。私はまたスペルミスの単語を認識し、特定のマッチに多くの重みを割り当てることに興味があります。

また、サイドノートとして、SQLiteまたは外部で文字列のマッチングを行う必要がありますか？このケースの私の推測は外に出るだろうが、私はちょうど確認したい。

ありがとうございました！

出典

2017-02-13 humma4

おそらくIBM AlchemyLanguageのAPIを使用することができます情報検索システムをベースと効率的なファジィ論理の

実装。テキストを取り、概念を打ち出すことができます。例えば、 "Love Robert Deniro in Heat"は、Robert DeNiro、Heat、Al Pacino、Michael Mannを返します。ムービーを特定するための4つの主要コンポーネント、それを引き出したデータベースへのリンクがあります。 – Chris

提案していただきありがとうございます、私はワトソンと働いているとは思っていませんでした。私はすぐにそれをチェックします。 – humma4

あなたが探しているものは、ファジールールベースの情報検索システムです。エンティティ/ドキュメントの知識ベースに対するクエリを照合するために、いくつかの手作業のルールとファジーマッチング（通常はLuceneを使用）が必要になります。

は、例えば、この論文を参照してください。 https://arxiv.org/pdf/1503.03957.pdf

出典

2017-07-20 13:42:49 fjxx

機械学習のないテキスト分類

答えて

関連する問題