これは一般的で自由な質問です。私は本質的に前方への道を決める上で、そしておそらくいくつかの読書のために助けを求めています。テキストマイニング - 構造化されていないテキストからのバンド名を抽出します
私は、構造化されていないテキストマイニングを行い、そのテキストからバンド名(アーティスト、バンドなど)を抽出しようとしています。テキスト自体には予測可能な構造はありませんが、比較的小さい(1,2行のテキスト)。
Concert Green Day At Wembley Stadium
Extraordinary representation - Norah Jones in Poland - at the Polish Opera
は今、私は分類器を試してみると思っていますが、テキストはそれのために任意の実際のトレーニング情報を提供するために、小さなに思える:
いくつかの例としては、(本物ではないイベント)であってもよいです。 おそらく、この種の問題(またはおそらくアルゴリズムはありません)のために良い結果をもたらすかもしれないいくつかの他のテキストマイニングテクニック、ヒューリスティックまたはアルゴリズムがあります。
あなたはそうだったのですが、この質問はおそらくあまりにも無防備なのです。私は、あなたがこの分野の実践と挑戦に関してより正確なアイデアを提供するために、「名前付きエンティティ認識/抽出」、「NER」などのキーワードを使用して、SOとWeb全体を検索することをお勧めします。重複ではありませんが、このSOの質問:http://stackoverflow.com/questions/1643616/algorithms-to-detect-phrases-and-keywords-from-textは開始するのに適しているかもしれません。 – mjv
私はこれをまっすぐにしましょう:あなたが探しているバンドのリストを持っていますか、あるいは一般的にバンド名を探していますか? –