2009-05-28 6 views
3

私はインスピレーションを必要としています。ホビープロジェクトでは、コンテンツ分析をしています。私は基本的に入力をトピックマップに一致させるために分析しようとしています。例えばテキストを分析するツールはどれですか?

  • "イラクの道">歴史、中東
  • "Halloumni">食品、中東
  • "BMW">ドイツ、車
  • 「オバマ"> USA
  • "インパラ"> USA、車
  • "ベルリンの壁">歴史、ドイツ
  • " Bratwu RST」>食品、ドイツ
  • 『チーズバーガー』>食品、USA
  • ...

私はそのすべての人々タグを締結読んで何でも、分類学について、最後に多くのことを読んでいますそれとは異なって、システムは失敗に繋がる。

私はトークン化された入力と停止の単語リストについて考えましたが、当然のことながら、それは思いついて作り上げる作業の多くです。言葉と話題の間の関連リンクを構築することは疲れているように思えますし、決して決して終わらないのは、どんな言語を扱っても、それは非常に豊かで、ほとんどの言語は文脈に大きく依存しています。それを維持しましょう。

私はの何かをスマートにトレーニングして、それを推測できるようにしたいと思います。種類はEliza botのようです。

とにかく、それは何もないと信じていますが、という意味のを抽出するために入力を分析するために技術を使用する人はいませんか?

答えて

2

最初にOpenCalaisを検索して、テキストまたは入力内のエンティティを見つけます。それは素晴らしく、私はそれを自分で使ってきました(ロイターの人たちから)。

その後、エンティティと単語の関連付けを作成して、テキストをさらに分析することができます。私はおそらくWordNetのようなものを見て、それらを模倣しようとするか、マップしようとしているドメインと一致するいくつかのオントロジーを自動的に生成しようとします。

どのようにまとめていくかについては、できることがたくさんあります。上記、または2つまたは3つのパスのモデルは、どの単語が意味するかを把握しようとしています。または、入力を制御する場合は、構文解析が容易な形式を作成するか、murky path of NLPをダウンロードしてください(楽しくなります)。

RDFの前提を自分では好きではありませんが、任意のRDFスニペットの解析にはJenaのようなものを見ることができます(私はTopic Mapperです)。私はWikiPediaで単語やフレーズや名前を検索し、WikiPediaのページにあるセマンティクスに基づいてヒット率を評価しています(要求された場合詳細を教えてもらえますが、自分よりも優れたものを思いついたのですか?:) SeeAlsoの数、テキストの量、ディスカッションページの大きさなど

私は長年にわたりたくさんのものを書いてきました(PHPとPerlでも; Robert Barta's Topic Maps stuff on CPANを見てください。いくつかのキックお尻のもの)、エンジンからパーザー、途中で変なものまで。単語やフレーズを区切って累積ヒストグラムを作成してコンポーネントを並べ替える連想配列。それはすべての楽しいものですが、シュリンクラップされたツールに関しては、私はそれほど確かではありません。 Everyonesの目標とニーズは異なっているようです。どのように複雑で洗練されたものになるかによって異なります。

とにかく、これが少し助けてくれることを願っています。乾杯! :)

+0

私は複数回サインアップしようと思います。彼らはまだ私にパスワードを借りている。しかし、私はもう一度やり直して、それがどのようになったのかを教えてくれると思います。どうもありがとう! – Till

+0

私はこれが受け入れるのにしばらく時間がかかることを知っています - 私たちはこれまで多くのOpenCalaisを使用してきました。すべての提案に感謝します。 :) – Till

0

あなたはベイジアンネットワークの実装を探しているようですね。あなたはSolrのようなものを使って得ることができます。

CI-Bayesもチェックしてください。 Joseph Ottingerは今年初めにtheserverside.netでan articleを書きました。

+0

この機能を強調しているSolrのドキュメントを指摘できますか?彼らの文書を検索することで何も見つかりませんでした。 – Till

+0

Solrは実際にはエンタープライズ検索サーバー(Google検索アプライアンスに似ています)ですが、面白い検索機能のように私に聞こえてきたことを記述していました。 さらに詳しい情報を確認してください:http://people.apache.org/~hossman/apachecon2006us/faceted-searching-with-solr.pdf – cwash

2

SemanticHackerはすぐに使いたいもので、フレンドリーなAPIを備えています。短いフレーズではやや不正確ですが、長いテキストには完璧です。

  • 「イラクの道」>社会/問題/戦争・紛争/特定の競合
  • 「Halloumni」> N/
  • 「BMWは」>レクリエーション/オートバイ/メーカーとモデル
  • 「オバマ」>社会/政治/保守主義
  • 「インパラ」>レクリエーション/自動車/はメーカーとモデル/シボレー
  • 「ベルリンの壁」>地域/ヨーロッパ/ドイツ/米国
  • "Bratwurst">ホーム/クッキング/肉
  • "Cheeseburger">ホーム/料理/レシピコレクション;地域/北米/米国/メリーランド/地方
+0

これは私自身の研究から、ここでのすべての提案の中で最も有望であるように見えます。どうもありがとうございました。 – Till