2011-12-27 8 views
7

私はEEバックグラウンドを持っていますが、自然言語処理クラスに参加する機会はありませんでした。感情分析に使用するためにトルコ語のためのwordnetを構築する方法

私はトルコ語のセンチメント解析ツールを構築したいと考えています。テキストを英語に翻訳するのではなく、トルコ語のwordnetデータベースを作成し、ツールを使ってバグの翻訳されたテキストで分析するのが最善の方法だと思います。 (は?

あなたは私に何をすることをおすすめしますか?まず、オープンクラスのウェブサイトからNLPクラスを受け取りますか?私は本当にどこから始めるべきか分かりません。あなたは私を助けてくれて、私にステップバイステップガイドを提供してくれますか?私はこれが学術的プロジェクトだと知っていますが、私はその分野の趣味としてスキルを磨くことに興味があります。

ありがとうございます。ここで

+0

potentiaの提案に従うことができますl [Turkish Language&Usage](http://area51.stackexchange.com/proposals/30873/turkish-language-usage?referrer=wKPqNxBBY-xKcrw-ScJbLA2)や[トルコ語のStackOverflow](http: /area51.stackexchange.com/proposals/34945/stack-overflow-in-turkish?referrer=6DTBHmak2NY7uyvjVsZajA2)。 – Caleb

+0

翻訳するよりも、トルコの語句データベースを構築する必要があると思います。しかし、私はこの質問のための最良の場所であるとは思わない。これは、コード化の問題ではなく概念的な問題として[Programmers.SE](http://programmers.stackexchange.com/)サイトに移行するのに適切な質問かもしれません。思考? – Caleb

+1

あなたは正しいかもしれません。そのセクションに移行する方法を見てください。 –

答えて

3

は、私は(日本語、中国語、ドイツ語、アラビア語意味ネットワークを作る)する前に使用しているプロセスである:

  1. は、少なくとも2英語/トルコ語辞書を収集します。彼らは互いに独立していなければならない。 Wikipediaを使用して、辞書の1つを自動生成することができます。ネットワークを公開する必要がある場合は、オープンソースの辞書、ライセンス料、弁護士が必要になる場合があります。
  2. これらの辞書を使用して英語のワードネットを翻訳し、各シンセセットの信頼度を算出します。
  3. 強い自信を持って、手作業で承認または修正し、中程度または低い信頼度でそれらを維持します。
  4. 完了それを手動で

私は私の2008年論文の「自動翻訳のWordNetの」セクションで、この上に展開:(トルコ感情辞書のあなたの規定の目的のために、他のがあるhttp://dcook.org/mlsn/about/papers/nlp2008.MLSN_A_Multilingual_Semantic_Network.pdf

Bing Liuによる "Semantic Analysis and Opinion Mining"は良い研究集団であるが、セマンティックネットワークのアプローチは、IMHOは常に長期的にはより良い結果を出すだろう。他の多くの用途に使用されています)。