2017-02-16 10 views
2

ロシア語の現代品詞タガー+依存パーサーはありますか?文章にロシア語の現代の依存パーサー

  • 部門
  • 品詞タグ(きめの細かいMSDタグは歓迎されているトークンに
  • 部門: 私は、プレーンテキストおよび出力を処理することができるようになりますツールやサービスを必要とします)
  • 補題(塩基型)
  • 依存の役割は、私は商業目的のためのツールが必要

にラベルを付けます。 商用目的(必要に応じて購入)またはWeb API用に使用できる訓練された統計モデルを備えたオープンソースプロジェクトのいずれかになります。 最終的には、独自仕様のクローズドソースバイナリにすることができます。 ロシア語の解析モデルは、オンラインで見つかったものよりも、TreeTaggerを使う必要があります.TreeTaggerは、1)非常に面倒なライセンス、2)20歳以上のものです。

答えて

0

(良い)依存関係パーサーを構築するには、依存関係ツリーバンクが必要です。従属パーサーを構築するすべてのチームは、そのようなツリーバンクにアクセスできますが、データを渡すことはできません。したがって、パーサは取得できますが、通常は事前にモデル化されたモデルではありません。

これは、モデルを自分でトレーニングする必要がある理由です。ロシア語の場合、依存ツリーバンク(SynTagRus)が存在します。あなたが商業目的でそれを手に入れることができるかどうかはわかりません。

https://github.com/UniversalDependencies/UD_Russian-SynTagRus 
https://habrahabr.ru/post/148124/ 
http://www.ruscorpora.ru/index.html 

データを取得することができれば、自分のモデルを訓練するのは非常に簡単な作業です。ここでもう一度尋ねるか、間違いなくインターネット上で十分なガイドを見つけることができます(パーサーはロシア語であろうと他の言語であろうと全く同じです)

関連する問題