2016-10-05 5 views
2

OpenNLP用のカスタムトレーニングセットを作成する必要があるかもしれません。そのため、たくさんのエントリに手作業で注釈を付ける必要があります。BRATを使用したOpenNlpのモデルの作成とトレーニング?

簡単にするために、GUIソリューションがベストプラクティス(注釈タグを手作業で書くのはクールではない)かもしれません。私は必要なもののようなBRATを見つけました。

BRATは注釈付きファイル(.ann)をエクスポートできますが、このファイルタイプへの参照はOpenNLP's manualにありません。これが機能するかどうかはわかりません。

私がしたいのは、この注釈付きファイルをBRATからエクスポートしてOpenNLPのモデルをトレーニングすることです。コードやCLIを使用して実行できるかどうかは気にしません。

誰かが正しい方向に向かうことができますか?

答えて

2

OpenNLPは、名前ファインダのトレーニングと評価のためのBRAT形式をネイティブサポートしています。他のコンポーネントは現在サポートされていません。他のコンポーネントのサポートを追加することはおそらく困難ではないでしょうし、興味がある場合にはopennlp-devリストに問い合わせてください。

CLIは、ここで、ガキでモデルを訓練するために使用することができますが、あなたの使用状況を表示するコマンドです。

  • ビン/ opennlp

TokenNameFinderTrainer.brat次の引数は必須ですモデル訓練する:

  • bratDataDirをこれはあなたの.ANNと.txtファイル
  • を含むフォルダを指している必要があります
  • annotationConfigこれは、注釈プロジェクトにbratが使用する設定ファイルを指し示す必要があります。
  • langエン)
  • モデル作成されたモデルファイルの名前

名前Finderは文章にし、トークンにカットし、その入力を必要とします。デフォルトでは、行ごとに1つの文を仮定し、空白のトークンを適用します。この動作は、ruleBasedTokenizerまたはtokenizerModel引数を使用して調整できます。さらに、sentenceDetector Model引数を介してカスタムセンテンス検出器モデルを使用することも可能です。

モデルを評価するには、相互検証ツールと評価ツールを、名前に.bratを付けることによって、簡単に使用できます。

TokenNameFinderEvaluator.brat

  • ビン/ opennlp TokenNameFinderCrossValidator.brat binに/ opennlpあなたはopennlp-小僧-注釈を使用することができ、あなたの注釈プロジェクトをスピードアップします。 Name Finderモデルを読み込み、BRATと統合して文書に自動的に注釈を付けることができます。これにより、アノテーションの作業がスピードアップされます。そのコンポーネントはopennlpサンドボックスにあります。

  • 関連する問題