OpenNLPは、名前ファインダのトレーニングと評価のためのBRAT形式をネイティブサポートしています。他のコンポーネントは現在サポートされていません。他のコンポーネントのサポートを追加することはおそらく困難ではないでしょうし、興味がある場合にはopennlp-devリストに問い合わせてください。
CLIは、ここで、ガキでモデルを訓練するために使用することができますが、あなたの使用状況を表示するコマンドです。
TokenNameFinderTrainer.brat次の引数は必須ですモデル訓練する:
- bratDataDirをこれはあなたの.ANNと.txtファイル
を含むフォルダを指している必要があります
- annotationConfigこれは、注釈プロジェクトにbratが使用する設定ファイルを指し示す必要があります。
- langエン)
- モデル作成されたモデルファイルの名前
名前Finderは文章にし、トークンにカットし、その入力を必要とします。デフォルトでは、行ごとに1つの文を仮定し、空白のトークンを適用します。この動作は、ruleBasedTokenizerまたはtokenizerModel引数を使用して調整できます。さらに、sentenceDetector Model引数を介してカスタムセンテンス検出器モデルを使用することも可能です。
モデルを評価するには、相互検証ツールと評価ツールを、名前に.bratを付けることによって、簡単に使用できます。
TokenNameFinderEvaluator.brat
ビン/ opennlp TokenNameFinderCrossValidator.brat binに/ opennlpあなたはopennlp-小僧-注釈を使用することができ、あなたの注釈プロジェクトをスピードアップします。 Name Finderモデルを読み込み、BRATと統合して文書に自動的に注釈を付けることができます。これにより、アノテーションの作業がスピードアップされます。そのコンポーネントはopennlpサンドボックスにあります。