スタンフォードNLPは、DocumentPreprocessor
の列車方法を提供して、自分のコーパスを訓練し、文分割のための独自のモデルを作成しますか?スタンフォードNLPトレーニングドキュメントプリプロセッサ
私はドイツ語の文章で作業しています。文分割作業のために私自身のドイツ語モデルを作成する必要があります。したがって、私は文分割器、DocumentPreprocessor
を訓練する必要があります。
私はそれを行う方法がありますか?
スタンフォードNLPは、DocumentPreprocessor
の列車方法を提供して、自分のコーパスを訓練し、文分割のための独自のモデルを作成しますか?スタンフォードNLPトレーニングドキュメントプリプロセッサ
私はドイツ語の文章で作業しています。文分割作業のために私自身のドイツ語モデルを作成する必要があります。したがって、私は文分割器、DocumentPreprocessor
を訓練する必要があります。
私はそれを行う方法がありますか?
現在、すべてのヨーロッパ言語のトークン化は、(手書きの)有限オートマトンによって行われています。機械学習ベースのトークン化は、中国語とアラビア語で使用されます。現在、すべての言語の文分割はルールによって行われ、トークナイザの決定を利用します。 (もちろん、それはどういうものなのか、そうでなければどういうものなのか)
現在、ドイツ語トークナイザ/センテンススプリッタはありません。現在のプロパティーファイルは英語のものを再利用するだけです。これは明らかに準最適です。もし誰かがドイツのために何かを作りたければ、それは素晴らしいことです。 (我々はある時点でそれを行うかもしれないが、ドイツの開発は現在優先順位のリストの最上位にはない)