2017-05-12 5 views
0

私はチャインズセグンターに新しいデータを練習したいと思います。辞書とシリアライズされたツリーバンクのテキストファイルを作成しました。誰かが私を助けることができるカスタムソースを使って中国語セグメンタを練習しましょう

-sighanCorporaDictデータ

-trainFile train.txt

私の問題は、私は違いに関するドキュメンテーションを理解したり、見つからないということですこの問題があります。私の中国のデータセットは、仏教の古代文章であり、それは-sighanCorporaDictのような資源を置き換えるのを難しくしていますか?

すべてのベスト

アンドレアス

答えて

1

ドキュメントには、独自の中国のセグを訓練するためにここにあります:

https://nlp.stanford.edu/software/segmenter-faq.html

sighanCorporaDictはセグメンタが必要なリソースを持つディレクトリである...これがなければなりません分割配信のdataディレクトリに設定する

trainFileは、適切にセグメント化された文のリスト(スペースで区切られた単語)でなければなりません。

+0

残念ながら、このページではパラメータについては説明していません。私はパラメータ-serDictionary istが私が前もって準備しなければならない既知の単語のリストではないと思った。基本的にディレクトリである-serDictionaryと-sighanCorporaDictの違いは何ですか? – Andreas

+0

私は間違っていました。セグメンタディストリビューションにはデータディレクトリがあります。ダウンロードしたフォルダにhttps://nlp.stanford.edu/software/segmenter.shtmlというフォルダをダウンロードすることができます。ダウンロードしたフォルダには、dataというディレクトリがあります。これはsighanCorporaDictの設定に入れたいものです。コードを調べると、sighanCorporaDict + "dict /"からリソースを取得しようとしているのがわかります。主にコードは "data/dict/pku.non"や "data/dict/ctb.non"など... – StanfordNLPHelp

+0

しかし、なぜですか?ディレクトリの目的は何ですか? – Andreas

関連する問題