私はチャインズセグンターに新しいデータを練習したいと思います。辞書とシリアライズされたツリーバンクのテキストファイルを作成しました。誰かが私を助けることができるカスタムソースを使って中国語セグメンタを練習しましょう
-sighanCorporaDictデータ
と
-trainFile train.txt
:
私の問題は、私は違いに関するドキュメンテーションを理解したり、見つからないということですこの問題があります。私の中国のデータセットは、仏教の古代文章であり、それは-sighanCorporaDictのような資源を置き換えるのを難しくしていますか?
すべてのベスト
アンドレアス
残念ながら、このページではパラメータについては説明していません。私はパラメータ-serDictionary istが私が前もって準備しなければならない既知の単語のリストではないと思った。基本的にディレクトリである-serDictionaryと-sighanCorporaDictの違いは何ですか? – Andreas
私は間違っていました。セグメンタディストリビューションにはデータディレクトリがあります。ダウンロードしたフォルダにhttps://nlp.stanford.edu/software/segmenter.shtmlというフォルダをダウンロードすることができます。ダウンロードしたフォルダには、dataというディレクトリがあります。これはsighanCorporaDictの設定に入れたいものです。コードを調べると、sighanCorporaDict + "dict /"からリソースを取得しようとしているのがわかります。主にコードは "data/dict/pku.non"や "data/dict/ctb.non"など... – StanfordNLPHelp
しかし、なぜですか?ディレクトリの目的は何ですか? – Andreas