Neologdは、ユニディック(またはipadic)と合併し、それは名前に "ユニディック" を続ける理由です。エントリが、場所のような複数の品詞を有する場合、使用すべきエントリは品詞遷移を使用して文全体のコストを最小化することによって選択され、辞書内の単語についてはトークンごとのコストが選択される。あなたはneologd辞書のエントリが含まれているCSVファイルを見ると
次の場所のための2つのエントリが表示されます:
場所,4786,4786,4329,名詞,固有名詞,一般,*,*,*,バショ,場所,場所,バショ,場所,バショ,固,*,*,*,*
場所,4790,4790,4329,名詞,固有名詞,人名,姓,*,*,バショ,場所,場所,バショ,場所,バショ,固,*,*,*,*
そしてlex.csv
では、デフォルトのユニディック辞書:
場所,5145,5145,4193,名詞,普通名詞,一般,*,*,*,バショ,場所,場所,バショ,場所,バショ,混,*,*,*,*
第四に列はコストです。より低コストのアイテムが選択される可能性が高いので、このケースでは、適切な名詞としての場所のコストを上げることができますが、正直なところ削除するだけです。費用の詳細については、here(日本語)を参照してください。
すべてのデフォルトのユニディックエントリをより強く重み付けする場合は、すべての重みを増やすようにニューログCSVファイルを変更できます。これは、そのようなファイルを作成するための一つの方法である:
awk -F, 'BEGIN{OFS=FS}{$4 = $4 * 100; print $0}' neolog.csv > neolog.fix.csv
あなたは(2下記の注記を参照)を構築する前に、元のCSVファイルを削除する必要があります。
この場合、Neologdプロジェクトのバグとして報告する必要があります。
注1:上記のように、エントリが選択されているので、全体としての文章に依存し、それもデフォルトの設定で非適正名詞のタグを取得することが可能です。例文:
お店の場所知っている?
注2:neologd辞書はユニディック辞書はMecab辞書が作業を構築する方法の微妙な側面に基づいて、デフォルトと結合方法。具体的には、すべてシステム辞書の作成時に辞書ビルドディレクトリのCSVファイルが使用されます。順序は指定されていないので、衝突の場合に何が起こるかは不明です。
この機能はMecabのドキュメントhere(日本)に記載されています。