2017-07-16 5 views
3

mecab-d mecab-unidic-neologdの最初の行に使用して「場所は多少わかりづらいいますけど、感じのいいところはありました」という文章(つまり「見つけるのは少し難しいですがいい場所です」)出力は:ユニディックとユニディック・ニューログのバランスをとることは可能ですか?

場所 バショ バショ 場所 名詞-固有名詞-人名-姓 

e 「場所」は人の姓です。通常のmecab-unidicを使用すると、「場所」は単純な名詞であるとより正確に言えます。

場所 バショ バショ 場所 名詞-普通名詞-一般  

私の最初の質問は、ユニディック-neologdは、ユニディックのすべてのエントリを置き換えた場合、またはそれは単にその300万固有名詞を追加しましたか?

次に、それが合併であると仮定して、エントリを再重み付けして、単純な単体エントリをもう少し強くすることは可能でしょうか?私。私は中居居渡広のになる図書館とSMAPのそれぞれが単一の固有名詞として認識されるのが大好きですが、場所が常に「場所」を意味するようになることが必要です(ただし、もちろん、さんや様などの名前接尾辞)。

参考文献:unidic-neologd

答えて

2

Neologdは、ユニディック(またはipadic)と合併し、それは名前に "ユニディック" を続ける理由です。エントリが、場所のような複数の品詞を有する場合、使用すべきエントリは品詞遷移を使用して文全体のコストを最小化することによって選択され、辞書内の単語についてはトークンごとのコストが選択される。あなたはneologd辞書のエントリが含まれているCSVファイルを見ると

次の場所のための2つのエントリが表示されます:

場所,4786,4786,4329,名詞,固有名詞,一般,*,*,*,バショ,場所,場所,バショ,場所,バショ,固,*,*,*,*        
場所,4790,4790,4329,名詞,固有名詞,人名,姓,*,*,バショ,場所,場所,バショ,場所,バショ,固,*,*,*,* 

そしてlex.csvでは、デフォルトのユニディック辞書:

場所,5145,5145,4193,名詞,普通名詞,一般,*,*,*,バショ,場所,場所,バショ,場所,バショ,混,*,*,*,* 

第四に列はコストです。より低コストのアイテムが選択される可能性が高いので、このケースでは、適切な名詞としての場所のコストを上げることができますが、正直なところ削除するだけです。費用の詳細については、here(日本語)を参照してください。

すべてのデフォルトのユニディックエントリをより強く重み付けする場合は、すべての重みを増やすようにニューログCSVファイルを変更できます。これは、そのようなファイルを作成するための一つの方法である:

awk -F, 'BEGIN{OFS=FS}{$4 = $4 * 100; print $0}' neolog.csv > neolog.fix.csv 

あなたは(2下記の注記を参照)を構築する前に、元のCSVファイルを削除する必要があります。

この場合、Neologdプロジェクトのバグとして報告する必要があります。


注1:上記のように、エントリが選択されているので、全体としての文章に依存し、それもデフォルトの設定で非適正名詞のタグを取得することが可能です。例文:

お店の場所知っている? 

注2:neologd辞書はユニディック辞書はMecab辞書が作業を構築する方法の微妙な側面に基づいて、デフォルトと結合方法。具体的には、すべてシステム辞書の作成時に辞書ビルドディレクトリのCSVファイルが使用されます。順序は指定されていないので、衝突の場合に何が起こるかは不明です。

この機能はMecabのドキュメントhere(日本)に記載されています。

関連する問題