Googleニュースと同じように、異なるソースからのニュース記事を1つのイベントにクラスタリングするクラスタリングアルゴリズムに取り組んでいます。 1つの問題を除いて、すべてがうまくいっています。多言語の名前付きエンティティのリンク
私はアラビア語のニュース記事をクラスタリングしており、アルゴリズムは非常に良く機能しており、政治やスポーツの記事では非常に良い結果を示していますが、ゲームやテクノロジーに関しては結果はそれほど良くありません。問題は、私は非常に低いリコール(クラスタよりも少ない数)を持っていることです。
調査したところ、問題は名前付きエンティティであることがわかりました。ゲームや技術では、作者は英語名やアラビア語の同等の名前を使用しているように見えますが、これは主にタイトルの用語に影響を及ぼしています。
ここでは、同じ名前のエンティティが異なる言語であってもそれらを見つける方法を探しています。私はまだ正確にどのような助けに感謝し、私はまだ分かりません。
これらのツールは、一般的にDBpediaの上多かれ少なかれ依存している...