まず思考:
- ノイズワード(と、あなた、である、いくつかの、...)を離れて投げます。
- 他のすべての単語を数え、数量で並べ替えます。
- 2つの記事の各単語について、数量の合計(または製品またはその他の数式)に応じてスコアを追加します。
- スコアは類似性を表す。
ドナルド・ラムズフェルドについての記事は、これらの2つの言葉をかなり持っていると思われるので、私は記事でそれらを重み付けしています。
しかし、ウォーレン・バフェットはビル・ゲイツと何度も言及しており、ビルゲイツとマイクロソフトの両方に何度も言及している記事があるかもしれません。そこでの相関は最小限に抑えられます。あなたのコメントに基づいて
:
ので、記事はサダム・フセインについてだった場合、アルゴリズムは、イラクでのドナルド・ラムズフェルドのビジネス取引について何かをお勧めかもしれません。
Saddamの記事にもイラク(またはドナルド)が言及されていない限りそうでないとは限りません。
これは私が始めるところであり、理論上の潜在的な穴がすでに見えています(ビル・ゲイツ氏についての記事は、最初の名前が多く言及されていればビル・クリントンに関する記事と緊密に一致します)。これは、他のすべての言葉(Microsoftは1つのBill、Hillaryはもう1つのBill)を世話してもよいでしょう。
単語近接機能を導入しようとする前に試してみるといいかもしれませんが、これは非常に複雑になる可能性があるためです。
もう一つの可能な改善は、「ハード」協会を維持することです(オサマビンラディンの記事に常にアフガニスタンという言葉を追加するなど)。しかし、オサマについての記事はアフガニスタンについてもほとんど確実に言及しているので、疑わしい価値については余分なメンテナンスが必要です。
記事をプロットしてユークリッド距離をとるのは、必ずしも同じキーワードを持たずに似ているものを認識できるようにするためです.Saddam Husseinの記事とDonald Rumsfeldの記事はバグダッドを持つ可能性が高いので、それらの間の関係 – Ankur
あなたが言及した場合、Ankurは同じキーワード(バグダッド)を持っています - 彼らはDonaldやSaddamと共通していません。だから、私の "解決策"で類似点はまだ取り上げられるだろう。問題は、ラムズフェルドに関する記事とドナルド・ダックに関する記事が近いと考えられるかもしれないということです。 – paxdiablo
DonaldとRumsfeld、Duckから "Donald Rumsfeld"と "Donald Duck"にキーワードを変更するだけでは、それ以上の効果は得られません。それは近接検出が必要になる場所であるかもしれない。 – paxdiablo