私は特異値分解を学んでいるところですが、私はこの概念を使うことができ、私が読んでいる本ではSVDが潜在セマンティックインデックスに使われていると述べています。私はLSIに関する記事をほとんど読んでいないので、主に検索エンジンや類似のアプリケーションでLSIが使用されているようです。私は、私が取り組んでいる小規模のデータ分析プロジェクトにLSIを使用したいと思っていました。ここで私が働いているものがあります。潜在セマンティックインデックス(LSI)の意味を理解しよう
私は約20000ゲームのリストを持っています。このリストの属性のうち2つは、ゲームのジャンルとゲームがリリースされたプラットフォームです。私は、プラットフォームとジャンル属性に関する情報を得るためにLSIを使いたいと思っていました。
最初に、行が24の異なるジャンルを表し、列が22の異なるプラットフォームを表す共起行列を作成しました。次に、共起行列のSVD分解を行い、UとVの最初の2つの列を抽出し、UとVの2次元プロットを作成しました。プロットはこのようになります。
だから私の質問は、これは潜在的意味インデキシングの意味の用法と考えることができて、またどのように私はこのグラフから解釈することができますか?たとえば、ジャンルアクションとプラットフォームPCは、他のすべての変数から遠く離れていることがわかります。特に、このジャンルやプラットフォームについては何か教えてください。
ありがとうございます。