私は、文書をランク付けするためのTF-IDFを計算するためにC#でプログラムを書いた。私のXML for documentランキングで何が問題になっていますか?
次のXMLを使用して、ドキュメント内に単語の頻度を格納しました。私はこの構造を使用したことで大きく批判されました。私はタグ内の単語のテキストを使用していますが、私のように効率的で、より少ないスペースを消費します。また、XDocumentを使って簡単にツリー構造を検索することもできます。あなたはなぜ私がひどく批判されたのか理解できますか?
批判:メタデータ内にどのように情報を追加できますか? (私にとっては革新的です)。
<word>
<siddhartha>
<doc1> 4 </doc4>
<doc2> 5 </doc2>
<insipration>
<doc1> 4 </doc1>
<doc6> 5 </doc6>
....
</word>
私はこのような何か示唆された。
<word>
<text> siddhartha </text>
<doc1> 4 </doc1>
<text> inspiration </text>
<doc1> 4 </doc1>
...
</word>
。 –
"ドキュメントをランク付けするためにTF-IDFを計算するプログラムをC#で作成しました。" 「TF-IDF」とは何ですか? – Khan
@Kirkメタデータ内にどのように情報を挿入できますか? – codious