私のXML for documentランキングで何が問題になっていますか？

私は、文書をランク付けするためのTF-IDFを計算するためにC＃でプログラムを書いた。私のXML for documentランキングで何が問題になっていますか？

次のXMLを使用して、ドキュメント内に単語の頻度を格納しました。私はこの構造を使用したことで大きく批判されました。私はタグ内の単語のテキストを使用していますが、私のように効率的で、より少ないスペースを消費します。また、XDocumentを使って簡単にツリー構造を検索することもできます。あなたはなぜ私がひどく批判されたのか理解できますか？

批判：メタデータ内にどのように情報を追加できますか？（私にとっては革新的です）。

<word> 
    <siddhartha> 
     <doc1> 4 </doc4> 
     <doc2> 5 </doc2> 

    <insipration> 
     <doc1> 4 </doc1> 
     <doc6> 5 </doc6> 

    .... 
</word>

私はこのような何か示唆された。

<word> 
    <text> siddhartha </text> 
    <doc1> 4 </doc1> 
    <text> inspiration </text> 
    <doc1> 4 </doc1> 
    ... 
    </word>

出典

2012-03-07 codious

。 –

"ドキュメントをランク付けするためにTF-IDFを計算するプログラムをC＃で作成しました。" 「TF-IDF」とは何ですか？ – Khan

@Kirkメタデータ内にどのように情報を挿入できますか？ – codious

あなたの構造、ノードとして単語名で、一般的なパーサで解析するのは難しいだろう。定義された構造はありません。文書全体を読んでそれを知る必要があります。私はこのような何かを行っていること

は（私はあなたの考えに閉じたまましようとした）：空気が批判を言ったためにそれがあなたのために役立つだろう

<words> 
    <word id="siddhartha"> 
     <freq id="doc1"> 4 </freq> 
     <freq id="doc2"> 5 </freq> 
    </word> 
    .... 
</words>

出典

2012-03-07 21:42:48

提案していただきありがとうございます。頻度を検索するには、perdoc.Root.Element（ "siddhartha"）要素（ "doc1"）。valueを使用します。どのようにあなたの構造を使用して置き換えられますか？ – codious

私は毎日XMLを解析しません:)しかし、それは非常に簡単です。ちょうどそのID属性で単語ノードを選択し、次に同じ方法で子をフェッチする必要があります。あなたのAPIに既にそのようなメソッドがあるかもしれません。 –

IEnumerable ユーザー= （XMLDoc.root.Elements（ "Word"）のelから）ここで（文字列）el.Attribute（ "id"）== "siddhartha" select el）;開始のために。 –

私のXML for documentランキングで何が問題になっていますか？

答えて

関連する問題