2017-11-11 4 views
0

私はここにあるnews20.binaryファイルを使って作業しています。 https://www.csie.ntu.edu.tw/~cjlin/libsvmtools/datasets/binary.html誰かがこのSVMバイナリファイルのこれらの浮動小数点値を説明できますか?

これは、LibSVMライブラリで使用する事前生成バイナリファイルです。私は以下のバイナリファイルの小さな例を持っています。私の質問は、私は浮動小数点値の生成方法を理解していないということです。たとえば、index:valueのペアとその値が行全体でどのように同じかを確認します。次の行にはインデックス値が繰り返されますが、ペア値はここでは一意ですが、行全体のインデックス値に関係なく繰り返されます。 LibSVMがバイナリファイル用に持っているものの小さなサブセットです。

-1 1:0.016563 2:0.016563 3:0.016563 4:0.016563 5:0.016563 6:0.016563 7:0.016563 
-1 1:0.013067 2:0.013067 3:0.013067 5:0.013067 6:0.013067 9:0.013067 13:0.013067 
-1 40:0.028421 54:0.028421 75:0.028421 81:0.028421 89:0.028421 97:0.028421 102:0.028421 
-1 40:0.048057 57:0.048057 75:0.048057 97:0.048057 102:0.048057 103:0.048057 114:0.048057 
-1 40:0.084515 75:0.084515 97:0.084515 103:0.084515 114:0.084515 120:0.084515 171:0.084515 
-1 9:0.028352 32:0.028352 40:0.028352 54:0.028352 57:0.028352 75:0.028352 81:0.028352 
-1 9:0.090167 75:0.090167 97:0.090167 102:0.090167 103:0.090167 114:0.090167 149:0.090167 
-1 40:0.047458 75:0.047458 89:0.047458 97:0.047458 103:0.047458 114:0.047458 149:0.047458 
-1 40:0.031976 48:0.031976 75:0.031976 81:0.031976 89:0.031976 97:0.031976 102:0.031976 

スケーリングと正規化が起こっている可能性がありますが、どのような意味ですか?おそらく、各インデックスでfeature_max値とfeature_min値を取得するのと同じくらい簡単だと思いました。次に、これらの極値を0と1の間の値にスケーリングします。これは私のバイナリファイルが現われたものです。

6:1.000000 68:0.000000 83:0.392857 94:0.073786 334:1.000000 463:1.000000 625:1.000000 
63:0.613432 119:0.595636 121:0.357801 325:0.466867 477:1.000000 664:0.466867 892:0.300000 
15:0.000000 64:0.553846 94:0.089619 150:1.000000 356:1.000000 418:1.000000 602:1.000000 
76:1.000000 94:0.794175 171:0.925523 576:1.000000 581:1.000000 616:0.923810 698:1.000000 1229:1.000000      
15:0.857143 36:0.778842 94:0.191401 308:1.000000 382:0.122203 617:0.266600 858:0.576355 
63:0.350350 94:0.142395 296:1.000000 325:0.585341 718:1.000000 785:0.269692 932:0.693694 
313:0.279469 790:0.311258 1016:1.000000 1028:1.000000 1239:1.000000 1541:1.000000 1708:1.000000 
9:0.402892 53:1.000000 60:0.567273 94:0.217864 592:1.000000 615:0.246701 663:0.738462 

答えて

0

news20.binaryのdescriptionを見てみましょう、

前処理:各インスタンスは、単位長さを持っています。

最初のインスタンスのために、すべての3646個の機能はそれほど1 = 3646 *(0.016563)^ 2

this paperによれば、news20.binaryは本来、テキストデータUCI Twenty Newsgroups由来とする一般的な方法であるTFIDFによって生成され、0.016563でありますテキストデータを扱う。

結果として、news20.binaryにはスケーリング前のバイナリ機能があり、1つのインスタンスではその機能はすべて同じです。

+0

ありがとうございます!少し時間をかけてあなたの貢献を消化させ、まもなく戻ってきます。 – DaveK

関連する問題