-1

要素スタイル(fontSize、fontWeight、...)に基づいたhtmlファイルからタイトルとパラグラフを抽出するには、最適なデータ解析方法は何ですか?私はすでにテキストとfontSize属性を抽出し、それらをcsvファイルに入れました。このデータを分類(またはクラスタ化)する方法を知る必要があります。たとえば、fontSizeが20pxのすべての要素を私に与えることができます。 + 5pxの許容差です。これらの要素はh1タグなどに変換されます。要素からhtmlの要素のタイトルと段落を抽出するスタイル

EDIT:Weakのマンハッタン距離関数を使用したクラスタアルゴリズムSimple KMeansを使用して、必要なだけ多くのクラスタにfontSizesをクラスタ化できます。しかし、私はクラスターごとに正確な値を得ています。例えば、フォントサイズ10pxは100回、20pxは200回などです。すべての値をカバーするために特定の値の代わりに範囲を持つ必要があります。

+0

なぜこれをクラスタリングするのですか?これは十分に信頼できません。 –

+0

私はあなたからのアドバイスを探しています。何を指示してるんですか ? –

+0

しきい値を使用します。 –

答えて

0

まず最初にこれはコメントですが、私は新しくコメントを書くことはできません。

私はウェカでマンハッタン距離関数でクラスタ化アルゴリズムの簡単な関数kmeansを使って好きなだけのクラスタにfontSizesをclusterizeすることができています。しかし、私はクラスターごとに正確な値を得ています。例えば、フォントサイズ10pxは100回、20pxは200回などです。すべての値をカバーするために特定の値の代わりに範囲を持つ必要があります。

"numClusters"のような名前のオプションを持つクラスタの数を指定できます。だから、wekaに必要なだけ多くのクラスタを構築させることができます。つまり、クラスタと異なる値を持つ場合は、特定の数値の代わりに範囲を使用する必要があります。

しかし、ここで私は単純なループデータを繰り返し処理し、必要なものを手動で指定します。

if(fontSize < 10) { 
/*Do s.th*/ 
}else if(fontSize < 20){ 
/*Do s.th. 
} 

よう 何か、それは道、より信頼性が高く、使いやすいように見えるので。 さらに多くの属性を持っていても、すべてのクラスタの属性値を手動で定義し、いずれかのクラスタに適合するデータセットがあるかどうかを確認するだけです。

圧倒的な量の属性やクラスタがある場合や、データを非常によく理解していない場合は、このタスクのためにwekaのようなものをお勧めします。しかしあなたの仕事はそんなに見えません。

0

マシンラーニングベースのboilerpipe Java APIを試してみてください。異なるモデルをテストすることができますon-line

関連する問題