要素スタイル(fontSize、fontWeight、...)に基づいたhtmlファイルからタイトルとパラグラフを抽出するには、最適なデータ解析方法は何ですか?私はすでにテキストとfontSize属性を抽出し、それらをcsvファイルに入れました。このデータを分類(またはクラスタ化)する方法を知る必要があります。たとえば、fontSizeが20pxのすべての要素を私に与えることができます。 + 5pxの許容差です。これらの要素はh1タグなどに変換されます。要素からhtmlの要素のタイトルと段落を抽出するスタイル
EDIT:Weakのマンハッタン距離関数を使用したクラスタアルゴリズムSimple KMeansを使用して、必要なだけ多くのクラスタにfontSizesをクラスタ化できます。しかし、私はクラスターごとに正確な値を得ています。例えば、フォントサイズ10pxは100回、20pxは200回などです。すべての値をカバーするために特定の値の代わりに範囲を持つ必要があります。
なぜこれをクラスタリングするのですか?これは十分に信頼できません。 –
私はあなたからのアドバイスを探しています。何を指示してるんですか ? –
しきい値を使用します。 –