以下のデータポイントを持つDataFrameがあります。ここでcount
はarticleTagが読み取られた回数を表します。 articleTag
はarticleIdのtag
です。すなわち、記事ID 590020
には、1つの文字列として表される4つのタグA,B,C,D
がある。カウント回数Stringの一部がDataFrameです
articleId articleTag count
0 590020 A,B,C,D 2
1 466322 A,B,E 3
2 466322 B 2
3 466322 A 1
私は倍の多くの数は、それが記事に登場し、何回その読み取りの数どのように各タグのtag distribution
すなわちを確認する必要があります。
上記のサンプルデータフレームに似ています。
Tag Present Read
A 3 6
B 3 7
C 1 2
D 1 2
E 1 3
P1のヘルプ。
上記のコードでは、文字列の一部も考慮されています。例えば、タグが読み込みカウントが計算されるべき「naren」である場合。したがって、もしそれが 'narendra modi、bjp'に対してテストされれば、そのカウントは増分されます。しかし、私はこれを望んでいません。タグは全体として存在する必要があります。 –
'='の代わりに==を使用する –