簡単な質問:定義 - テキスト分析のためのRパッケージ
Rテキスト分析パッケージQuanteda - findSequenceは、次の出力を与え、私は列の一部にドキュメントを見つけることができません。
seqs <- findSequences(tokens, types_upper, count_min=2)
head(seqs, 3)
sequence len z p mue
3 first time 2 -0.4159751 0.6612859 -165.7366
8 political parties 2 -0.4159751 0.6612859 -165.7366
9 preserve protect 2 -0.4159751 0.6612859 -165.7366
誰かがz、p、およびmueの定義を手助けできます はp =確率ですか?もしそうなら、計算方法。ヘルプは、「このアルゴリズムは、BlahetaとJohnsonの「複数単語動詞の教師なし学習」に基づいています。出力コンポーネントの詳細はありません。
見た目と面白い機能のようですが、より多くの情報が役立ちます。
でもあるこれは良い質問ですが、それはここでは最高ではないかもしれません。 Cross Validatedに移行することをお勧めします。彼らはそれを送り返すかもしれないが、プロセスに精通した人が助けになるかもしれない。 –
関数の詳細から判断すると、 'z'はz-スコア、' p'はそのスコアを得る確率、 'mue'は平均です。しかし、誰かがそれを確認するかもしれない。 –
ピエールに感謝 - ありがとう! – ingrid