定義 - テキスト分析のためのRパッケージ

Rテキスト分析パッケージQuanteda - findSequenceは、次の出力を与え、私は列の一部にドキュメントを見つけることができません。

seqs <- findSequences(tokens, types_upper, count_min=2) 
head(seqs, 3) 
       sequence len   z   p  mue 
    3   first time 2 -0.4159751 0.6612859 -165.7366 
    8 political parties 2 -0.4159751 0.6612859 -165.7366 
    9 preserve protect 2 -0.4159751 0.6612859 -165.7366

誰かがz、p、およびmueの定義を手助けできますはp =確率ですか？もしそうなら、計算方法。ヘルプは、「このアルゴリズムは、BlahetaとJohnsonの「複数単語動詞の教師なし学習」に基づいています。出力コンポーネントの詳細はありません。

見た目と面白い機能のようですが、より多くの情報が役立ちます。

出典

2016-09-14 ingrid

でもあるこれは良い質問ですが、それはここでは最高ではないかもしれません。 Cross Validatedに移行することをお勧めします。彼らはそれを送り返すかもしれないが、プロセスに精通した人が助けになるかもしれない。 –

関数の詳細から判断すると、 'z'はz-スコア、' p'はそのスコアを得る確率、 'mue'は平均です。しかし、誰かがそれを確認するかもしれない。 –

ピエールに感謝 - ありがとう！ – ingrid

ファンクションコードを確認した後、用紙をチェックすると、λ（log-odds ratio）対シグマ（漸近標準誤差）からλzが計算されます。ピエールがコメントしたように、それはZスコアであり、pは確率1 - stats::pnorm(z)です。

mueは、BlahetaとJohnsonの「マルチワード動詞の教師なし学習」のセクション2.3の第2段落で説明されています。 "μ=λ - 3.29σ...これは、μとμ1をλの0.001信頼区間の下限に設定することに相当します。これは、騒音に直面した精度のリコール取引を体系的に行う方法ですデータ（Johnson、2001）。

あなたはセクション2.3に行く場合は、さらに詳細を見ることができます：

私たちは、「すべてのsubtuples」と下記の「ユニグラムsubtuples」対策を呼ん協会μとμ1の二つの異なる措置を提案します。は以下のように説明されているので、それらは非常に異なる種類のコロケーションを識別しているように見えるので、特定の状況ではどちらも便利です。これらのメジャーはλおよびλ1の推定値であり、特定のログ線形モデルの特定のパラメータであるです。カウントがである場合、λとλ1の推定値にノイズが含まれている可能性がありますので、小計数データの高い値は、大計数データの値と比較すると何らかの方法で割り引かれるべきです。漸近標準誤差σとλとλ1のσ1をそれぞれ推定し、μ =λ - 3.29σとμ1=λ1 - 3.29σ1と設定することでこれを行います。これは、測定μおよびμ1をλおよびλ1について0.001信頼区間の下限に設定することに対応する。これは、雑音の多いデータに直面して精度を高めるためのシステマティックな方法である（Johnson、2001）。 λとσを計算に関連する

詳細（および追加参照）は2.3

出典

2016-09-15 02:31:40 Jota

答えに感謝します。 – ingrid

定義 - テキスト分析のためのRパッケージ

答えて

関連する問題