2016-09-14 10 views
1

簡単な質問:定義 - テキスト分析のためのRパッケージ

Rテキスト分析パッケージQuanteda - findSequenceは、次の出力を与え、私は列の一部にドキュメントを見つけることができません。

seqs <- findSequences(tokens, types_upper, count_min=2) 
head(seqs, 3) 
       sequence len   z   p  mue 
    3   first time 2 -0.4159751 0.6612859 -165.7366 
    8 political parties 2 -0.4159751 0.6612859 -165.7366 
    9 preserve protect 2 -0.4159751 0.6612859 -165.7366 

誰かがz、p、およびmueの定義を手助けできます はp =確率ですか?もしそうなら、計算方法。ヘルプは、「このアルゴリズムは、BlahetaとJohnsonの「複数単語動詞の教師なし学習」に基づいています。出力コンポーネントの詳細はありません。

見た目と面白い機能のようですが、より多くの情報が役立ちます。

+1

でもあるこれは良い質問ですが、それはここでは最高ではないかもしれません。 Cross Validatedに移行することをお勧めします。彼らはそれを送り返すかもしれないが、プロセスに精通した人が助けになるかもしれない。 –

+0

関数の詳細から判断すると、 'z'はz-スコア、' p'はそのスコアを得る確率、 'mue'は平均です。しかし、誰かがそれを確認するかもしれない。 –

+0

ピエールに感謝 - ありがとう! – ingrid

答えて

1

ファンクションコードを確認した後、用紙をチェックすると、λ(log-odds ratio)対シグマ(漸近標準誤差)からλzが計算されます。ピエールがコメントしたように、それはZスコアであり、pは確率1 - stats::pnorm(z)です。

mueは、BlahetaとJohnsonの「マルチワード動詞の教師なし学習」のセクション2.3の第2段落で説明されています。 "μ=λ - 3.29σ...これは、μとμ1をλの0.001信頼区間の下限に設定することに相当します。これは、騒音に直面した精度のリコール取引を体系的に行う方法ですデータ(Johnson、2001)。

あなたはセクション2.3に行く場合は、さらに詳細を見ることができます:

私たちは、「すべてのsubtuples」と下記の「ユニグラムsubtuples」対策を呼ん 協会μとμ1の二つの異なる措置を提案します。 は以下のように説明されているので、それらは非常に異なる種類のコロケーションを識別しているように見えるので、特定の状況ではどちらも便利です。これらの メジャーはλおよびλ1の推定値であり、特定のログ線形モデルの特定のパラメータである です。カウントが である場合、λとλ1の推定値にノイズが含まれている可能性がありますので、 小計数データの高い値は、大計数データの値と比較すると何らかの方法で割り引かれるべきです。 漸近標準誤差σとλとλ1のσ1をそれぞれ推定し、μ =λ - 3.29σとμ1=λ1 - 3.29σ1と設定することでこれを行います。これは、測定μおよびμ1をλおよびλ1について0.001信頼区間の下限に設定することに対応する。これは、雑音の多いデータに直面して精度を高めるためのシステマティックな方法である(Johnson、2001)。 λとσを計算に関連する

詳細(および追加参照)は2.3

+0

答えに感謝します。 – ingrid

関連する問題