2016-03-24 19 views
0

私はコーパスを鍛えるためにスタンフォードPOSタガーを使用しています。設定ファイル "Prop"を用意し、データを整理してトレーニングを開始しました。スタンフォードトレーニングラムダがあまりにも大きい

その後、私は "Lambda Too Big"のようなメッセージを得るようになり、これらのメッセージはトレーニングの終わりまで発生し続けました。後でモデルを試してみて、「Out of Memory Exception」を与え続けました。私は40GB以上のRAMを持つHPCでモデルを疲れさせ、25GBを使用するためにJavaのヒープスペースを増やしましたが、同じ問題がまだ発生しています。

私が使用しているコーパスには約6000文があり、文中の単語の最小数は3であり、最大は128語です。単語には{p1} {p2}と同じように3つのタグがあります。

私はトレーニングを開始すると、ここでのログは、次のとおりです。

pcond initialized 
zlambda initialized 
ftildeArr initialized 
QNMinimizer called on double function of 337720 variables, using M = 10. 

Iter. 0: neg. log cond. likelihood = 821394.2976644086 [1 calls to valueAt] 
      An explanation of the output: 
Iter   The number of iterations 
evals   The number of function evaluations 
SCALING  <D> Diagonal scaling was used; <I> Scaled Identity 
LINESEARCH  [## M steplength] Minpack linesearch 
        1-Function value was too high 
        2-Value ok, gradient positive, positive curvature 
        3-Value ok, gradient negative, positive curvature 
        4-Value ok, gradient negative, negative curvature 
       [.. B] Backtracking 
VALUE   The current function value 
TIME   Total elapsed time 
|GNORM|  The current norm of the gradient 
{RELNORM}  The ratio of the current to initial gradient norms 
AVEIMPROVE  The average improvement/current value 
EVALSCORE  The last available eval score 

Iter ## evals ## <SCALING> [LINESEARCH] VALUE TIME |GNORM| {RELNORM} AVEIMPROVE 
EVALSCORE 

Iter 1 evals 1 <D> [lambda 5525 too big: 623.532051211901 
lambda 28341 too big: 623.5660256059567 
lambda 153849 too big: 623.5660256059567 

また、ここでは、小道具ファイルで使用される設定です。

## tagger training invoked at Thu Mar 03 01:31:10 AST 2016 with arguments: 
        model = arabic.New.tagger 
        arch = words(-2,2),order(1),prefix(6),suffix(6),unicodeshapes(1) 
      wordFunction = 
       trainFile = format=TSV,Train.txt 
     closedClassTags = 
closedClassTagThreshold = 40 
curWordMinFeatureThresh = 1 
        debug = false 
      debugPrefix = 
      tagSeparator =/
       encoding = UTF-8 
       iterations = 100 
        lang = arabic 
    learnClosedClassTags = false 
     minFeatureThresh = 3 
      openClassTags = 
rareWordMinFeatureThresh = 3 
      rareWordThresh = 5 
        search = qn 
        sgml = false 
      sigmaSquared = 0.0 
        regL1 = 0.75 
       tagInside = 
       tokenize = false 
     tokenizerFactory = edu.stanford.nlp.process.WhitespaceTokenizer 
     tokenizerOptions = 
       verbose = false 
      verboseResults = true 
    veryCommonWordThresh = 250 
       xmlInput = 
       outputFile = 
      outputFormat = slashTags 
    outputFormatOptions = 
       nthreads = 1 

誰もが私が間違って何をやって教えてもらえます?ラムダサイズメッセージに関して

答えて

0

、あなたはここで答えを見つけることができます。Out Of Memory Exceptionに関してLambda Size is Too Bog

を、あなたがタグ付けするファイルのサイズをspcifiyしてください。どのような場合でも、私はあなたがタガーのために大きなファイルを渡そうとしていると思う。 100 KBのファイルをテストとして渡してみてください。あなたのファイルのサイズが小さければエラーメッセージが出るとは思わない。ただし、Out Of Memory Exceptionエラーメッセージが表示され続けている場合は、java-nlp-userjava-nlp-userという質問を投稿できます。質問を投稿する前に、リストにサブリストする必要があることに気をつけてください。

私はこれがあなたを助けてくれることを願っています!

+0

私はあなたの提案を試み、投稿を投稿します...ありがとう。 – ykh

関連する問題