私はコーパスを鍛えるためにスタンフォードPOSタガーを使用しています。設定ファイル "Prop"を用意し、データを整理してトレーニングを開始しました。スタンフォードトレーニングラムダがあまりにも大きい
その後、私は "Lambda Too Big"のようなメッセージを得るようになり、これらのメッセージはトレーニングの終わりまで発生し続けました。後でモデルを試してみて、「Out of Memory Exception」を与え続けました。私は40GB以上のRAMを持つHPCでモデルを疲れさせ、25GBを使用するためにJavaのヒープスペースを増やしましたが、同じ問題がまだ発生しています。
私が使用しているコーパスには約6000文があり、文中の単語の最小数は3であり、最大は128語です。単語には{p1} {p2}と同じように3つのタグがあります。
私はトレーニングを開始すると、ここでのログは、次のとおりです。
pcond initialized
zlambda initialized
ftildeArr initialized
QNMinimizer called on double function of 337720 variables, using M = 10.
Iter. 0: neg. log cond. likelihood = 821394.2976644086 [1 calls to valueAt]
An explanation of the output:
Iter The number of iterations
evals The number of function evaluations
SCALING <D> Diagonal scaling was used; <I> Scaled Identity
LINESEARCH [## M steplength] Minpack linesearch
1-Function value was too high
2-Value ok, gradient positive, positive curvature
3-Value ok, gradient negative, positive curvature
4-Value ok, gradient negative, negative curvature
[.. B] Backtracking
VALUE The current function value
TIME Total elapsed time
|GNORM| The current norm of the gradient
{RELNORM} The ratio of the current to initial gradient norms
AVEIMPROVE The average improvement/current value
EVALSCORE The last available eval score
Iter ## evals ## <SCALING> [LINESEARCH] VALUE TIME |GNORM| {RELNORM} AVEIMPROVE
EVALSCORE
Iter 1 evals 1 <D> [lambda 5525 too big: 623.532051211901
lambda 28341 too big: 623.5660256059567
lambda 153849 too big: 623.5660256059567
また、ここでは、小道具ファイルで使用される設定です。
## tagger training invoked at Thu Mar 03 01:31:10 AST 2016 with arguments:
model = arabic.New.tagger
arch = words(-2,2),order(1),prefix(6),suffix(6),unicodeshapes(1)
wordFunction =
trainFile = format=TSV,Train.txt
closedClassTags =
closedClassTagThreshold = 40
curWordMinFeatureThresh = 1
debug = false
debugPrefix =
tagSeparator =/
encoding = UTF-8
iterations = 100
lang = arabic
learnClosedClassTags = false
minFeatureThresh = 3
openClassTags =
rareWordMinFeatureThresh = 3
rareWordThresh = 5
search = qn
sgml = false
sigmaSquared = 0.0
regL1 = 0.75
tagInside =
tokenize = false
tokenizerFactory = edu.stanford.nlp.process.WhitespaceTokenizer
tokenizerOptions =
verbose = false
verboseResults = true
veryCommonWordThresh = 250
xmlInput =
outputFile =
outputFormat = slashTags
outputFormatOptions =
nthreads = 1
誰もが私が間違って何をやって教えてもらえます?ラムダサイズメッセージに関して
私はあなたの提案を試み、投稿を投稿します...ありがとう。 – ykh