2017-10-11 6 views
0

私はStanfordNLPで本の長さのテキストブロックを解析しようとしています。 HTTPリクエストはうまく機能しますが、StanfordCoreNLPServer.javaのテキストの長さであるMAX_CHAR_LENGTHは設定できません。StanfordNLPサーバーの文字数制限を100Kにするには?

今のところ、サーバーに送信する前にテキストを切り詰めていますが、文章と段落の間で分割しようとしても、これらのチャンク間で失われる有用な参照情報があります。おそらく、私は大きなオーバーラップを持つチャンクを解析し、それらを結びつけることができますが、それは(1)控えめで、(2)かなりのメンテナンスのようです。

手動チャンクを削除するか、情報をチャンク間で保持するようにサーバーまたはリクエストを構成する方が良いでしょうか?

私はpython要求モジュールを使用してPOSTしていますが、corenlp pythonラッパーが何らかの理由でこの問題を処理しない限り、それは違いになります。

答えて

0

フラグ-maxCharLength -1を使用してサーバーを起動することができます。これにより、文章の長さ制限がなくなります。これは生産ではお勧めできません:任意の大きな文書は、特にcorefのようなもので、任意に大量のメモリ(および時間)を消費する可能性があります。

-helpでサーバーを呼び出すと、サーバーのオプション一覧にアクセスでき、documented in code hereになります。

+0

ああ、私は8月から、コミットを参照してください。私はその直前のバージョンを使用しています。私はそれから更新します。ありがとう! –

+0

3.8.0にはありませんか?比較的新しい(つまり、サーバーの最初のバージョンではない)ことは分かっていますが、少なくとも最近のリリースではうまくいけばうまくいけばいいと思います。 –

+0

いいえ、3.8.0のsrcにはまだ静的なMAX_CHAR_LENGTHがあります。 –

関連する問題