2017-10-19 6 views
1

StanfordCoreNLPを使用して、既存の、潜在的に外部に提供されたテキストのトークン化を使用しながら、テキストの構成員解析を行うことが可能かどうかを知りたいと思います。私はフランス語で書かれたテキストでこれを行うことを検討しています。可能であれば、このファイルからテキストのバージョンを再構築できるので、トークンを含むファイルだけが必要になると思います。 JavaでプログラミングしてJavaクラスを直接使うことは可能かもしれませんが、私はJavaをあまり知らないので、コマンドライン命令を使ってこのようなことが可能かどうかを知りたかったのです。 そのようなことについて誰も知っていますか?StanfordCoreNLPを使用して既存のトークン化を使用して構成員の解析を行うことはできますか?

この質問に対する回答を検索し、StanfordCoreNLPサイト(https://nlp.stanford.edu/)、特にこのページhttps://nlp.stanford.edu/software/を検索しましたが、私が探しているものが見つかりませんでした。ソフトウェアに関する情報を得る方法を探しているとき、私はStackOverflowに関する質問をするように言われています。

私の疑問の正確な策定のために、コマンドラインインターフェイスでStanfordCoreNLPを使用する方法があります。フランス語で書かれたテキストに情報を解析するためにStanfordCoreNLPを使用する一方で、StanfordCoreNLPは、そのテキストの入力トークン?答えが「はい」の場合、どこでそのような方法について自分自身を文書化できますか?

編集: 例: 私は英語で書かれたテキスト上で行われているようなものの一例を提供します:

生のテキスト: «ジョンは旅行に行ったの。それはとても素敵でした。 »

トークンテキスト: «Johnは旅行に行きました。それはとても素敵でした。テキストの» (ここでは、生のテキストとの違いは、句読点は、それぞれの前の単語から分離したことである)

選挙の解析: «(ROOT(S(NP(NNPジョン))(VP( VBD)(SBD(WHNP(WDT))(SBD(VBD))(ADJP(RBかなり)ご覧のとおり、constituencyの構文解析は、トークン化ステップの結果の注釈として見ることができます。私は現在、StanfordCoreNLPスイートを使用して、他のタイプの情報の中で、構成要素の解析情報を生テキストを提供することで計算する方法を知っていますが、それを達成するために、StanfordCoreNLPスイートは独自のトークンステップを実行します。

StanfordCoreNLPスイートに、フランス語のテキストの事前定義トークンを使用/尊重する方法があるかどうかを知りたいと思います。

編集2:答えを

感謝。ちなみに、これは、コマンドラインで "{annotator_name}。{option_name}"フォーマットを使用して、StanfordCoreNLPのパイプラインプロセスで使用されたさまざまな注釈をどのようにパラメトリックにすることができるかを学びました。次回はStanfordCoreNLPのドキュメントを閲覧する際の理解を深めることができます。

+0

あなたの質問を改善して、他の人がそれに答えるのに役立つコメントがあります。 1.達成したいことを説明するために例を挙げてください。 2.既に試したアプローチを書き留めます。 3.質問したい質問を要約し、最後に貼り付けます。この質問には、非常に具体的なものが必要です。 – FacePalm

答えて

1

tokenize.whitespaceオプションを使用して、テキストを空白でトークン化します。このオプションは、空白で区切られた単語だけを作成します。

関連する問題