2017-08-28 10 views
0

特定の長さのドキュメント文字列sと同じ長さの言語マスクlがあると、対応するスペシャル言語モデルのドキュメントの各部分(span?)を処理したいと思います。spaCy複数の言語を使用したドキュメント処理

は私が

import spacy 
nlp_de = spacy.load('de') 
nlp_en = spacy.load('en') 

d_de = nlp_de(u"".join([c for i,c in enumerate(s) if l[i] == "de"])) 
d_en = nlp_en(u"".join([c for i,c in enumerate(s) if l[i] == "en"])) 

外の文書を構築したいと思いますそして今、私は何とか一緒にその二つの部分を接着しなければならない例えば

s = 'As one would say in German: Wie man auf englisch zu sagen pflegt' 
l = ['en'] * 27 + ['de'] * 37 

を言います。しかし残念ながら、spacyの文書は語彙に関する情報を保持しています。したがって、これは曖昧です。

多言語文書をspacyでモデル化するにはどうすればよいですか?このに関する

答えて

0

2思考:

  1. code switch:(主にではなくに制限)話テキストに1つの以上の言語の組み合わせです。これはまさにあなたの例ではありません。
  2. あなたのような文章は、分かりやすいものです。

ほとんどの例文に似ているとすれば、私は言語別にテキストを区切ってみようとしています(例では、2つの文を得て、それぞれ独自に処理します)。

spacyにコードスイッチの組み込みサポートが含まれているかどうかわかりませんが、そうでない場合は独自のモデルを構築する必要があります(または単にspacyのものを組み合わせようとします)あなたの実際の仕事で

+0

この回答ありがとうございます。私はもう一度言語の空間分布を調べます。私のデータには約3分の2のドイツ語と3分の1のフランス語があり、他の言語の出現数はごくわずかですが、私が知らないのは、それが主に文章間であるか、今のところ、この問題にspaCyデータ構造を使用する方法についての質問があるので、私はこれを受け入れられた答えとしてマークしません –

関連する問題