0
特定の長さのドキュメント文字列s
と同じ長さの言語マスクl
があると、対応するスペシャル言語モデルのドキュメントの各部分(span
?)を処理したいと思います。spaCy複数の言語を使用したドキュメント処理
は私が
import spacy
nlp_de = spacy.load('de')
nlp_en = spacy.load('en')
d_de = nlp_de(u"".join([c for i,c in enumerate(s) if l[i] == "de"]))
d_en = nlp_en(u"".join([c for i,c in enumerate(s) if l[i] == "en"]))
外の文書を構築したいと思いますそして今、私は何とか一緒にその二つの部分を接着しなければならない例えば
s = 'As one would say in German: Wie man auf englisch zu sagen pflegt'
l = ['en'] * 27 + ['de'] * 37
を言います。しかし残念ながら、spacyの文書は語彙に関する情報を保持しています。したがって、これは曖昧です。
多言語文書をspacyでモデル化するにはどうすればよいですか?このに関する
この回答ありがとうございます。私はもう一度言語の空間分布を調べます。私のデータには約3分の2のドイツ語と3分の1のフランス語があり、他の言語の出現数はごくわずかですが、私が知らないのは、それが主に文章間であるか、今のところ、この問題にspaCyデータ構造を使用する方法についての質問があるので、私はこれを受け入れられた答えとしてマークしません –