2010-12-31 7 views
7

MAXENTモデルが自分のdownload-siteに上場し、現在私は、POS-タグドイツ語の文章にOpenNLPツールを使用しています:OpenNLPのドイツ最大モデルではど​​のようなタグセットが使用されていますか?

 
de  POS Tagger  Maxent model trained on tiger corpus. de-pos-maxent.bin 

をこれは非常にうまく機能し、私のように結果を得た:

 
Diese, Community, bietet, Teilnehmern, der, Veranstaltungen, die, Möglichkeit ... 
PDAT, FM, VVFIN, NN, ART, NN, ART, NN ... 

タグ付けされた文章私は単一のタグの意味を知る必要があるいくつかのさらなる処理をしたい。 UnforunatelyタグセットのOpenNLP-Wikiは、それが言うように非常に参考にされていない検索:

 
TODO: Add more tag sets, also for non-english languages 

私はドイツ語MAXENTモデルで使用されるタグセットを見つけることができ、誰もが知っていますか?

答えて

6

STTS tag setが使用されている可能性が高いようです。このタグセットは、ドイツ語の最も一般的なタグセットと言われています。このquestionまたはこのWikipedia entryにあります。

3

ドイツのOpenNLP POSタガーは、Tigerコーパスで訓練されたと私は理解しています。このコーパスは、STTSタグセットを実際に使用しますが、マイナーな変更が加えられています。私は、次が役に立ったと評価してい:A Brief Introduction to the Tiger Sample Corpus

8

私はドイツのタグを含むenum(逆引き参照可能です)作成:OpenNLP(1.6.0)の最新バージョンは、今も持っていることを、私はちょうど発見

public enum POSGermanTag { 

    ADJA("Attributives Adjektiv"), 
    ADJD("Adverbiales oder prädikatives Adjektiv"), 
    ADV("Adverb"), 
    APPR("Präposition; Zirkumposition links"), 
    APPRART("Präposition mit Artikel"), 
    APPO("Postposition"), 
    APZR("Zirkumposition rechts"), 
    ART("Bestimmer oder unbestimmer Artikel"), 
    CARD("Kardinalzahl"), 
    FM("Fremdsprachichles Material"), 
    ITJ("Interjektion"), 
    KOUI("unterordnende Konjunktion mit zu und Infinitiv"), 
    KOUS("unterordnende Konjunktion mit Satz"), 
    KON("nebenordnende Konjunktion"), 
    KOKOM("Vergleichskonjunktion"), 
    NN("normales Nomen"), 
    NE("Eigennamen"), 
    PDS("substituierendes Demonstrativpronomen"), 
    PDAT("attribuierendes Demonstrativpronomen"), 
    PIS("substituierendes Indefinitpronomen"), 
    PIAT("attribuierendes Indefinitpronomen ohne Determiner"), 
    PIDAT("attribuierendes Indefinitpronomen mit Determiner"), 
    PPER("irreflexives Personalpronomen"), 
    PPOSS("substituierendes Possessivpronomen"), 
    PPOSAT("attribuierendes Possessivpronomen"), 
    PRELS("substituierendes Relativpronomen"), 
    PRELAT("attribuierendes Relativpronomen"), 
    PRF("reflexives Personalpronomen"), 
    PWS("substituierendes Interrogativpronomen"), 
    PWAT("attribuierendes Interrogativpronomen"), 
    PWAV("adverbiales Interrogativ- oder Relativpronomen"), 
    PAV("Pronominaladverb"), 
    PTKZU("zu vor Infinitiv"), 
    PTKNEG("Negationspartike"), 
    PTKVZ("abgetrennter Verbzusatz"), 
    PTKANT("Antwortpartikel"), 
    PTKA("Partikel bei Adjektiv oder Adverb"), 
    TRUNC("Kompositions-Erstglied"), 
    VVFIN("finites Verb, voll"), 
    VVIMP("Imperativ, voll"), 
    VVINF("Infinitiv"), 
    VVIZU("Infinitiv mit zu"), 
    VVPP("Partizip Perfekt"), 
    VAFIN("finites Verb, aux"), 
    VAIMP("Imperativ, aux"), 
    VAINF("Infinitiv, aux"), 
    VAPP("Partizip Perfekt"), 
    VMFIN("finites Verb, modal"), 
    VMINF("Infinitiv, modal"), 
    VMPP("Partizip Perfekt, modal"), 
    XY("Nichtwort, Sonderzeichen"), 
    UNDEFINED("Nicht definiert, zb. Satzzeichen"); 

    private final String desc; 

    private static final Map<String, POSGermanTag> nameToValueMap = new HashMap<String, POSGermanTag>(); 

    static { 
     for (POSGermanTag value : EnumSet.allOf(POSGermanTag.class)) { 
      nameToValueMap.put(value.name(), value); 
     } 
    } 

    public static POSGermanTag forName(String name) { 
     return nameToValueMap.get(name); 
    } 

    private POSGermanTag(String desc) { 
     this.desc = desc; 
    } 

    public String getDesc() { 
     return this.desc; 
    } 
} 
+0

をタグ "PROAV"。私は生物医学テキストを解析中に見つかりました。上記のenumのコードを更新して、そのタグを適切に反映させることができます: 'PROAV(" Pronominaladverb ")' – MWiesner

関連する問題