私はCoNLLCorpusReaderをCoNLL2003データセットに使用しようとしています。このデータセットは、4列(一例)を含んでいますNLTKのNEタグConllCorpusReader
WORD POS CHUNK NE
U.N. NNP I-NP I-ORG
official NN I-NP O
Ekeus NNP I-NP I-PER
heads VBZ I-VP O
for IN I-PP O
Baghdad NNP I-NP I-LOC
. . O O
私はコーパスを作成し、それが動作する - 私はPOSタグとチャンクタグと言葉、sentsとタプルを取得することができます。
質問は、どのように私のコーパスから名前付きエンティティタグを取得できますか?私はcorpus.raw()メソッドがあることを知っていますが、実際にcorpus.iob_words()のようなものでそれを取得する方法はありませんか?私はこの問題を発見しました:https://github.com/nltk/nltk/issues/63しかし、このcorpusReaderの最新バージョンでは、取得したい列のリストを変更するために使用できる追加の引数はiob_wordsメソッドにありません。
ホホホ古い問題#63再び私を傷つける...回避策がありますが、 。これを解決するための基本的な方法は、CoNLLコーパスリーダーを書き換えて拡張して、不特定の番号を読み取ることです。列の – alvas
コードを見ると、既に不特定多数の列が読み込まれています!それはただの特別な列を選択するためのインターフェイスを持っていません。 – alexis
クール!それを指摘してくれてありがとう@alexis。それについて知らなかった。今すぐコードベースにあなたの答えを得ることができます! – alvas