2017-12-08 32 views
1

私がしたいのは、xmlのコーパスを読み込んでそれらをすべて追加することです。私はbaby-bnc(2553)で試してみましたが、これをプレーンテキストファイルに変換しましたが、full-bnc(2554)またはサンプラー(2551)を使用した場合、このエラーが表示され続けます。ValueError:concat 1つのオブジェクト!Python BNCCorpusReaderが完全なbncコーパスで動作しない

import nltk.corpus.reader.bnc as cor  
a=cor.BNCCorpusReader(root=r'BNC\2553\2553\download\Texts',fileids=r'[a-z]{3}/\w*\.xml') 
len(a.sents()) 
with open("2553.txt",'w',encoding='utf-8') as nf: 
    for s in a.sents(): 
     nf.write(' '.join(s)) 
    pass 

a=cor.BNCCorpusReader(root=r'BNC\2553\2553\download\Texts',fileids=r'[a-z]{3}/\w*\.xml')  
In[18]: len(a.sents()) 
Out[18]: 280851 

(赤ちゃん-コーパスでうまく動作します)、以下のようなものを表示するようになってしかし、私が使用する必要がフルコーパスと、結果は常にエラーです。

b=cor.BNCCorpusReader(root=r'BNC\2554\Texts',fileids=r'[a-z]{3}/\w*\.xml') 
In[18]: len(b.sents())  
ValueError: concat() expects at least one object! 

ので、私は別のコンピュータ上で複数回ダウンロードさが、それはまだ動作しませんをダウンロードするときに問題があるかもしれません考えます。

私は必死に助けてくれる人を探しています。

答えて

0

異なるフォルダ構造を持っています。これを試してください fileids = r '[A-K]/\ w */\ w * .xml'