2016-11-23 2 views
0

複数の記事をスクラップしてテキストファイルにまとめました。私が抽出したい何大文字の単語と複数行のテキストの正規表現との一致

"|[<p>Advertisement , By Milan Schreur and  Alissa J. Rubin OCT. 5, 2016 
, BRUSSELS — A man wounded two police officers with a knife in Brussels around noon on Wednesday in what the authorities called “a potential terrorist attack.” , ....]" 

が大文字で入力されたすべてのそれらの単語がロックされている:これは、収集した記事の1のサンプルがある

:これらの記事から私は大文字で書かれたすべての単語を抽出したいと思います、この場合は "BRUSSELS"という単語が含まれていますが、ファイルにはさらに多くがあります。だから私は大文字で作られたすべての言葉を抽出したいと思う。

私はこのような何かを試してみました:あなたはtext_read.splitをした後

import re 

text_open = open("Training_News_6.csv") 
text_read = text_open.read() 
articles = text_read.split("<p>") 
pattern = re.findall("\s[A-Z]{4,}\s",'\n'.join(articles)) 
print(pattern) 
+1

're.findall'は文字列またはバイト様オブジェクトを受け入れ、それにリストを渡しました! – Kasramvd

+1

'articles'はリストです。文字列を渡すには、改行をもう一度入力するだけです。 'pattern = re.findall(" [\ S \ s] + [AZ] {3、} "、" \ n ".join(articles))' –

+0

また、doあなたは世界のAlissa J. Rubinが完全に欲しいですか? – Kasramvd

答えて

0

articlesは、リストです。 re.findallは文字列を要求しています。

関連する問題