2017-02-07 15 views
1

テキストから名詞を抽出するのにTreeTagger(http://www.cis.uni-muenchen.de/~schmid/tools/TreeTagger/)を使用しています。Bash:表形式の出力からセルを抽出する

word pos  lemma 

The  DT  the 
TreeTagger  NP  TreeTagger 
is  VBZ  be 
easy JJ  easy 
to  TO  to 
use  VB  use 

名詞のみ(「NP」及び「NN」)を取得するには明らかにオプションを指定しないで:私の問題は、出力は、このようなとしてフォーマットされていることです。 bashでは、2番目の列に "NP"または "NN"を持つセルを最初の列にどう取得できますか?

答えて

2

あなたはこのためにawkを使用することができます一致します

awk '$2 ~ /^N[PN]$/{print $1}' file 

TreeTagger 

正規表現/^N[PN]$/をいずれかNPか@Cyrusは当然の下のコメントのようNN

、あなたにあなたの正規表現で交互に使用することができます。

awk '$2 ~ /^(NP|NN)$/ {print $1}' file 
+1

または 'awk '$ 2〜/ ^(NP | NN)$/{print $ 1}'ファイル ' – Cyrus

+0

名詞をどのようにリダイレクトするのですか?ファイル? – Sulli

+0

配列集団の場合、 'arr =($(awk '$ 2〜/^N [PN] $/{print $ 1}'))' – anubhava

関連する問題