2017-01-04 5 views
0

word2vec埋め込みの作成に使用するかなり大きなファイルを処理しています。ファイルには、各行に1つの文が含まれ、すべての行は、開始タグと終了タグで始まります。今私がやりたいことは、sedを使って開始タグと終了タグを削除することですが、どうやってそれを行うのか分かりません。ファイル内のすべての行から<s>と</s>を削除します。

私は

sed myfile 's/<s> //g' > resultfile 
sed resultfile 's/ </s>//g' > finalfile 

を試してみましたが、これは「余分な文字コマンドの後に」エラーが得られます。

誰かが私に正しいパターンを与えることができたら、私はとても幸せだろう。前もって感謝します!

答えて

4

この試してみてください。これは一つに<s></s>を削除します

sed 's#</\?s>##g' file 
  • #を撮影し、あなたのパターンが既にスラッシュしているので、のsedのsコマンドの区切りです。
  • </\?s>それはあなたが間違った引数の順序を持​​って<s> and </s>
1

にマッチし、正規表現です。

sed -e 's/<[^>]*>//g' myfile.txt 

任意の htmlタグ

参考削除するには::Sed remove tags from html file

+0

、これは別のことをやっを

は、使用してみてください! – Kent

+0

それが私が言及した理由です...それはどんなhtmlタグ – DevDio

+0

を取り除きますが、あなたはOPの質問に答えていますか? – Kent

関連する問題