私は(これの5000個のインスタンス>)は、この構造以下の非常に大きな文書を持っている:XML文書内の特定のタイプのフィールドをすべて削除するにはどうすればよいですか?
<Questions>
<QuestionID>558013</QuestionID>
<Question>All of the following materials are categorized as <chr8220>fine art<chr8221> EXCEPT</Question>
<Answer1>textiles</Answer1>
<Answer2>paintings</Answer2>
<Answer3>drawings</Answer3>
<Answer4>sculptures</Answer4>
<Answer5>architecture</Answer5>
<AnswerGuide>Textile is not included in the category of fine art. Traditionally, textiles have been categorized as craft art.</AnswerGuide>
<TypeID>1</TypeID>
<Source>6,1,3</Source>
<Footnote />
<CardTypeID>0</CardTypeID>
<Year>2016</Year>
<SubjectID>41</SubjectID>
<QuesNumber>4</QuesNumber>
<AuxNum>4</AuxNum>
<RandList>43512</RandList>
<ResourceTypeID>382</ResourceTypeID>
<TreeKey>01/01/01/</TreeKey>
<TestID>41901</TestID>
<DiffShort>N</DiffShort>
<CardType />
</Questions>
私はCARDTYPEを通じてTYPEIDフィールドを必要としない、そしてそれがはるかに容易にそれらのフィールドを削除するにはなるだろう。現在、私はこのXMLを編集するためにNotepad ++を使用しているだけで、これらのフィールドとその内容をすべて削除する簡単な方法を見つけることはできません。それは可能ですか? XSLT、特に様々なエンドにXMLファイルを変換するために設計された、宣言、特別な目的の言語が使用を考えてみましょう
<Questions>
<QuestionID>558013</QuestionID>
<Question>All of the following materials are categorized as <chr8220>fine art<chr8221> EXCEPT</Question>
<Answer1>textiles</Answer1>
<Answer2>paintings</Answer2>
<Answer3>drawings</Answer3>
<Answer4>sculptures</Answer4>
<Answer5>architecture</Answer5>
<AnswerGuide>Textile is not included in the category of fine art. Traditionally, textiles have been categorized as craft art.</AnswerGuide>
</Questions>
これを達成する方法の1つは正規表現を使用することです。必要な部分を選択し、 タグの中に入れて新しいXMLファイルを作成することができます。あなたのケースのための一つの有用な正規表現(Pythonの互換性):(\ D +) \ N \ S + (。+) \ N \ S + (\ + W) \ N \ S + (\ + W) のn \ \ S + (\ + W) \ N \ S + (\ + W) \ N \ S + (\ + W) \ N \ S + (。+) AnswerGuide> –
caped114
ああ、いや、caped114 @!現代のプログラミング(stone tabletsのどこかでエッチングされた)の一つのdefactoルールは、自然言語ではないので、[regex on X/HTML](http://stackoverflow.com/a/1732454/1422451)のドキュメントを実行することではありません。 – Parfait