2017-06-06 6 views
0

jspファイルを解析して、ディレクティブタグ、JSPアクションエレメント、スクリプトレットの式などを識別したいとします。そのために、既存のhtmlを拡張しようとしていますgrammar。 通常のhtmlタグのオープンとjspタグのオープンを区別する際に問題に直面しています。既存の文法は以下の字句解析ルールがあります。Antlr4 jspスクリプトの式ディレクティブを解析する

TAG_OPEN 
    : '<' -> pushMode(TAG) 
    ; 
// 
// tag declarations 
// 
mode TAG; 

TAG_CLOSE 
    : '>' -> popMode 
    ; 

TAG_SLASH_CLOSE 
    : '/>' -> popMode 
    ; 

TAG_SLASH 
    : '/' 
    ; 

// 
// lexing mode for attribute values 
// 
TAG_EQUALS 
    : '=' -> pushMode(ATTVALUE) 
    ; 

TAG_NAME 
    : TAG_NameStartChar TAG_NameChar* 
    | TAG_NameStartChar* ':' TAG_NameStartChar* 
    ; 

TAG_WHITESPACE 
    : [ \t\r\n] -> skip 
    ; 

そして、そのためのcorrespodingパーサールール:

htmlElement 
    : TAG_OPEN htmlTagName htmlAttribute* TAG_CLOSE htmlContent TAG_OPEN TAG_SLASH htmlTagName TAG_CLOSE 
    | TAG_OPEN htmlTagName htmlAttribute* TAG_SLASH_CLOSE 
    | TAG_OPEN htmlTagName htmlAttribute* TAG_CLOSE 
    | TAG_OPEN TAG_SLASH htmlTagName TAG_CLOSE 
// | jspDirective 
// | jspDeclaration 
    | scriptlet 
    | script 
    | style 
    ; 

私は次のように上記のルールを拡張しようとしています:

scriptlet 
    : JSP_TAG_OPEN jspElement jspElementName jspElementAttribute* JSP_TAG_CLOSE 
    //|SCRIPTLET 
    ; 

jspElementName 
    : TAG_NAME 
    ; 

jspElementAttribute 
    : jspAttributeName TAG_EQUALS jspAttributeValue 
    ; 

jspAttributeName 
    : TAG_NAME 
    ; 

jspAttributeValue 
    : ATTVALUE_VALUE 
    ; 

jspElement 
    : jspDirective 
    | jspExpression 
    | jspDeclaration 
    | jspFragment 
    ; 

jspDirective  
    : JSP_DIRECTIVE_SIGN 
    ; 

jspExpression 
    : JSP_EXPRESSION_SIGN 
    ; 

jspDeclaration 
    : JSP_DECLARATION_SIGN 
    ; 

jspFragment 
    : JSP_FRAGMENT_SIGN 
    ; 

レクサールールは次のとおりです。

JSP_TAG_OPEN 
    : '<%' ' '* 
    ; 

JSP_DIRECTIVE_SIGN 
    : '@' 
    ; 

JSP_EXPRESSION_SIGN 
    : '=' 
    ; 

JSP_DECLARATION_SIGN 
    : '!' 
    ; 

JSP_FRAGMENT_SIGN 
    : [ ]+ 
    ; 

JSP_TAG_CLOSE 
    : '%>' 
    ; 

しかし、私が推測する問題は、<文字に遭遇するたびに、TAG_OPENのレクサールールが、それがjspタグ<%であるかどうかを確認するのではなく、実行を開始することです。

だから私は、次の内容の小さなHTMLを解析しようとしているとき:

<html> 
<title>Statement Load page</title> 
<%@ taglib uri="http://jakarta.apache.org/struts/tags-html" 
    prefix="html"%> 

私はこのエラーを取得しています:

line 3:2 no viable alternative at input '@ taglib uri="http://jakarta.apache.org/struts/tags-html"\r\n\tprefix="html"%>\r\n' 

答えて

0

[OK]を、私はJSPの文法が出ています今。それが他の人に役立つなら、私はここでこれを共有しています。また、誰かがアップデートを提案したり、問題を指摘したり、文法を改善したりするのに役立ちます。

レクサー文法:

lexer grammar HTMLLexer; 


HTML_COMMENT 
    : '<!--' .*? '-->' 
    ; 

HTML_CONDITIONAL_COMMENT 
    : '<![' .*? ']>' 
    ; 

JSP_COMMENT 
    : '<%--' .*? '--%>' 
    ; 

XML_DECLARATION 
    : '<?xml' .*? '>' 
    ; 

SCRIPT_OPEN 
    : '<script' ->pushMode(SCRIPT) 
    ; 

DIRECTIVE_TAG_OPEN 
    : '<%@' -> pushMode(TAG) 
    ; 

SCRIPTLET_TAG_OPEN 
    : ('<%!' | '<%=' | '<%') ->pushMode(SCRIPTVALUE) 
    ; 

// 
// 
CDATA 
    : '<![CDATA[' .*? ']]>' 
    ; 

DTD 
    : '<!' .*? '>' 
    ; 

//SCRIPTLET 
// : '<?' .*? '?>' 
// | '<%' .*? '%>' 
// ; 

SEA_WS 
    : (' '|'\t'|'\r'? '\n')+ 
    ; 


LINK_OPEN 
    : '<link' ->pushMode(LINK) 
    ; 

STYLE_OPEN 
    : '<style' ->pushMode(STYLE) 
    ; 

TAG_OPEN 
    : '<' ->pushMode(TAG) 
    ; 

HTML_TEXT 
    : ~'<'+ 
    ; 

// 
// tag declarations 
// 
mode TAG; 

JSP_TAG_CLOSE 
    : '%>' -> popMode 
    ; 

TAG_CLOSE 
    : '>' -> popMode 
    ; 

TAG_SLASH_CLOSE 
    : '/>' -> popMode 
    ; 

TAG_SLASH 
    : '/' 
    ; 

// 
// lexing mode for attribute values 
// 
TAG_EQUALS 
    : '=' -> pushMode(ATTVALUE) 
    ; 

TAG_NAME 
    : TAG_NameStartChar TAG_NameChar* 
// | TAG_NameStartChar* ':' TAG_NameStartChar* 
    ; 

TAG_COLON 
    : ':' 
    ; 

TAG_WHITESPACE 
    : [ \t\r\n] -> channel(HIDDEN) 
    ; 

fragment 
HEXDIGIT 
    : [a-fA-F0-9] 
    ; 

fragment 
DIGIT 
    : [0-9] 
    ; 


TAG_NameChar 
    : TAG_NameStartChar 
// | ':' 
    | '-' 
    | '_' 
    | '.' 
    | DIGIT 
    | '\u00B7' 
    | '\u0300'..'\u036F' 
    | '\u203F'..'\u2040' 
    ; 


TAG_NameStartChar 
    : [a-zA-Z] 
    | '\u2070'..'\u218F' 
    | '\u2C00'..'\u2FEF' 
    | '\u3001'..'\uD7FF' 
    | '\uF900'..'\uFDCF' 
    | '\uFDF0'..'\uFFFD' 
    ; 

// 
// <scripts> 
// 
mode SCRIPT; 

SCRIPT_TAG_FULL_CLOSE 
    : '</script>' ->popMode 
    ; 


SCRIPT_TAG_CLOSE 
    : '>' -> popMode 
    ; 

SCRIPT_TAG_SLASH_CLOSE 
    : '/>' -> popMode 
    ; 

SCRIPT_EQUALS 
    : ' '* '=' ' '* 
    ; 

SCRIPLET_INSIDE_SCRIPT 
    : '<%' ->pushMode(SCRIPTVALUE) 
    ; 

SCRIPT_ATTRIBUTE 
    : SCRIPT_ATTCHARS  
    ; 

fragment SCRIPT_ATTCHARS 
    : SCRIPT_ATTCHAR+ ' '? 
    ; 

SCRIPT_WHITESPACE 
    : [\r\n\t]+ -> channel(HIDDEN) 
    ; 

WORD 
    : [ a-zA-Z]+ 
    ; 

QUOTE 
    : '"' ' '* 
    ; 

fragment SCRIPT_ATTCHAR 
    : '-' 
    | '_' 
    | '.' 
    | '/' 
    | ',' 
    | ';' 
    | '\'' 
    | '"' 
    | [0-9a-zA-Z] 
    ;  

// 
// <link> 
// 
mode LINK; 

LINK_BODY 
    : .*? '</link>' ->popMode 
    ; 

LINK_SHORT_BODY 
    : '/>' ->popMode 
    ; 

LINK_WS 
    : [ \r\n\t]+ -> channel(HIDDEN) 
    ; 

LINK_NONSLASH_BODY 
    : .*? '>' ->popMode 
    ; 


// 
// <styles> 
// 
mode STYLE; 

STYLE_BODY 
    : .*? '</style>' -> popMode 
    ; 

STYLE_SHORT_BODY 
    : .*? '</>' -> popMode 
    ; 

// 
// attribute values 
// 
mode ATTVALUE; 

// an attribute value may have spaces b/t the '=' and the value 
ATTVALUE_VALUE 
    : [ ]* ATTRIBUTE -> popMode 
    ; 

ATTRIBUTE 
    : DOUBLE_QUOTE_STRING 
    | SINGLE_QUOTE_STRING 
    | ATTCHARS 
    | HEXCHARS 
    | DECCHARS 
    ; 

fragment ATTCHAR 
    : '-' 
    | '_' 
    | '.' 
    | '/' 
    | '+' 
    | ',' 
    | '?' 
    | '=' 
    | ':' 
    | ';' 
    | '#' 
    | [0-9a-zA-Z] 
    ; 

fragment ATTCHARS 
    : ATTCHAR+ ' '? 
    ; 

fragment HEXCHARS 
    : '#' [0-9a-fA-F]+ 
    ; 

fragment DECCHARS 
    : [0-9]+ '%'? 
    ; 

fragment DOUBLE_QUOTE_STRING 
    : '"' ~[<"]* '"' 
    ; 
fragment SINGLE_QUOTE_STRING 
    : '\'' ~[<']* '\'' 
    ; 

mode SCRIPTVALUE; 

SCRIPTLET_TAG_CLOSE 
    : '%>' ->popMode 
    ; 

VALID_JAVA_CHARS 
    : SCRIPTCHARS+ 
    ; 

SCRIPT_WS 
    : [\r\n\t]+ -> channel(HIDDEN) 
    ; 

fragment SCRIPTCHARS 
    : SCRIPTCHAR+ ' '? 
    ; 

fragment SCRIPTCHAR 
    : '-' 
    | '_' 
    | '.' 
    | '/' 
    | '+' 
    | ',' 
    | '?' 
    | '=' 
    | ':' 
    | ';' 
    | '#' 
    | '(' 
    | ')' 
    | '}' 
    | '{' 
    | '@' 
    | '*' 
    | '!' 
    | '%'[0-9]+ 
    | '&' 
    | '[' 
    | ']' 
    | '~' 
    | '+' 
    | '^' 
    | '\r' 
    | '\t' 
    | '\n' 
    | ' ' 
    | '"' 
    | '\'' 
    | [0-9a-zA-Z] 
    ; 

パーサーの文法:

parser grammar HTMLParser; 

options { tokenVocab=HTMLLexer; } 

htmlDocument 
    : (scriptlet | SEA_WS)* xml? (scriptlet | SEA_WS)* dtd? (scriptlet | SEA_WS)* htmlElements* 
    ; 

htmlElements 
    : htmlMisc* htmlElement htmlMisc* 
    ; 

htmlElement 
    : script 
    | link 
    | style 
    | scriptlet 
    | TAG_OPEN htmlTagName htmlAttribute* TAG_CLOSE htmlContent TAG_OPEN TAG_SLASH htmlTagName TAG_CLOSE 
    | TAG_OPEN htmlTagName htmlAttribute* TAG_SLASH_CLOSE 
    | TAG_OPEN htmlTagName htmlAttribute* TAG_CLOSE 
    | TAG_OPEN TAG_SLASH htmlTagName TAG_CLOSE 
    ; 

htmlContent 
    : htmlChardata? ((htmlElement | xhtmlCDATA | htmlComment) htmlChardata?)* 
    ; 

htmlAttribute 
    : htmlAttributeName TAG_EQUALS htmlAttributeValue 
    | htmlAttributeName 
    ; 

htmlAttributeName 
    : TAG_NAME 
    ; 

htmlAttributeValue 
    : ATTVALUE_VALUE 
    ; 

htmlTagName 
    : TAG_NAME 
    | tagKey TAG_COLON tagVal 
    ; 

tagKey 
    : TAG_NAME 
    ; 

tagVal 
    : TAG_NAME 
    ; 

htmlChardata 
    : HTML_TEXT 
    | SEA_WS 
    ; 

htmlMisc 
    : htmlComment 
    | jspComment 
    | SEA_WS 
    ; 

htmlComment 
    : HTML_COMMENT 
    | HTML_CONDITIONAL_COMMENT 
    ; 

jspComment 
    : JSP_COMMENT 
    ; 

xhtmlCDATA 
    : CDATA 
    ; 

dtd 
    : DTD 
    ; 

xml 
    : XML_DECLARATION 
    ; 

scriptlet 
    : DIRECTIVE_TAG_OPEN jspElementName jspElementAttribute* JSP_TAG_CLOSE 
    | SCRIPTLET_TAG_OPEN javaExpression SCRIPTLET_TAG_CLOSE 
    ; 

jspElementName 
    : TAG_NAME 
    ; 

jspElementAttribute 
    : jspAttributeName TAG_EQUALS jspAttributeValue 
    ; 

jspAttributeName 
    : TAG_NAME 
    ; 

jspAttributeValue 
    : ATTVALUE_VALUE 
    ; 

javaExpression 
    : VALID_JAVA_CHARS | SEA_WS*  
    ; 

script 
    : SCRIPT_OPEN scriptAttribute* SCRIPT_TAG_CLOSE htmlContent* SCRIPT_TAG_FULL_CLOSE 
    | SCRIPT_OPEN scriptAttribute* SCRIPT_TAG_SLASH_CLOSE 
    ; 

scriptAttribute 
    : scriptAttributeName SCRIPT_EQUALS QUOTE scriptlet scriptAttributeValue* QUOTE 
    | scriptAttributeName SCRIPT_EQUALS scriptAttributeValue 
    | scriptAttributeName 
    ; 

scriptAttributeName 
    : WORD 
    ; 

scriptAttributeValue 
    : SCRIPT_ATTRIBUTE 
    ; 

link 
    : LINK_OPEN (LINK_BODY | LINK_SHORT_BODY | LINK_NONSLASH_BODY) 
    | LINK_OPEN scriptlet* (LINK_BODY | LINK_SHORT_BODY | LINK_NONSLASH_BODY) 
    ; 

style 
    : STYLE_OPEN (STYLE_BODY | STYLE_SHORT_BODY) 
    ; 

編集:私は私の最後のエントリ以降のパーサーとレクサー文法を変更しました。私は今、JSPファイルを解析する際に問題に直面しています。サンプルJSPがある:

<html> 
<title>Statement Load page</title> 

<script type="text/javascript" src="<%= request.getContextPath() %>"></script> 
<script type="text/javascript" src="<%= request.getContextPath() %>/scripts/Main.js"></script> 

<body> 
</body> 
</html> 

このファイルを解析しながら、私は取得しています:

line 4:0 mismatched input '<script' expecting '<' 
line 5:31 no viable alternative at input '<script type="text/javascript" src' 

パーサは「スクリプト」ルールに入っていない「<スクリプト」タグに遭遇しながら、すなわち、しかし、おそらくそれを他の 'htmlElement'として扱います。しかし、私は確信していません。

パーサー文法の関連部分は次のとおりです。

script 
    : SCRIPT_OPEN scriptAttribute* SCRIPT_TAG_CLOSE htmlContent* SCRIPT_TAG_FULL_CLOSE 
    | SCRIPT_OPEN scriptAttribute* SCRIPT_TAG_SLASH_CLOSE 
    ; 

scriptAttribute 
    : scriptAttributeName SCRIPT_EQUALS QUOTE scriptlet scriptAttributeValue* QUOTE 
    | scriptAttributeName SCRIPT_EQUALS scriptAttributeValue 
    | scriptAttributeName 
    ; 

scriptAttributeName 
    : WORD 
    ; 

scriptAttributeValue 
    : SCRIPT_ATTRIBUTE 
    ; 
+0

私はより詳細にスクリプトタグを解析するために、私の文法を修正されています。しかし、私は解析中に問題に直面しています。 @Bart Kiersさん、これを見てください。 –