私のスキルを練習するには、htmlパーサーを書くつもりです。私が念頭に置いている考え:初心者からhtmlパーサーを作成しようと考えていますか?
- 正規表現を使ってトークン化したいものを定義します。
- 一部のhtmlを文字列として受け入れます。
- ループスルーhtml文字列。
- コンテンツや位置などのトークンに関する情報をオブジェクトとして保存します。
- トークンに別のトークンがある場合、そのトークンは親トークンの子オブジェクトです。
オブジェクトグラフを終了します。
適切なゲッターとセッターを作成します。
これは意味がありますか?
有名な答え[正規表現でHTMLを解析できません](http://stackoverflow.com/questions/1732348/regex-match-open-tags-except-xhtml-self-contained-tags/1732454#) 1732454) – charlietfl
HTML仕様の[HTMLパーサーの説明](https://html.spec.whatwg.org/multipage/syntax.html#parsing)は文字ベースでステートマシンを使用しているので、インスピレーションのためにそれを見ている。 – Blender