私はニュースサイト&ブログから本文のコンテンツを抽出しようとしています。Google Cloud Natural Language APIは実際にHTMLの解析をサポートしていますか?
ドキュメントは、ページの生のHTML(UTF-8)とHTML
への文書のtype
セットとしてcontent
でそれをdocument
を渡すことによって、HTMLで期待通りに動作しますdocuments.analyzeSyntax
かのように見えるように。ドキュメントには、サポートされているコンテンツタイプとしてHTMLが含まれています。
実際には、結果として生じる文章とトークンは、パーザが入力がプレーンテキストであると考えるようにHTMLタグで混乱します。これは、GC NL APIを使用例として排除し、おそらく自然言語を使用してWebページを処理する多くの人々がかなり一般的な作業です。
参照のために、与えられたHTML入力(またはこの場合は入力としてHTMLページへのURL)の出力タイプのDandelion APIによるexampleがここにあります。
私の質問では、APIが間違って呼び出されたり、NL APIがHTMLをサポートしていない可能性があります。