QtのHTMLソースから表形式の値を抽出するにはどうすればよいですか？

私は財務諸表の形式や慣習に関係なく、任意のページから財務データを抽出するアプリケーションを作成しようとしています。だから、基本的には、フィールド/値を解析または抽出し、同じフィールドをデスクトップ上のCSVファイルまたはExcelファイルに書きたいと思っています。次の引用文は私が何をしたいのかを示しています。QtのHTMLソースから表形式の値を抽出するにはどうすればよいですか？

パース（各HTML行） - >値 - >書き込み（file.csvになり、値）上記のプロセスで

、CSVまたはExcelファイルへの書き込みについて、私は完全に快適。私の問題は、HTMLコード部分の解析です。

明らかに、私はテーブル構文のHTMLページをスキャンして値を抽出することができました。しかし、私はそれらが複数のタブを持つWebページでは役に立たないことがわかっています。各タブには異なる数値がロードされるため、たとえば、金融Webサイトには、年次レポートと四半期レポートの2つのタブがあります。私はHTMLに関する経験はありませんが、この問題を覚えて回避しようとしています。しかし、私が進める前に、Qtでこれを行うための直接的またはよりスマートな方法がある場合、私は欲しいですか？私はここで車輪を再発明したくない。ありがとうございました。

出典

2017-05-06 Vino

次のものを使用できます。 1.単純なパターンと一致するようにQRegExp（旧クラス）またはQRegularExpression。しかし、正規表現の構文を学ばなければなりません。私はそれを学ぶことをお勧めします。たとえば、次のような一致パターンのためのexpidionをbulidすることができます：データ名：numers（lik 4354.65など）。これは多くの言語で普遍的なプログラミングソリューションです。
2. QDomDocumentクラスは、tree値を持つml（html、xml）ドキュメントを解析するための素敵なインターフェイスを提供します。 QDomDocumentは遅いですが、mutchメモリを使用しますが、特定のタグツリーから値を取得できます。それは複雑です。

タブがリロードされても問題ありません。シンプルなHTMLページはあなたにすべてのタブを設定する必要があります。タブがリンクまたはAJAXを使用している場合のみ、新しいデータを取得するためにタブに物理的な「クリック」が必要です。解析するために2つのhtmlページをダウンロードする必要があります。良いページがあれば、サイトマップが可能です。面白いアドレスを得るためにそれを解析してみてください。

出典

2017-05-06 22:30:32

ありがとうございました。私はあなたのアドバイスを試みます。乾杯。 – Vino

QtのHTMLソースから表形式の値を抽出するにはどうすればよいですか？

答えて

関連する問題