2017-05-06 13 views
0

私は財務諸表の形式や慣習に関係なく、任意のページから財務データを抽出するアプリケーションを作成しようとしています。だから、基本的には、フィールド/値を解析または抽出し、同じフィールドをデスクトップ上のCSVファイルまたはExcelファイルに書きたいと思っています。次の引用文は私が何をしたいのかを示しています。QtのHTMLソースから表形式の値を抽出するにはどうすればよいですか?

パース(各HTML行) - >値 - >書き込み(file.csvになり、値)上記のプロセスで

、CSVまたはExcelファイルへの書き込みについて、私は完全に快適。私の問題は、HTMLコード部分の解析です。

明らかに、私はテーブル構文のHTMLページをスキャンして値を抽出することができました。しかし、私はそれらが複数のタブを持つWebページでは役に立たないことがわかっています。各タブには異なる数値がロードされるため、たとえば、金融Webサイトには、年次レポートと四半期レポートの2つのタブがあります。私はHTMLに関する経験はありませんが、この問題を覚えて回避しようとしています。しかし、私が進める前に、Qtでこれを行うための直接的またはよりスマートな方法がある場合、私は欲しいですか?私はここで車輪を再発明したくない。ありがとうございました。

答えて

0

次のものを使用できます。 1.単純なパターンと一致するようにQRegExp(旧クラス)またはQRegularExpression。しかし、正規表現の構文を学ばなければなりません。私はそれを学ぶことをお勧めします。たとえば、次のような一致パターンのためのexpidionをbulidすることができます:データ名:numers(lik 4354.65など)。これは多くの言語で普遍的なプログラミングソリューションです。
2. QDomDocumentクラスは、tree値を持つml(html、xml)ドキュメントを解析するための素敵なインターフェイスを提供します。 QDomDocumentは遅いですが、mutchメモリを使用しますが、特定のタグツリーから値を取得できます。それは複雑です。

タブがリロードされても問題ありません。シンプルなHTMLページはあなたにすべてのタブを設定する必要があります。タブがリンクまたはAJAXを使用している場合のみ、新しいデータを取得するためにタブに物理的な「クリック」が必要です。解析するために2つのhtmlページをダウンロードする必要があります。 良いページがあれば、サイトマップが可能です。面白いアドレスを得るためにそれを解析してみてください。

+0

ありがとうございました。私はあなたのアドバイスを試みます。乾杯。 – Vino

関連する問題