2017-04-06 1 views
1

私はスペイン語を学び、私が動詞を学ぶのを助けるために私の個人的な使用のためのフラッシュカードを作ろうとしています。ウェブサイトからのデータを廃棄します

例はpage exampleです。ページ上部には、過去の分詞が表示されます:bloqueado & gerund:bloqueando。私のコードで入手してフラッシュカードに使用したいのは、この2つの値です。

可能であれば、私はc#コンソールアプリケーションを使用します。私はウェブサイトからのデータを廃棄することは理想的ではないことを認識していますが、これは一度オフです。

このようなことや落とし穴を避けて始める方法についてのガイダンスは非常に役に立ちます。

+0

あなたは何を試しましたか、正確にどこにいるのですか?まだ表示されているコードはありますか? – bassfader

+0

よく私はそれを解析することができますが、私はhtmlで必要なフィールドを見ることができなかったかどうかを確認するために、WebページのHTMLを見てみました。だからそうでなければデータをスクラップする他の方法を見るために読んでいるが、サードパーティのアプリケーションを使用していない – mHelpMe

+1

* "しかし、私はhtml" *で必要なフィールドを見ることができませんでしたか?どのフィールドを意味していますか? Chromeデベロッパーツールを使ってHTMLを見ると、これらの値や単語が簡単に見つかりましたが、それらはすべて次のsectionタグにリストされています: '

'。私には、正確に何が問題になっているのかはまだ分かりません。 – bassfader

答えて

0

これは正確な答えではありませんが、ここに私が提案するプロセスがあります。

  1. https://www.gnu.org/software/wget/ フォルダーにミラーリングしてください。 WgetはWebスパイダーで、すべてがダウンロードされるまでサイトのリンクをたどります。あなたは、あなたが望む正しい設定を見つけるまで、いくつかの異なるパラメータでそれを実行しなければならないでしょう。
  2. C#を使用して、フォルダ内の各ファイルを実行し、各ファイルのから ワードを抽出します。コンソールに出力するか、データベースまたはフラットファイルに格納するかは、あなたが選択します。

これは、理論的には簡単なはずです。

関連する問題