2010-12-28 4 views
0

私は現在、Instapaperクローンを構築しており、アルゴリズムを設計するための助けが必要です。Instapaperクローンを構築する

それは二つの構成要素があります:あなたは記事を保存するには1つの以上のページを持っている場合は、すべてのページ

からテキストを抽出

  1. は、HTMLドキュメント
  2. からメインのテキストブロックを抽出することができますみんな正しい方向に向いていますか? 私はこのプロジェクトに.NET 4 C#を使用します。

+1

これは、「コンパイラをビルドしたいと思っています.2つのコンポーネント、コードを読み込むもの、コードジェネレータがあります。 – Foredecker

+0

私のためにそれをするように求めることはありません。ちょうどいくつかのおすすめがほしい。 – Jason

+0

質問#2はどういう意味ですか?一般的に、htmlは印刷されていないか、開発者がドキュメント全体をまとめる方法で構築されていない限り、複数のページという概念を持っていません。 –

答えて

1
  1. Html Agility Packを使用して、必要なものをHTMLドキュメントから抽出します。
  2. #1と同じです。

多くの方向性を提供していないと思いますが、あなたは多くの方向性を私に提供しませんでした。

+0

記事が複数のページにあるかどうかをどのように検出できますか? – Jason

+0

@ジェイソン:私はその質問を理解していません。記事に複数のページがあるかどうかをどのように検出できますか?(例:[.net]の隠し機能(http://stackoverflow.com/questions/9033/hidden-features-of-c)には11ページの回答があります)最も簡単な方法は、数値や "next"のような名前や代替テキストを持つURLを検索し、 'a'タグで' rel = "next"を検索することです。これは注意する必要がありますが、一部のURLは100ページ(ブログやウェブコミックなど)で構成されている可能性があるため注意が必要です。 – Brian

関連する問題