2009-08-11 1 views
2

私は、私が従いたい英語の新聞の編集や編集のページの集約者を探しています。目的は、私が国際的に従いたいダースの新聞の編集部分のコレクションであるHTMLを生成することです。その結果、私は午前中にそれらを印刷することができます。これは非常に狭い要件なので、すでに利用可能なものは見つけられませんでしたので、自分で作成することを考えています。この編集およびop-edアグリゲータプロジェクトにはどの言語が最適ですか?

私は以前の人生で約8年間プログラマだった(今はMBAの後のウォールストリートである "ダークサイド"に揺さぶられている)。私はスクリプト言語の良い選択をするためのプログラミングについて十分知識が不足しているので、これに最適な言語はどれか分かりません(パフォーマンスは重要な問題ではなく、HTMLを解析するためのライブラリ、テキスト処理、ライブWebページがより重要です)。

PS:以前はWin32環境でほぼ独占的に新しい言語(x86 ASM、CおよびVisual C++/MFCで広範な作業をしていました)を学んでも構いません。

答えて

1

使用PythonとHTMLをスクレーピングするための優れたlxml図書館について考える必要があります。これは、CSSセレクタをサポートしています。これは非常に便利で、かなり高速です。それはあまりにも壊れたHTMLを処理します。

+0

lxml.htmlモジュールを確認してください。ドキュメンテーションはちょっと混乱するかもしれないので、インタラクティブなPythonシェルでそれを試してみてください。それが使い方を学んだのです。 – aehlke

0

は、言語コード生成とうまくやって解釈し、あなたは、PerlやRuby

関連する問題