スタックオーバーフローのスクリーンスクレーパーを作成しています。私が書いているビットは、HTMLをとり、すべての情報をモデルオブジェクトに入れます。私は答えから情報を解析する間に少し気にしました。スタックからの非標準日付文字列の解析.NET DateTimeへのオーバーフロー
問題は、絶対時間を記述するためにStackOverflowが使用する日付形式です。 DateTime.Parse
は動作しません。私はDateTime.ParseExact
で騙してみましたが、私は成功しませんでした。どちらも、FormatException
投げるここではいくつかの背景があります:
あなたは答えのソースHTMLを見れば、あなたはこれを取得:
<div id="answer-{id}" class="answer">
<!-- ... -->
answered <span title="2009-06-18 13:21:16Z UTC" class="relativetime">Jun 18 at 13:21</span>
<!-- ... -->
</div>
絶対時間は、スパンのタイトル属性に格納されていることに注意してください。私は、CodePlexのHTML Agility Packを使用して要素にアクセスし、属性の値を抽出しました。
今、"2009-06-18 13:21:16Z UTC"
を.NET DateTime
オブジェクトにする方法が不思議です。
Regexesなどを使わずにこれをやってみたいですが、プロジェクト全体がハッキーで不安定なので、気にしません!
最後に、私はこれらの理由のためのデータ・ダンプを使用することはできません:私はBitTorrentのを使用することはできません
- 。これまで
- できれば、ネット接続にはファイルが大きすぎます。
- 少し古いです。
- これは楽しいことではありません。
バグレポートはMeta.StackOverflow.com http://meta.stackexchange.com/questions/14684/data-dump-formats-time-incorrectlyに追加されたこの質問のので –
あなたは可能見てみたい:http://stackoverflow.com/api/userquestions.html?userid=41981 &page = 1&pagesize = 10&sort = recent、http://stackoverflow.com/api/userquestions.json?userid=41981&page=1&pagesize=10&sort=recent **警告:これらのURLを考慮してください**プレアルファ**、サイトの作者によって** **これらの言及はありませんでした。 –
@Brad Gilbert:バグレポートをありがとう。私は1つを考えていたが、それはデザインであるかもしれないと思った。それがバグだと思うのは私だけではないことを知っておいてください;)。また、JSONクエリは興味深いようです - 私はそれに回帰するときに私は詳細を見てみましょう。 –