2012-04-30 5 views
0

GoogleスプレッドシートでImportXML()機能を使用する際に問題が発生しています。 Reddit posts in a spreadsheetに投稿した時刻を取得したいのですが、2012-04-28T02:19:06.348481 + 00:00ではなく、2012年4月28日に運が得られます。例えばGoogleスプレッドシートImportXML - 時間属性を取得する方法がわからない

on this web pageは、私はソースで見て、以下を参照してください。

<div class='spacer'><div class="linkinfo"> 
    <div class="date"> 
     <span>this post was submitted on &#32;</span> 
      <time datetime="2012-04-28T02:19:06.348481+00:00">28 Apr 2012</time> 
    </div> 
<div class="score"> 

しかし、これは私が何かをするために得ることができる唯一の行です:

=ImportXML(
"http://www.reddit.com/r/BuyItForLife/comments/jtjuz/bi4l_mission_statement_rules_etc/", 
"//div[@class='date']") 

任意の提案ですか?私は探していて、探していて、試していましたが、何も動いていません。

+0

XPath式などを求めていますか? –

+0

XPath式だと思います。 GoogleスプレッドシートのImportXML()関数で動作するものは何でも。 – JohnSerious

答えて

-3

あなたはタフな質問をして、おそらくGoogleスプレッドシートの限界に達した - 通常は、xpath属性の有効性を確認することができ、例えばのため:回答セル内

//*[@datetime="2011-08-25T01:45:37+00:00"] 

結果が

TRUE 

見なければなりませんサンドボックスの行に21サンプルと:

//div/@class="md" TRUE 
+0

コメントすることはできません(コメントする評判は50です)ので、この質問を追加しました。 – AndriuZ

+0

は、コメントする代わりに回答を投稿する必要はありません。 – manetsus

+0

これは、すべての既知の方法が役に立たないと答えた(サンドボックスに示されているように) – AndriuZ

0

IMPORTXMLはそれを必要とドキュメントはXML/XHTMLに従って正しく動作します。ドキュメントがこれに準拠していないように見えるので、IMPORTXMLの代わりにIMPORTDATAを使用し、QUERYとREGEXEXTRACTを使用してください。

例:

A1:URL http://www.reddit.com/r/BuyItForLife/comments/jtjuz/bi4l_mission_statement_rules_etc/
A2を追加します:QUERYの使用について2011-08-25T01:32:23+00:00

説明:

IMPORTDATA次式

=REGEXEXTRACT(QUERY(transpose(QUERY(importdata(A1),,1E+100)),,1E+100), 
"datetime=""(.*?)""") 

の検索結果を追加します。 2D配列を返します。 QUERYは、配列の内容を連結するために2回使用されます。最初はすべての行をまとめ、2回目はすべての列に対して同じ処理を行います。

CONCATENATEおよびJOINは、50000文字制限があるため使用できません。

関連する問題