2016-07-27 7 views
-2

リンク(WebCrawler)からコメントを抽出します。 このコードはthisリンク(Ctrl + u)からのものです。PhantomJSを使用してpython3の任意のウェブサイト(.jsファイルのコメント)からコメントを抽出します

<div class="spot-im-frame-inpage" data-post-id="353493"></div><script type="text/javascript"> 
!function(t,e,n){function a(t){var a=e.createElement("script");a.type="text/javascript",a.async=!0,a.src=("https:"===e.location.protocol?"https":"http")+":"+n,(t||e.body||e.head).appendChild(a)}function o(){var t=e.getElementsByTagName("script"),n=t[t.length-1];return n.parentNode} var p=o();t.spotId="sp_6phY2k0C",t.parentElement=p,a(p)}(window.SPOTIM={},document,"//www.spot.im/launcher/bundle.js"); 

は、私がコメントの抽出のためbundle.jsに入ることはできますか?

私は約phantomJsを読んでいます。 PythonでphantomJsを使用しているjavascriptファイルからコメントをスクラップできますか?(上のコードのようにbundle.js)そうであれば!どうやって? .jsファイルを開く例

+0

コメントとは何ですか?ページのコメントまたはページのコードのコメントを意味しますか?あなた自身で何か試しましたか?スタックオーバーフローはコードを書くサービスではなく、可能です。 –

+0

Ohh my Gosh!地獄の行動は何ですか? @ArtjomB。 – user6575792

+0

初心者に冷たい行動を与えても大丈夫です。 – user6575792

答えて

1

すべてのコメントはクラスmessage-entitiesに関連付けられているためです。私は、クローラがそのクラスを持つ各要素のhtmlを抽出するようにします。 PythonでphantomJSを使用する最も簡単な方法は、SeleniumまたはGhostdriverです。あなたがpythonを使用するのに悩まされていないなら、私はnode-horsemanやcasperjsのようなものを使ってウェブサイトをクロールしてコメントを得ることを提案します。

+0

casperjsやnode-horsemanでコメントを抽出する例を紹介してください。 – user6575792

+0

https://github.com/johntitus/node-horseman 'var Horseman = require(" node-horseman "); var horseman = new Horseman(); 騎手\t .open( 'http://lite.yelp.com/search?find_desc=pizza&find_loc=94040&find_submit=Search') \tの.text( 'アドレス') \tの.log() \t .close( ); ' – tcasey

+0

上記のライブラリを使って' .js'ファイルを開くにはどうしたらいいですか? – user6575792

関連する問題