2016-11-03 4 views
0

私はPython Sparkを使用していますが、各パーティションでhttpにアクセスしようとしていました。しかし、それは常にそこに立ち往生し、次のようにサンプル:python sparkがエグゼキュータのhttpサーバにアクセスできない

sc = SparkContext(appName="Fetch Http") 
lines = sc.textFile("urls.txt", 10) 
lines.map(fetch).saveAsTextFile("hdfs://node1/pages") 

def fetch(url) 
    http = urllib3.PoolManager() 
    postResponse = http.request('POST',url,headers=JSON) 
    jData = json.loads(postResponse.data) 
    vectorStr = contertFun(jData) 
    return vectorStr 
+0

あなたのコントロール下にあるサーバーはありますか?あなたはそれが応答し、潜在的な攻撃としての要求を無視しないと思いますか? –

答えて

1

あなたのコードを持ついくつかの問題:接続はちょうどそれが

  • あなたドンを立ち往生ますハングので、もし

    • あなたがタイムアウトを提供していません。あなたは

    Ovと、それを再利用することはできません接続プールを使用

  • を保存するためには何もありませんので、「tは何も返さそれはあまり意味がないとは言えません。

  • +0

    ありがとう!私はすべてのコードを通過していませんでしたが、実際に私は自分の投稿を編集した文字列を返しています。デフォルトのタイムアウトを使用しました。デフォルトでは60秒です。 – Jack

    関連する問題