私はPythonで新しく、私の質問が非常に基本的であれば申し訳ありません。私のプログラムでは、htmlのWebページを解析し、その中のすべてのリンクを抽出する必要があります。BeautifulSoupまたはurlibライブラリを使用せずにHTML Webコンテンツ内のURLを抽出して抽出します
<html><head><title>Fakebook</title><style TYPE="text/css"><!--
#pagelist li { display: inline; padding-right: 10px; }
--></style></head><body><h1>testwebapp</h1><p><a href="/testwebapp/">Home</a></p><hr/><h1>Welcome to testwebapp</h1><p>Random URLs!</p><ul><li><a href="/testwebapp/847945358/">Rennie Tach</a></li><li><a href="/testwebapp/848854776/">Pid Ko</a></li><li><a href="/testwebapp/850558104/">Ler She</a></li><li><a href="/testwebapp/851635068/">iti Sar</a></li><li><a </ul>
<p>Page 1 of 2
<ul id="pagelist"><li>
1
</li><li><a href="/testwebapp/570508160/fri/2/">2</a></li><li><a href="/testwebapp/570508160/fri/2/">next</a></li><li><a href="/testwebapp/570508160/fri/2/">last</a></li></ul></p>
</body></html>
は今、私はPARSにこのWebコンテンツを必要とし、その内部のすべてのリンクを抽出します。私のWebページのコンテンツは、以下のようなものであると仮定します。別の言い方をすれば、私は、Webページから抽出されるコンテンツを下回る必要があります:私はpythonのようなthis、thisまたはthisを使用して、Webページを解析についてたくさん検索
/testwebapp/847945358/
/testwebapp/848854776/
/testwebapp/850558104/
/testwebapp/851635068/
/testwebapp/570508160/fri/2/
/testwebapp/570508160/fri/2/
/testwebapp/570508160/fri/2/
、それらの多くは、次のようなライブラリを使用していましたurlibまたはurlib2またはBeautifulSoupを使用して、これらのライブラリを自分のプログラムで使用できないことを要求します。私のアプリケーションは、これらのライブラリがインストールされていないマシン上で動作するためです。だから私は手動で私のWebコンテンツを解析する必要があります。私の考えは、ウェブページの内容を文字列に保存してから、文字列を(文字列で区切った)文字列に変換して配列の各項目をチェックし、/testwebapp/
またはfri
というキーワードがある場合は、それは配列内にあります。私は、文字列を変換するためのコマンドの下に使用しています配列に私のWebページコンテンツが含まれている場合でも、私はこのエラーました:
arrayofwords_fromwebpage = (webcontent_saved_in_a_string).split(" ")
を、エラーは次のとおりです。
TypeError: a bytes-like object is required, not 'str'
は、任意の迅速かつ効率的にありurlib、urlib2、BeautifulSoupなどのライブラリを使用せずにHTML Webページ内でこのリンクを解析して抽出する方法はありますか?
これは完璧です@ AndMar.tnx –