0
commoncrawlを分析する必要があります。そのために私はPython 2.7を使用しています。私はいくつかのwarcファイルを見てきました.warc.gzファイルにはいくつかのバイナリデータがあります。私はbs4を使用してHTMLソースを解析する必要があります。しかし、これがテキストデータであることをどのように検出でき、これはバイナリです。 たとえば、バイナリデータを含むURL regestがあります。 http://aa-download.avg.com/filedir/inst/avg_free_x86_all_2015_5315a8160.exePythonを使用してcommoncrawlでバイナリデータを処理する方法
私はどのようにバイナリデータをスキップして、ちょうどPythonでテキストデータを処理できますか?