-2
現在、機械学習を使用してウェブサイトのウェブログを分析するプロジェクトがあります。私はデータを掃除しており、ユニークなものを識別したいと考えています訪問者このサイトに。ウェブログからのユニークビジターの特定
ウェブログを扱う経験はあまりありませんが、ユーザーがアクセスしたときにいくつかのファイルが取得されていることが分かります(たとえば、cs.uri.stem
列のレコード)。
私の質問は、ページAのリンクからページBに行くのと同じように、ユーザーが複数のページを通過した場合ですか?彼がこのサイトでの行動であることを私はどのように知ることができますか?
さらに、Webログの分析に役立つ素晴らしいPythonライブラリをお勧めしますか?
非常に感謝!
date time s.ip cs.method cs.uri.stem cs.uri.query s.port cs.username c.ip sc.status sc.substatus sc.win32.status time.taken device os browser
1 2014-08-05 00:00:03 10.130.0.12 GET/ - 80 - 67.205.67.76 200 0 0 1391 Spider Other PingdomBot_1.4
2 2014-08-05 00:00:11 10.130.0.12 GET /about-the-hotel.aspx - 80 - 70.56.59.43 200 0 0 1194 PC Mac_OS_X_10.8 Firefox_31.0
3 2014-08-05 00:00:11 10.130.0.12 GET /~/media/Images/Hotel_ICON_revamp/about+us/a-hotel-unlike-any-others.ashx - 80 - 70.56.59.43 200 0 0 976 PC Mac_OS_X_10.8 Firefox_31.0
4 2014-08-05 00:00:12 10.130.0.12 GET /~/media/Images/Hotel_ICON_revamp/about+us/0713-ExComTeam.ashx - 80 - 70.56.59.43 200 0 0 1620 PC Mac_OS_X_10.8 Firefox_31.0
5 2014-08-05 00:00:12 10.130.0.12 GET /~/media/Images/Hotel_ICON_revamp/about+us/icon/vivienne-tam.ashx - 80 - 70.56.59.43 200 0 0 1713 PC Mac_OS_X_10.8 Firefox_31.0
6 2014-08-05 00:00:12 10.130.0.12 GET /~/media/Images/Hotel_ICON_revamp/about+us/icon/william-lim.ashx - 80 - 70.56.59.43 200 0 0 2387 PC Mac_OS_X_10.8 Firefox_31.0
7 2014-08-05 00:00:14 10.130.0.12 GET /~/media/Images/Hotel_ICON_revamp/about+us/icon/barney-cheng.ashx - 80 - 70.56.59.43 200 0 0 2180 PC Mac_OS_X_10.8 Firefox_31.0
8 2014-08-05 00:00:14 10.130.0.12 GET /~/media/Images/Hotel_ICON_revamp/about+us/icon/tommy-li.ashx - 80 - 70.56.59.43 200 0 0 1146 PC Mac_OS_X_10.8 Firefox_31.0
9 2014-08-05 00:00:14 10.130.0.12 GET /~/media/Images/Hotel_ICON_revamp/about+us/icon/yang-rutherford.ashx - 80 - 70.56.59.43 200 0 0 869 PC Mac_OS_X_10.8 Firefox_31.0
10 2014-08-05 00:00:14 10.130.0.12 GET /~/media/Images/Hotel_ICON_revamp/about+us/icon/justin_wong_img1.ashx - 80 - 70.56.59.43 200 0 0 845 PC Mac_OS_X_10.8 Firefox_31.0
IP-OS-Browserで指定できます – RaminNietzsche
もっと具体的にできますか? –
本、ツール、ソフトウェアライブラリ、チュートリアル、またはその他のオフサイトリソースをお勧めするか、見つけようとする質問は、スタックオーバーフローのトピックではありません。 – DyZ