-2

現在、機械学習を使用してウェブサイトのウェブログを分析するプロジェクトがあります。私はデータを掃除しており、ユニークなものを識別したいと考えています訪問者このサイトに。ウェブログからのユニークビジターの特定

ウェブログを扱う経験はあまりありませんが、ユーザーがアクセスしたときにいくつかのファイルが取得されていることが分かります(たとえば、cs.uri.stem列のレコード)。

私の質問は、ページAのリンクからページBに行くのと同じように、ユーザーが複数のページを通過した場合ですか?彼がこのサイトでの行動であることを私はどのように知ることができますか?

さらに、Webログの分析に役立つ素晴らしいPythonライブラリをお勧めしますか?

非常に感謝!

  date  time  s.ip cs.method cs.uri.stem                cs.uri.query s.port cs.username   c.ip sc.status sc.substatus sc.win32.status time.taken device   os   browser 
1 2014-08-05 00:00:03 10.130.0.12  GET/                     -  80   - 67.205.67.76  200   0    0  1391 Spider   Other PingdomBot_1.4 
2 2014-08-05 00:00:11 10.130.0.12  GET /about-the-hotel.aspx                -  80   - 70.56.59.43  200   0    0  1194  PC Mac_OS_X_10.8  Firefox_31.0 
3 2014-08-05 00:00:11 10.130.0.12  GET /~/media/Images/Hotel_ICON_revamp/about+us/a-hotel-unlike-any-others.ashx   -  80   - 70.56.59.43  200   0    0  976  PC Mac_OS_X_10.8  Firefox_31.0 
4 2014-08-05 00:00:12 10.130.0.12  GET /~/media/Images/Hotel_ICON_revamp/about+us/0713-ExComTeam.ashx      -  80   - 70.56.59.43  200   0    0  1620  PC Mac_OS_X_10.8  Firefox_31.0 
5 2014-08-05 00:00:12 10.130.0.12  GET /~/media/Images/Hotel_ICON_revamp/about+us/icon/vivienne-tam.ashx     -  80   - 70.56.59.43  200   0    0  1713  PC Mac_OS_X_10.8  Firefox_31.0 
6 2014-08-05 00:00:12 10.130.0.12  GET /~/media/Images/Hotel_ICON_revamp/about+us/icon/william-lim.ashx      -  80   - 70.56.59.43  200   0    0  2387  PC Mac_OS_X_10.8  Firefox_31.0 
7 2014-08-05 00:00:14 10.130.0.12  GET /~/media/Images/Hotel_ICON_revamp/about+us/icon/barney-cheng.ashx     -  80   - 70.56.59.43  200   0    0  2180  PC Mac_OS_X_10.8  Firefox_31.0 
8 2014-08-05 00:00:14 10.130.0.12  GET /~/media/Images/Hotel_ICON_revamp/about+us/icon/tommy-li.ashx      -  80   - 70.56.59.43  200   0    0  1146  PC Mac_OS_X_10.8  Firefox_31.0 
9 2014-08-05 00:00:14 10.130.0.12  GET /~/media/Images/Hotel_ICON_revamp/about+us/icon/yang-rutherford.ashx     -  80   - 70.56.59.43  200   0    0  869  PC Mac_OS_X_10.8  Firefox_31.0 
10 2014-08-05 00:00:14 10.130.0.12  GET /~/media/Images/Hotel_ICON_revamp/about+us/icon/justin_wong_img1.ashx    -  80   - 70.56.59.43  200   0    0  845  PC Mac_OS_X_10.8  Firefox_31.0 
+0

IP-OS-Browserで指定できます – RaminNietzsche

+0

もっと具体的にできますか? –

+1

本、ツール、ソフトウェアライブラリ、チュートリアル、またはその他のオフサイトリソースをお勧めするか、見つけようとする質問は、スタックオーバーフローのトピックではありません。 – DyZ

答えて

1

pandasライブラリを参照することをお勧めします。パンダ(例:here参照)を使用してデータを読み込んだら、1つまたは複数の列に条件付けられたユニークな要素(例:here)を見つけることは簡単です。

関連する問題