2017-03-21 7 views

答えて

1

GHTorrentのみ提供(https://stackoverflow.com/a/42930963/132438に関連した)多くを得ることができるか、GitHubののスナップショットを持っているのは素晴らしいですBigQueryでのデータの定期的なスナップショットです。GitHub Archiveは毎日更新しています(または毎時更新することもできます)。

GHTorrent(おそらくhttps://twitter.com/gousiosgが役に立ちます)のスナップショットを頻繁に作成することは素晴らしいことですが、その間に両方のデータセットをマージすることができます(GHTorrentスナップショットデータを探し、GitHubアーカイブから最新の星を追加します) :

#standardSQL 
SELECT COUNT(DISTINCT login) c 
FROM (
    SELECT login 
    FROM (
    SELECT login 
    FROM `ghtorrent-bq.ght_2017_01_19.watchers` a 
    JOIN `ghtorrent-bq.ght_2017_01_19.projects` b 
    ON a.repo_id=b.id 
    JOIN `ghtorrent-bq.ght_2017_01_19.users` c 
    ON a.user_id=c.id 
    WHERE url = 'https://api.github.com/repos/angular/angular' 
) 
    UNION ALL (
    SELECT actor.login 
    FROM `githubarchive.month.2017*` 
    WHERE repo.name='angular/angular' 
    AND type = "WatchEvent" 
) 
) 
1

理論的には、新しいGHTorrent MySQLダンプがリリースされるたびに更新されます。具体的には、CSVパーサーが処理できないユーザーの場所など、奇妙なテキストが多数存在するため、生成されたCSVに対して手動で調整する必要があります。

http://ghtorrent.org/gcloud.html

関連する問題