ウィキペディア(おそらくMediawiki APIを使用している)にクエリを実行して、そのようなクエリに関連する利用可能な記事のリストを取得したり、テキストマイニングのために選択した記事をインポートすることができるパッケージはありますか?RからWikipediaにアクセスするには?
8
A
答えて
5
情報を取得するためにRCurl
パッケージを使用し、レスポンスを解析するためにXML
またはRJSONIO
パッケージを使用してください。
プロキシを使用している場合は、オプションを設定します。
opts <- list(
proxy = "136.233.91.120",
proxyusername = "mydomain\\myusername",
proxypassword = 'whatever',
proxyport = 8080
)
the APIにアクセスするためにgetForm
機能を使用してください。
search_example <- getForm(
"http://en.wikipedia.org/w/api.php",
action = "opensearch",
search = "Te",
format = "json",
.opts = opts
)
結果を解析します。寄付の詳細とユーザーを取得し、ここで
ls("package:WikipediR")
[1] "wiki_catpages" "wiki_con" "wiki_diff" "wiki_page"
[5] "wiki_pagecats" "wiki_recentchanges" "wiki_revision" "wiki_timestamp"
[9] "wiki_usercontribs" "wiki_userinfo"
それが使用されている:
fromJSON(rawToChar(search_example))
+0
これはいくつかの検索語には問題がありますが、私がやっているネットワークの問題です。 'search'パラメータでサンプルコードを異なる文字列でチェックするボランティアが必要です。 –
9
それは、これらの機能が含まれてWikipediR
、
library(devtools)
install_github("Ironholds/WikipediR")
library(WikipediR)
R 'でMediaWikiのAPIラッパー' があります多数のユーザーの詳細:
library(RCurl)
library(XML)
# scrape page to get usernames of users with highest numbers of edits
top_editors_page <- "http://en.wikipedia.org/wiki/Wikipedia:List_of_Wikipedians_by_number_of_edits"
top_editors_table <- readHTMLTable(top_editors_page)
very_top_editors <- as.character(top_editors_table[[3]][1:5,]$User)
# setup connection to wikimedia project
con <- wiki_con("en", project = c("wikipedia"))
# connect to API and get last 50 edits per user
user_data <- lapply(very_top_editors, function(i) wiki_usercontribs(con, i))
# and get information about the users (registration date, gender, editcount, etc)
user_info <- lapply(very_top_editors, function(i) wiki_userinfo(con, i))
関連する問題
- 1. wikipedia webservicesにアクセスする
- 2. JSONPでWikipedia APIにアクセス
- 3. Wikipediaで伝記のタイトルにアクセスする
- 4. R-StudioはローカルリポジトリからRパッケージにアクセスする方法
- 5. ルーピングでWikipediaのデータをR
- 6. WikipediaのXMLファイルから内部リンクを削除するには?
- 7. Wikidata IdからWikipediaのページを取得するには?
- 8. Wikipediaのページからテーブルデータを取得するには?
- 9. Wikipediaから統計を抽出するには?
- 10. Wikipedia APIからテーブル内のデータを取得するには?
- 11. WikiTablesをWikipediaのページからAPIで抽出するには?
- 12. 効率的にRaster StackからデータにアクセスするR
- 13. Wikipedia API - JSONオブジェクトへのアクセス
- 14. R-掻爬Wikipediaのリストをテーブルに掻き立てる
- 15. Wikipedia APIからデータを取得する
- 16. R以外のスクリプト(例:Python)からRヘルプにアクセス/抽出する
- 17. ネイティブコードから生成されたAndroid Rクラスにアクセスする
- 18. AndroidライブラリからアプリRクラスにアクセスする
- 19. wikipediaからpdfファイルをダウンロード
- 20. コンテナからホストポートにアクセスする(ssh -Rとバインドする)方法は?
- 21. 映画のためにWikipedia APIからコンテンツを取得するには?
- 22. wikipedia wikipediaでスクラップする1.4.0:悪い結果をスキップするには?
- 23. Wikipedia APIを使用するには
- 24. QMLからenumにアクセスするには?
- 25. main.pasからDataGridViewにアクセスするには?
- 26. クロムエクステンションからローカルストレージにアクセスするには?
- 27. リモートからPgAdmin4にアクセスするには?
- 28. ptrからオブジェクトメソッドにアクセスするには?
- 29. CodeIgniterからMagentoにアクセスするには?
- 30. ページメソッドからサーバーコントロールにアクセスするには?
次のような便利な点があります。http://www.ragtag.info/2011/feb/10/processing-every-wikipedia-article/ – James