これらの用語からいくつかの意味を抽出するためにWikipediaを試すことができます。例えば、WikipediaのAPIに対して、次のクエリ:
http://en.wikipedia.org/w/api.php?action=query&prop=categories&format=json&clshow=!hidden&cllimit=10&generator=search&gsrsearch=apple%20iMac%20snowleopard%22&gsrnamespace=0&gsrprop=titlesnippet&gsrredirects=&gsrlimit=10
は、次のような結果が得られます。
{
"query": {
"searchinfo": {
"totalhits": 3,
"suggestion": "apple iMac snow leopard\"\""
},
"pages": {
"2020710": {
"pageid": 2020710,
"ns": 0,
"title": "Apple's transition to Intel processors",
"categories": [
{
"ns": 14,
"title": "Category:Apple Inc."
},
{
"ns": 14,
"title": "Category:Intel Corporation"
},
{
"ns": 14,
"title": "Category:Mac OS X"
}
]
},
"14059031": {
"pageid": 14059031,
"ns": 0,
"title": "Mac OS X Snow Leopard",
"categories": [
{
"ns": 14,
"title": "Category:2009 software"
},
{
"ns": 14,
"title": "Category:Mac OS X"
}
]
},
"20640": {
"pageid": 20640,
"ns": 0,
"title": "OS X",
"categories": [
{
"ns": 14,
"title": "Category:1999 software"
},
{
"ns": 14,
"title": "Category:Apple Inc. operating systems"
},
{
"ns": 14,
"title": "Category:Apple Inc. software"
},
{
"ns": 14,
"title": "Category:Mac OS X"
},
{
"ns": 14,
"title": "Category:Mach"
}
]
}
}
},
"query-continue": {
"categories": {
"clcontinue": "14059031|X86-64 operating systems"
}
}
}
は「正しい」カテゴリが何であるかを、このデータから決定することは容易ではないかもしれないが、それはスタートです。
単語のコレクションをカテゴリにマッピングするアルゴリズムは何ですか?これを行う方法は私には分かりません。あなたが取りたいアプローチは、データ構造/ライブラリの選択に強く影響します。 –
私は意味論的に関連している単語をグループ化するためにGLSD(google latent semantic distance)アルゴリズムを使用します。しかし、私はクラスター内の単語間のカテゴリーを決定するのに問題があります。私はWordNetを使用して各単語のハイパーニミーを抽出してみましたが、クラスタ内のすべての単語が同じハイパーニミーを持っているわけではないので、機能しません。 – kyo21