ランダムなウェブページの件名やトピックを見つけて、これをdbpediaなどのRDFデータベースのエンティティにリンクすることに興味があります。私はこれを行うためのツール/ライブラリがあるのか、誰かがこれまでにこのようなことをしようとしているのであれば疑問に思ったのですか?ウェブページの件名を探す
答えて
Webページの主題を見つけることは(同名のWikipediaのページを参照してください)Automatic Summarizationに、おそらく最も近いです。そのために使用されるサブタスクの1つはKeyphrase Extraction(KE)です。 KEは、入力テキストから、そのテキスト項目に重要な/重要な/関連する部分文字列(フレーズ)を返します。名前付きエンティティが入力テキストの主題のキーであると仮定すると、名前付きエンティティ認識(NER)が、必要なサブタスクになります。 NERは、エンティティのタイプと並んで、エンティティの名前である部分文字列を返します。
DBpediaなどのナレッジベース(KB)へのリンクについては、あなたの説明から、KEまたはNER以上のものを探しているようです。 DBpedia Spotlightというツールがまさにこれを実行します。入力テキスト内のすべてのDBpediaリソースを見つけるように、またはキーフレーズのみ、名前付きエンティティのみなどを検索するように設定することができます。そのすべてが最終的にDBpediaにリンクします。それをチェックしてください:http://spotlight.dbpedia.org
AlchemiAPI、Zemanta、WikiMachine、Evri、HeadUp、Enrycherなどの他のツールがあります。私の知る限り、DBpedia Spotlightはフリーでオープンソースです(Apache V2 )、フレーズの認識と曖昧さ回避の動作を同様に設定することができます。 (免責事項:私はDBpedia Spotlightの共同制作者です)
基本的には、名前付きエンティティ認識ツールです。 Alchemy API,OpenCalais,LupediaまたはZemantaのような多くの無料の商用サービスがあります。私の同僚の中にはbloggedaboutのこれらのサービスに関する経験があります。
インターリンクする部分では、通常SilkまたはLIMESなどのフレームワークを使用します。まもなくEC FP7プロジェクトLATCでinterlinking service in the cloudが利用可能になります。免責事項:私はLATCプロジェクトコーディネーターであり、Silk/LIMESはLATCコンソーシアムメンバーの製品です。
OpenLink Virtuosoは既にOpenCalais、Alchemy、Pingar、DBPedia Spotlight用のSponger(RDFizer)メタカートリッジを使用しています。つまり、ページをフィードし、上記のサイトにエンティティを尋ねると、識別されたエンティティに基づいてトリプルが与えられます。
(免責事項:私は知っている必要があります)
- 1. ウェブページのテストテキストをお探しですか?
- 2. 件名内の料理の距離を探すR
- 3. Pythonでファイル名の条件付きファイルを探す
- 4. ウェブページのオーディオリソースを探索/収集する方法は?
- 5. 類似の名前のファイルを探す
- 6. モジュール内の関数名を探す
- 7. Intellij IDEAの名前でパッケージを探す
- 8. 現在のユーザー名をスカラーで探す
- 9. HTMLで要素の名前を探す
- 10. Regexで映画の名前を探す
- 11. Outlookの件名に単語「件名」を分割するJava
- 12. ウェブページの一部をダウンロードする方法をお探しの場合
- 13. ProjectItemをファイル名で探す方法
- 14. LAN上でユーザー名を探すvb.net/c#
- 15. symfony - asseticでアセット名を探す
- 16. J2MEグループ名と番号を探す
- 17. システムアプリのパッケージ名とアクティビティ名を探しますか?
- 18. ASP.NET MVC3でカスタムのHtmlHelperに地域名やコントローラ名を探す
- 19. ウェブページ内の文字列をファイルに保存せずに探しますか?
- 20. SQL:コース前提条件を満たす学生を探す
- 21. Selenium Webドライバー - クラス名で探す
- 22. 件名。メッセージリスナーの例
- 23. ウェブページにアップロードするファイルの名前をプログラムで設定する
- 24. Angular2ローカルストレージ件名()
- 25. 件名とAnonymousSubject
- 26. node.js nodemailer件名
- 27. IMAP FETCH件名
- 28. rxjs件名 - クリア?
- 29. ウェブページのウェブサイト名とページタイトルを取得する方法
- 30. Gmailの件名を変更する
あなたの質問は「建設的ではない」と考えられるかもしれませんが、とにかくあなたに役立つ答えがありますか?それを答えとして選択できますか? –