私は割り当てられた興味深い問題についていくつかの情報を求めていました。タスクは、何百、何千ものプライバシーポリシーを分析し、それらの主要な特徴を特定することです。たとえば、ユーザーの所在地を取っていますか、第三者と共有/売却していますか?興味深いNLP /機械学習スタイルのプロジェクト - プライバシーポリシーの分析
私は少数の人と話をし、プライバシーポリシーについてよく読んで、自分自身について考えました。私の現在の攻撃計画は次のとおりです。
まず、プライバシーをよく読んで、特定の特性が満たされているかどうかを確認してください。たとえば、何百ものプライバシーポリシーが「あなたの所在地を取る」という同じ行を持つ場合、その行は、そのプライバシーポリシーがユーザーの所在地を占有することを含む100%信頼性の手がかりになる可能性があります。他の手がかりは、特定の特性に関する信頼度をはるかに小さくするでしょう。たとえば、「場所」という単語が存在すると、ユーザーの場所が25%保存される可能性が高くなります。
これらの手がかりと、それぞれのプライバシーポリシーを高い信頼度で分類できるような適切な信頼区間を作成し続けることが考えられます。ここでは、ベイジアンフィルタを使用する電子メールスパム捕捉システムのアナロジーを使って、どのメールが商業的で迷惑なものかを特定することができます。
私は皆さんがこれがこの問題の良いアプローチだと思っているかどうか尋ねたかったのです。このような問題にどの程度正確にアプローチしますか?さらに、使用することをお勧めする特定のツールやフレームワークがありますか?どんな入力も歓迎です。これは人工知能、特に機械学習とNLPに触れるプロジェクトを初めて行ったときです。
問題は実際にはドキュメントの分類ではありません。各文書を塊に分割し、各塊にラベル付け/分類/要約したいと考えています。素朴なアプローチでは、各段落や文章を塊として扱うことができますが、あまりにも粗すぎるかもしれません。 – tripleee
しかし、実際には一般的なユーザーのプライバシーに影響を与える段落がいくつかあります。場所の把握、サードパーティへの販売など、「ホットボタン」の問題に興味があります。標準的なボイラープレートは無関係です。 – babonk
私が作ろうとした点の1つは、このようなシステムが「これが何であるかを知っているので、それを無視することができます」と「このことが何であるか分からない"です。だから私はあなたが "標準的な定型句"と呼ぶものを特定する必要があると思います。確かにそれが標準で定型文であるならば、それは主要なタスクと比較して簡単でなければなりません。 – tripleee