6

私は割り当てられた興味深い問題についていくつかの情報を求めていました。タスクは、何百、何千ものプライバシーポリシーを分析し、それらの主要な特徴を特定することです。たとえば、ユーザーの所在地を取っていますか、第三者と共有/売却していますか?興味深いNLP /機械学習スタイルのプロジェクト - プライバシーポリシーの分析

私は少数の人と話をし、プライバシーポリシーについてよく読んで、自分自身について考えました。私の現在の攻撃計画は次のとおりです。

まず、プライバシーをよく読んで、特定の特性が満たされているかどうかを確認してください。たとえば、何百ものプライバシーポリシーが「あなたの所在地を取る」という同じ行を持つ場合、その行は、そのプライバシーポリシーがユーザーの所在地を占有することを含む100%信頼性の手がかりになる可能性があります。他の手がかりは、特定の特性に関する信頼度をはるかに小さくするでしょう。たとえば、「場所」という単語が存在すると、ユーザーの場所が25%保存される可能性が高くなります。

これらの手がかりと、それぞれのプライバシーポリシーを高い信頼度で分類できるような適切な信頼区間を作成し続けることが考えられます。ここでは、ベイジアンフィルタを使用する電子メールスパム捕捉システムのアナロジーを使って、どのメールが商業的で迷惑なものかを特定することができます。

私は皆さんがこれがこの問題の良いアプローチだと思っているかどうか尋ねたかったのです。このような問題にどの程度正確にアプローチしますか?さらに、使用することをお勧めする特定のツールやフレームワークがありますか?どんな入力も歓迎です。これは人工知能、特に機械学習とNLPに触れるプロジェクトを初めて行ったときです。

+0

問題は実際にはドキュメントの分類ではありません。各文書を塊に分割し、各塊にラベル付け/分類/要約したいと考えています。素朴なアプローチでは、各段落や文章を塊として扱うことができますが、あまりにも粗すぎるかもしれません。 – tripleee

+0

しかし、実際には一般的なユーザーのプライバシーに影響を与える段落がいくつかあります。場所の把握、サードパーティへの販売など、「ホットボタン」の問題に興味があります。標準的なボイラープレートは無関係です。 – babonk

+0

私が作ろうとした点の1つは、このようなシステムが「これが何であるかを知っているので、それを無視することができます」と「このことが何であるか分からない"です。だから私はあなたが "標準的な定型句"と呼ぶものを特定する必要があると思います。確かにそれが標準で定型文であるならば、それは主要なタスクと比較して簡単でなければなりません。 – tripleee

答えて

4

アイデアは、これらの手がかりと、適切な信頼区間を作成して、すべてのプライバシーポリシーを高い信頼度で分類できるようにすることです。ここでは、ベイジアンフィルタを使用する電子メールスパム捕捉システムのアナロジーを使って、どのメールが商業的で迷惑なものかを特定することができます。

これはtext classificationです。ドキュメントごとに複数の出力カテゴリがある場合は、実際にはmultilabel classificationです。標準的なアプローチは、あなたが予測したいクラス/ラベルを持つ文書セットをmanually labelにしてから、文書の特徴に関する分類子を訓練することです。おそらくtf-idfによって重み付けされた単語またはn-gramの出現またはカウント。

ドキュメント分類の一般的な学習アルゴリズムには、ナイーブベイズとリニアSVMがありますが、他のクラシファイア学習者も同様に動作します。任意の分類器は、one-vs.-rest(OvR)構成によってマルチラベルに拡張することができます。

2

本当に面白い問題です。

より高いレベルでは、あなたが欲しいものはsummarizationです - ドキュメントはいくつかの重要なフレーズに縮小する必要があります。これは解決された問題ではありません。簡単なアプローチは、キーフレーズではなくキーワードを検索することです。トピックモデリングのためのLDAのようなものを試して、各ドキュメントの内容を調べることができます。次に、すべてのドキュメントに存在するトピックを検索することができます。ライセンス、場所、著作権などで何が起きるかは疑問です。MALLETには使いやすいLDAの実装があります。

0

私はこれを機械学習の問題としてアプローチします。ここでは、さまざまな方法で物事を分類しようとしています。つまり、場所を探していて、ssnが必要です。

あなたは(場所、SSN)を使用する特性を列挙する必要があり、その後、各ドキュメントのだろうが、その文書がその情報を使用するかどうかを言います。あなたの機能を選択し、あなたのデータを訓練し、分類してテストしてください。

私は言葉とnグラムのような単純な機能は、おそらくあなたはかなり遠くになるだろう、とSSNまたは場所のようなものに関連した単語の辞書がうまくそれを終えるだろうと思います。

あなたchoice-ナイーブベイズの機械学習アルゴリズムを使用することは、実装し、非常に使いやすいですし、問題の最初の刺すようOK働くだろう。