3

私はプログラマーではなく法律家ですが、現在は人工知能と著作権法に関するプロジェクトを研究しています。私は現在、アルゴリズムによって保護された作業が使用されている場合、機械学習アルゴリズムの学習プロセスが著作権侵害である可能性があるかどうかを検討しています。しかし、これは、アルゴリズムが作業をコピーするかどうかに依存します。機械学習アルゴリズムは、学習したデータをコピーしますか?

機械学習アルゴリズムは、分析しているデータ(画像/テキスト/動画/その他)を一般的にコピーしているか(短くても短くても)、あるいは他の方法でデータから必要な情報を取得できるかコピーを必要としない方法(人間がストップサインを見て、イメージを必ずコピーすることなくストップサインとして認識する方法)。

知識が不足していることを申し訳なく思っています。確立された機械学習知識に直面して私の説明が飛び交うのはごめんなさい。私が言ったように、私は単に低学歴の学生です。

ありがとうございます!

答えて

0

「コピー」という言葉の意味によって異なります。プログラムを実行すると、処理のためにハードディスクからRAMにデータがコピーされます。私はこれがあなたが意味するものではないと仮定しています。

特定のマシンに著作権で保護されたデータがあり、そのデータに対してマシン学習アルゴリズムを実行すると、アルゴリズムがそのデータをマシンからコピーする理由はありません。

一方、クラウドMLサービス(AWS/IBM Bluemix/Azure)を使用している場合、MLアルゴリズムを実行する前にデータをクラウドにアップロードする必要があります。これは、データをコピーしていることを意味します。

これはもっと明るいですね!

ローリーML学生

2

通常、典型的なMLアルゴリズムが入力で行う最初のことは、それをコピーまたは格納するのではなく、それに基づいて何かを計算して元のものを忘れることです。そして、これは、ニューラルネットワーク、回帰アルゴリズム、および統計的方法が果たすものの公正な記述です。メインストリームのMLには「正当な記憶」はありません。私はそれをやっていることが、データベースやフルテキストインデックスエンジンなどとして販売されると思っています。

しかし、データをそのマシンに最初にコピーすることなく、マシン上で実行されているアルゴリズムにどのようにデータを表示しますか?

+0

ありがとう:ここ

がCNNsからトレーニングデータを復元することは可能かもしれないことを示している2本の論文です。アルゴリズムがどのようにデータを取得するかという点で、定義されたデータセットが与えられている場合、これは著作権所有者からこの目的のためにライセンス供与されることができ、あまりにも多くのトリッキーな法的問題を引き起こさない。私が興味を持っているのは、アルゴリズムが許諾されていない保護された著作物を誤って使用し、これが著作権侵害であるかどうかです。 アルゴリズムは、定義されたトレーニングデータに基づいて動作しますか? –

+0

「偶然に使用する」に展開しますか?それが訓練データとしてアルゴリズムに提示されるなら、それは偶然ではありません。トレーニングの後に使用中に見える場合は、ああ、それは難しいです。主流(全部ではない)のアプローチは、現在、トレーニング後に覚えたり覚えたりすることはありません(私は5~10年間で主流のアプローチにとどまることはできませんが)。 –

+0

ここで私の主な質問は、マシン学習アルゴリズムが明示的にそれに与えられていないトレーニング中にデータを使用することは可能であろうかと思いますか? たとえば、プログラマーとして私のアルゴリズムを設定して、できるだけ多くのデータを取得するために停止標識の写真をインターネットでトラップすることは可能でしょうか? –

3

いくつかの機械学習アルゴリズムでは、トレーニングセットのコピーが実際に保持されています(たとえば、k最近隣など)。 https://en.wikipedia.org/wiki/Instance-based_learningを参照してください。すべてではありません。実際には、トレーニングセットが大きくなる可能性があるため、通常は不利とみなされます。

また、コンピュータは、サイズと速度の異なる複数の異なるデータストアにまたがって構築されています。大規模な店舗では読み書きに時間がかかるため、作業中の小規模のファストストアには、通常、作業中のデータがコピーされます。これの多くの可能性のある例の1つは、私がほとんど知っていない法的争いの主題です。 https://law.stackexchange.com/questions/2223/why-does-browser-cache-not-count-as-copyright-infringementなどのブラウザキャッシュの著作権です。コンピュータに2つの番号が追加されている場合は、その番号が内部メモリに格納されているはずです。内部レジスタと呼ばれるものに、少なくとも1つは格納されている可能性が非常に高い - 非常に小さい非常に高速なメモリで、作業する数値を格納することを意図している。

分類されたデータを処理するためにコンピュータ(または他の電子機器)が使用されている場合、それを以後に分類されたものとして扱うのが普通です。最悪の場合は、そのデータを検索する場合でも、実際には特殊な機器に特化した専門知識を多く必要とします。

0

いくつかのマシンは、KNNなどのデータセットをコピーします。残念なことに、そのようなアルゴリズムは、大規模なデータセットに対してはスケーリングできないため、実際には一般的には使用されません。

ほとんどのMLアルゴリズムはパターンを識別するためにデータセットを使用します。そのため、パターン認識は機械学習の別の名前です。パターンは、元のデータセットよりも(メモリや変数などの点で)ほとんど常に小さくなっています。

2

機械学習アルゴリズムは、学習したデータをコピーしますか?

さまざまな機械学習アルゴリズムがあります。 k nearest neighbor(k-NN)について話しているのなら、答えははいです。

ただし、k-NNはめったに使用されません。ほとんどの(すべて?)他のモデルはあまり単純ではありません。通常、機械学習の開発者は、次のようないくつかの理由により、トレーニングデータがモデルによって圧縮されることを望んでいます(1)トレーニングデータの量が多い(数GB)、(2)トレーニングデータが圧縮されている(3)新しい例の推論は、データが圧縮されていない場合、実際には時間がかかることがあります。 (「圧縮する」とは、タスクの関連情報が抽出され、無関係のデータが削除されることを意味します)通常の意味での圧縮ではありません。

k-NN以外のモデルの場合、 「コピー」とみなされる内容はに依存します。例えば、人工ニューラルネットワーク(特にconvolutional neural networksのサブタイプ、簡略:CNN)からトレーニングデータを部分的に復元することができます。これらのモデルは、多くの(すべての)コンピュータビジョンタスクの最先端技術を持っています。

可能性のあるプライバシー/著作権の問題に焦点を当ててCNNのトレーニングデータを(部分的に)復元/抽出できることを示す論文は見つかりませんでしたが、この問題に関する要約を読んだことは70% 。私は、児童ポルノの検出器を建てるときにこれが問題だったという研究者の話も聞いたと思います。しかし、私はそれが記録されているとか、これについて出版されたとは思わない。