1

Googleが人気のある通路ブロックの機能をどのように作成したかについて、誰かが理解しているか、知っているか、包括的な文献やソースコードを指し示すことができるかどうか不思議です。しかし、あなたが同じことをすることができる他のアプリケーションについて知っていれば、あなたの答えも投稿してください。Googleブックスの人気のある通路の機能はどのように開発されましたか?

私が何を書いているのかわからないなら、人気のある通路のhere is a link to an exampleについて。あなたはゲオルギオスN. Yannopoulosすることにより、情報技術アプリケーションのための法的な決定プロセス...をモデル化ブックの概要を見てみると次のような何かを見ることができます:

人気通路

を..方向、不確定。 が発生しているので、 が届いていないので、 が解決されておりますので、ご了承ください。公園のある程度の 平和が犠牲にされるかどうか これらのものには、 子どもたちが喜んでいるか興味を持っている子供たちに守るか、または防御しますか? 未開示のケースが発生した場合、 は問題に直面して となり、 を の方法で選択して解決することができます。 やって... Page 86

Appears in 15 books from 1968-2003

ではこれが "機械的" 法学の世界にフィットだろう。わかりやすい この世界は私たちの世界ではありません。人間 議員はそのような知識を持たない可能性があります の可能な組み合わせのすべて 将来は がもたらす可能性があります。 を予期することができないことは、相対的な の不確定性をもたらす。我々は 行為(例えば、何の車両 は公園に入れないことができることをルール)のいくつかの一般的なルールをフレームに十分 大胆されている場合は、この文脈で使用 言語は何 が満たさなければならない 必要な条件を修正します... Page 86

Appears in 8 books from 1968-2000

more

これは、集中パターンマッチング処理でなければなりません。私は、n-gramモデル、テキストコーパス、自動迷彩検出を考えることしかできません。しかし、時にはn-gramは、シーケンス内の次の項目を予測するための確率モデルであり、テキストコーパス(私の知る限り)は手動で作成されます。そして、この特別なケースでは、人気のある通路には、かなりの言葉があります。

私は本当に失われています。そのような機能を作りたいと思ったら、どうやってどこから始めればいいのですか?また、F#や他の機能的言語、PERL、Python、Javaなど、このようなものに最も適したプログラミング言語をあなたの回答に含めてください...

PS(私は自分自身のF#のファンになってきています):ので、私はできません

+0

タグを追加しようとしましたが、SOタグは25文字に制限されているようです。 – outis

+0

*タグとしての自動盗用検出*は、謎めいているようです。私は誰も検索基準として使用することはないと思う。より一般化されたものを考え出すことができます。 – ichiban

+0

これは、業界にこのタグを付ける方法を見てきたことです。私はそれを変える権限がないと思う。先ほど検索してみると、いくつか例を挙げると、ieee.orgとacm.org、およびスタンフォードのMOSSプロジェクトでいくつかの結果が得られます。 – dde

答えて

6

this ACM paperを読んでください.KolakとSchilitは、Popular Passagesを開発したGoogleの研究者です。また、オースティンのテキサス大学のBaldridge and Leaseによって教えられたこのMapReduceコースのa few relevant slidesもあります。

0

誰かが私にはオーバーに見えた小さなサンプルでは、​​タグ自動剽窃検知を含むことができ、すべての通路が選んだように、それが見えますインラインまたはブロックの引用符です。ちょうど推測ですが、おそらくGoogleブックスは書式設定と引用の相違点を探して、引用文献とソースを関連付けるための参考文献の構文解析バージョンを使用します。スタイルマニュアルのためのHooray。

このアプローチは明らかに盗作を検出する助けにはならず、コーパスがテキスト書式を保持する形式でない場合はほとんど役に立ちません。

0

他の書籍を引用または参照している書籍が分かっている場合は、可能なすべての書籍を参照する必要はありません。もし科学的な言葉が引用されているのであれば、引用符には行番号とページ番号が含まれているか、本の最後の参考文献にあるので、Googleはこの情報だけを解析します。

Googleの学者は、紙から紙にいたる可能性のある情報は、本から本までもあるかもしれません。

関連する問題