こんにちは皆、盗作アナライザ(Webコンテンツと比較)世界中
背景
私はコンピュータサイエンスの最終年の学生です。私はJavaとMySQLを使用して、剽窃分析であるFinal Double Moduleプロジェクトを提案しました。
盗作アナライザは以下となります。
- スキャンアップロードされたドキュメントのすべての段落。どのウェブサイトからコピーされた各段落の割合を分析します。
- 各段落のどのウェブサイトから正確にコピーされた語だけを強調表示します。
私の主な目的は、可能な限り改善されたTurnitinのようなものを開発することです。
私はプログラムを開発するのに6ヶ月以内です。私は以下をスコープしました。
- Webクローラーの実装。おそらく、Lucene APIを利用するか、独自のクローラを開発することになるでしょう(どちらが時間の発展とユーザビリティの面で優れていますか?)。
- ハッシュと索引付け。検索と分析を改善する。
質問
ここに私の質問は以下のとおりです。
- できMySQLの店舗多くの情報?
- 重要なトピックがありませんでしたか?
- このプロジェクトに関するあなたの意見はありますか?
- 類似性解析を実行するための提案やテクニックはありますか?
- 段落だけでなく、ハッシュできますか?
ご協力いただきありがとうございます。 ^^
これはあなたの仲間の生徒に芝生としてカウントされませんか? ;-) – Steve314
正規化された圧縮距離を調べることができます:http://stackoverflow.com/questions/1085048/how-would-you-code-an-anti-plagiar-site/1085085#1085085 – Stephan202
ありがとうそれを強調表示するために多くのStephan202! ;) –