Watsonなどの認知システムを使用してソースコードの盗用の痕跡を検出するアプリケーションを開発する必要があります。 現時点では、Jplag(https://github.com/jplag/jplag)を使用してソースコードを分析し、トークン化されたファイルを取得しています。IBM Watson:構造ファイル間で類似のパターンを検索
私の問題点は、Watsonが非構造化ファイル解析のために高度に使用されているシステムであることです。代わりに、トークン化されたファイルは高度に構造化されており、IBM Watsonが提供するほとんどのサービスでは分析できません。 たとえば、Watson Discoveryは、電子メールまたはパブリケーション内の感情やトピックに関する情報を提供し、コーパスを構成するファイル間のリンクを検出します。残念ながら、Watsonはこの目的のためにトークン化されたファイルを読み取ることができません(または私はそれを行う方法がわかりません)。
私はWatson Analyticsを見つけました。これは、数値ファイルと構造化ファイルの間の相関関係を提供する必要があります。しかし、私は試用期間に達することができないので、私はそれをテストすることはできません。
自分の目的でWatson Analyticsを使用できるかどうか疑問です。私はこのようにしなければならないのでしょうか?