0
Rと行列ベースのスクリプト言語の方が一般的です。私は、この関数を書いて、他の行のコンテンツと同様の内容を持つ各行のインデックスを返します。これは私が開発している原始的な形のスパム削減です。この関数をさらにベクトル化することはできます
if (!require("RecordLinkage")) install.packages("RecordLinkage")
library("RecordLinkage")
# Takes a column of strings, returns a list of index's
check_similarity <- function(x) {
threshold <- 0.8
values <- NULL
for(i in 1:length(x)) {
values <- c(values, which(jarowinkler(x[i], x[-i]) > threshold))
}
return(values)
}
forループを完全に回避するための方法はありますか?
@akrun、歓声 – user2228313
@Dbいいえ、私は他のすべての行、Xと比較するのです[i]は、[-i] – user2228313
は多分これを試してみてください。X: ' m = as.matrix(sapply(x、jarowinkler、x))> threshold; diag(m)= 0; which(rowSums(m)> 0) '再現可能なデータはありませんが、これはうまくいくと思います。 – dww