私は製品販売Webサイトのために私自身の特定のWebクローラーを作成しています。彼らの非常に悪いコーディングの性質のために、私は同じページを指すURLを得ることで得る。同じ要素が複数回含まれているかどうかの文字列リストを見つける
上記のページはあなたが'/'
文字を経由して分割したときに、それは2 "bilgisayar" 要素が含まれて見ることができるように
http://www.hizlial.com/bilgisayar-bilesenleri/bilgisayar/yazicilar/samsung-scx-3200-tarayici-fotokopi-lazer-yazici_30.033.1271.0043.htm
以下と同じです。たとえば、例1
http://www.hizlial.com/bilgisayar/bilgisayar-bilesenleri/bilgisayar/yazicilar/samsung-scx-3200-tarayici-fotokopi-lazer-yazici_30.033.1271.0043.htm
だから私が望むのは、このようなURLを分割したいのです。
string[] lstSPlit = srURL.Split('/');
その後、そのリストに同じ要素が複数回含まれているかどうかを確認します。任意の要素。私はすでに他のページから抽出された実際のURLを持っていたので、任意の要素が含まれている場合、私はURLをスキップします。では、これを行う最善の方法は何ですか?長い
が、作業バージョン
string[] lstSPlit = srHref.Split('/');
bool blDoNotAdd = false;
HashSet<string> splitHashSet=new HashSet<string>();
foreach (var vrLstValue in lstSPlit)
{
if (vrLstValue.Length > 1)
{
if (splitHashSet.Contains(vrLstValue) == false)
{
splitHashSet.Add(vrLstValue);
}
else
{
blDoNotAdd = true;
break;
}
}
}
するので、あなたは 'lstSPlit'回以上同じ項目が含まれているかどうかを確認したいですか?または、以前の実行で見たことのあるアイテムが含まれているかどうかチェックしますか? –
同じ商品を複数回それはそれがある任意の項目にすることができます – MonsterMMORPG