2017-05-03 15 views
0

任意の文字で始まり固定された順序で終わる単語をWebで検索する方法はありますか?たとえば、* otusで蓮、POTUS、SCOTUS、Herodotusなどを返すように検索したいのですが。単語の終わりの検索エンジン

辞書やコーパスのような限られたセットに対しては、これを行うツールがたくさんあります。たとえば、allwords.comには「words ending with」というオプションがあります。ただし、非常に小さなテキストセットを検索します。私はウェブ全体を検索しようとしています。

ご協力いただきありがとうございます。

デビット

答えて

2

ここでは、言語の変更された単語ファインダーです。
Webを検索しているので、これはUnicodeを使用しています。
必要な場合にのみascii用に作ることができます。

実際の単語は、グループ2に取り込まれています。

(?i)([^\pL\pN]*([\pL\pN](?:[\pL\pN_-]|\pP(?=[\pL\pN\pP_-])|[?.!])*otus)(?:\pP(?=[\pL\pN\pP_-])|[?.!])*(?=[^\pL\pN]|$))

https://regex101.com/r/HrFrEM/3

Formatted

(?i) 
(       # (1 start) 
     [^\pL\pN]*     # Not letters/numbers 
     (       # (2 start), Followed by letter/number 
      [\pL\pN] 
      (?: 
       [\pL\pN_-]     # Letter/number or '-' 
      | 
       \pP       # Or, punctuation if followed by punctuation/letter/number or '-' 
       (?= [\pL\pN\pP_-]) 
      | 
       [?.!]       # Or, (Add) Special word ending punctuation 
      )* 
      otus       # Ends with this 
    )        # (2 end) 
     (?: 
      \pP       # Or, punctuation if followed by punctuation/letter/number or '-' 
      (?= [\pL\pN\pP_-]) 
     | 
      [?.!]       # Or, (Add) Special word ending punctuation 
    )* 
     (?= [^\pL\pN] | $) 
)        # (1 end) 
0

はい、方法があります。

0.0.0.0から255.255.255.255までの可能なすべてのIPで逆方向のDNSを実行するforループを作成することから始められます(必要に応じて制限されたポートを除外できます)。

おめでとう、世界中のすべてのウェブサイトのすべてのURLを取得しました。

これらのすべてのドメインを繰り返し実行してホームページを読み込み、ハイパーリンクを再帰的に読み込むforループを作成できます。

おめでとう、あなたは今、ウェブ全体を持っています!その後、フォルダ(すなわちweb/

にそれ保存

cat web/* | grep otus 
+0

ハ!あなたがた両方に感謝します。私の申し訳ありませんが、私は完全に焦点を当てたstackoverflowがコーディングに集中していることを完全には理解していませんでした。私はプログラマーではないので、私のために "単語の終わり"検索を行うことができる既存のウェブサイトツール/検索エンジンが必要です。何かご意見は? – David

+0

私の質問(とf/uのコメント)がかなりよく定義され、私に縛られているように、なぜこれが保留になっているのか分かりません。しかし... c'est la vie。 – David

関連する問題