私は会社名のリストを持っています。私はurlの会社名のリストを持っています。Python(url)の大量のテキスト内の文字列をあいまいに照合
最終目標は、URLの中に見て、私のリストにあるどのように多くのURLの企業を見つけることです。
例URL:http://www.dmx.com/about/our-clients
各URLは別々に構成することになるので、私は正規表現検索を行うには良い方法があり、各会社名の個々の文字列を作成しないでください。
私は、URLの全体の内容のリストから、各企業を検索するためのforループを構築したいと思います。しかし、Levenshteinは短い文字列と大きな文字列の2つの小さな文字列よりも優れているようです。
この初心者はどこを見ているのですか?
+1これは絶対にブルートフォースのアプローチであり、かなり効率的です。 – jathanism
それは意味があり、良いスタートです。私がファジーマッチングを考えている理由は、 "Sears Inc."対 "シアーズ" ...など – Kyle
@カイル、私はあなたのポイントを参照してください - あなたの名前のリストが完全な会社名の最短明確な接頭辞を含む限り、それは大きな問題になる可能性は低いです。たとえば、あなたのリストに「Sears」がある場合、「Sears、Inc.」もマッチします。偽陰性を引き起こす可能性があるいくつかの状況があります。しかし、あいまいなマッチングでは、おそらく偽陽性になるので、それはあなたがより耐え難いと思うものに依存すると思います。 – senderle