テキスト文字列内のすべてのURLを抽出するクリーンな方法を見つけようとしています。python3で文字列内のすべてのURLを抽出します
広範な検索の結果、正規表現を使用してタスクを実行することを提案している正規表現が多数見つかりました。各レグゼクティブにはいくつかの長所と短所があります。また、それらを編集して行動を変えることは簡単ではありません。
入力:
Loremのイプサムの嘆きはAMET https://www.lorem.com/ipsum.php?q=suas座って、nusquam tincidunt元あたり、IUSモデュスインテグレなし、quandoとにかくこの時点で私が正しく、このテキスト中のURLを検出できる任意の正規表現で満足していますユーロケーキ結論を出すためには、エリートペルティナシアno eos、nonumy comprehensam id mei。 Ei eum maiestatis quaerendum https://www.lorem.org。賛助会員は、http://news.bbc.co.ukオムニェアワードの定義に従ってください。 Cuデュオ・エクイドメイヤー・クオリティスク。
出力:
[ 'https://www.lorem.com/ipsum.php?q=suas'、 'https://www.lorem.org'、 'http://news.bbc.co.uk']
しかし
内のすべてのURLを見つけたのpython3クラス/関数/ライブラリは、存在する場合指定されたテキストとパラメータを受け取る:- 検出するプロトコルを選択します。
- は、ドメインが
を許可されている、私はそれについて知っていることは非常に幸せになる選択する許可されているのTLDを選択します。
質問タイトルを書いているうちにあなたが眠ってしまったと思います。 –
多分。だから、私は質問のタイトルを編集しました... – Ouss