2016-11-28 13 views
-1

英数字以外のすべての文字を抽出しようとしています。また、pythonを使用してツイートからURLを抽出しようとしています。私はスペースで区切られた単語だけ残すべきです。 例: 私のつぶやきは: "こんにちは!https://www.tutorialspoint.com/python/python_strings.htm @phyton #phyton"をチェックしてください 私は "私のページをチェックしてください" 助けてくれてありがとう!ツイートからURL、コメント、ハッシュタグを抽出する

+0

矛盾があなたの例ではありますが、あなたは「ハイ」、それだけでも文字列かかわらず、両方の「phyton」を削除したい「こんにちは!」英数字以外の文字も含まれます。それは 'phyton'のようなタグではないので 'Hi'という文字列を含んでいますか? – davedwards

+0

はい私はタグを持たないのでハイを含んでいます、それは言葉ですが、私はすべての句読点を取り除いています – tubitubi

答えて

0

既にツイートのテキストがあると仮定して、Pythonの組み込み演算子を文字列に使用すると、後で行うことができるはずです。ここではワンライナーは、リストの内包とstring.translate moduleを使用します:

import string 

my_tweet = "Hi! Check out my page at https://www.tutorialspoint.com/python/python_strings.htm @phyton #phyton" 
tweet_text = ' '.join([i.lower() for i in my_tweet.split() if not i.startswith(('http', '@', '#'))]).translate(None, string.punctuation) 
print tweet_text # hi check out my page at