私は様々なつぶやきの単語、名前、ハッシュタグ、フレーズを整理するために、Twitterフィードを使用しています。つぶやきから単語、名前、ハッシュタグ、フレーズを抽出する正規表現
私は名前が大文字で始まり、ハッシュタグは#の後ろに空白があり、フレーズは引用符で囲まれたものであり、単語は単語であると仮定しています。
リンクを引き出すのもいいですが、それは必要ではありません。
私はRegexを使用したいと思いますが、より良い解決策があれば、私は知りたいと思います。
たとえばTwitterのポスト:あなたは彼の新しいトレーラーを見て、考えるとき、あなたはウェス・アンダーソンの映画をたくさん見て知っている「フューチュラフォントだところ、待って?」 http://bit.ly/HklUk #MoviesILike
はWes Anderson
、Wait, where's the Futura font?
、#MoviesILike
を分割う、と
正規表現は、私は今で遊んでいた単語
のすべてがある:Regex _wordRegex = new Regex(@"(?:\""(?<Item>.*?)\"")|(?<Item>(?:[A-Z][a-z]*?[.\s])+)|(?<Item>#\S+)|(?<Item>\w+)");
有用なTwitterフィードの例を投稿してください。 – Standage
@Paul - 申し訳ありませんが、誰もがTwitterの投稿に精通していると思っていました。 CodeInChaos - 私の試行の1つを追加しました –