例として次のリンクを参照してください:http://www.yelp.com/biz/chef-yu-new-york。Yelpはどのようにして「レビューハイライト」セクションを作成しますか?
「レビューハイライト」セクションでは、ユーザーから提出されたレビューに基づいて強調表示されている3つのフレーズ(スパイシーなチキン、ハッピーアワー、ランチスペシャル)があります。明らかに、これらは最も頻繁に出現したフレーズ、またはしばしば出現する最も長いフレーズ、または他の論理である。
彼らの公式の説明はこれである:彼らのレビューで
、Yelpersはたくさん下記のリンクフレーズを述べました。 これは古くからある一般的なフレーズではなく、 私たちのYelp Robotsがユニークで良い、迅速な方法であると判断したものです このビジネスを説明してください。いずれかのフレーズをクリックすると、それに言及している のすべてのレビューが表示されます。
私の質問は、これらのデータポイントを得るためにテキスト入力をマイニングするために何を使用したかです。それは、Lempel Ziv、またはマップのいくつかの種類に基づいていくつかのアルゴリズムを削減ですか?私はCSの専攻ではなかったので、おそらくここで何か根本的なものが欠けているでしょう。いくつかの助けや理論などが好きです。
ありがとう!
それはそれは私には面白いです「すべての語句を集計」ということです。フレーズの長さや複雑さが変わっているので、多分LZのバリエーションを使って辞書を作ってから、最も長かったり最も使われている3つのフレーズを出力していたと思いました。おそらく彼らはそれを他の方法で達成するでしょう。どのようなアイデアを使用することができますか?ツール、テクノロジー、またはアルゴリズムに賢明? – Nuby