2016-09-11 9 views
-2

私は、例えば15のつぶやきを持つ文書を持っています。クエリが与えられた場合、どのようにして最も関連性の高いツイートをクエリにランク付けすることができますか?Pythonを使用して文書内の最も関連性の高いものから最も関連性の低いものへの並べ替え

Dが15件のつぶやきを含む文書も聞かせて、次のとおりです。

D = ['Tweet 1', 'Tweet 2' ..... 'Tweet 15'] 
Q = "some noun phrase" 

はQを考えると、どのような方法で我々は少なくとも関連に最も関連のツイートをランク付けするために使用することができますか?

すべてのツイートは類似しており、同じトピックに属しています。 tf-idfを使用できますか(それは悪い考えです)、トピックモデリングですか?

+0

"TFIDF"とは何ですか? [頻度逆文書頻度](https://en.wikipedia.org/wiki/Tf%E2%80%93idf)?この情報を提供するために質問を編集してください。 –

+0

編集中!ありがとうございました! – ssokhey

+0

質問は、本当に「関連性があり、何がないか」です。定義方法を理解したら、アルゴリズムを実装することができます。それを定義することは、あなた次第です。それは本当にpythonの質問ではない、私は言うだろう。 – zvone

答えて

0

これは、ツイートに含まれている単語の数がツイートトピックに含まれていることに基づいている可能性があります。彼らが同じトピックまたはトップトピックにある場合は、ランキングが良いアイデアになるはずです。

0

Yoe need nltk(Natural Language Toolkit)libery。 tf-idfをカウントする組み込み関数があります

関連する問題