1

私は、定義された概念空間(ここではlearning as it relates to work)に関連して、800k +学術論文を関連性(1)または無関係性(0)として分類する最も効果的かつ簡単な方法を模索します。単純なバイナリテキスト分類

データである:タイトル&アブストラクト及び/又は封入のためのいくつかのしきい値を生じさせる機能を確立することによって、教師付き機械学習を含む、任意の手法を用い、あるいは組み合わせてもよい

を(= 1300個の文字を意味する)、のうちその他。

単純な頻度カウントだけでは信頼性が低いとはいえ、アプローチはkey terms that describe the conceptual spaceになる可能性があります。

トレーニングデータの生成はコーパスの1%まで現実的である可能性がありますが、これは手作業で8,000個の記事を手動でコーディングすることを意味します(1 =関連、0 =無関係) 、それで十分でしょうか?

具体的なアイデアや簡単な推論が非常に高く評価されますので、進め方について十分な情報を得た決定をすることができます。どうもありがとう!

+0

どのように関連性を定義しますか?トレーニングのためのコーパスのわずか1%が妥当ではないと考えている。あなたのコーパスに注釈がありますか?私は、各文書に関連する/関係のないラベルを意味する。 –

答えて

1

いくつかのアイデア:

  1. 実行LDAおよびドキュメントのトピックとトピック語分布は(さまざまなトピックのデータセットの範囲に応じて、20件のトピックを)言ってます。関連性の高い関連トピックが最も高いドキュメントの上位r%を無関係であるとして低いnr%に割り当てます。分類された文書を分類して訓練する。

  2. 単語の袋を使用して、関連性の高いクエリー(あなたの概念空間)に最も近いネガティブな単語を検索し、関連性のない単語を検索し、分類子を訓練します。

  3. 引用がある場合は、ネットワークグラフ上でラベルの伝播を実行することができます。

  4. タイトルワードをtitle_word1に変更して、どのクラシファイアでも重み付けを増やすことができます。

  5. 記事を100個のクラスタにクラスタ化し、それらのクラスタに手動でラベルを付けることを選択します。コーパス内のさまざまなトピックのカバレッジに基づいて100を選択します。このために階層クラスタリングを使用することもできます。

  6. 関連文書の数が無関係な文書の数よりも少ない場合は、概念空間に最も近い近隣を見つけることが最善の方法です(Luceneで実装された情報検索など) 。次に、ドキュメントがもはや関連性がないと感じるまで、ランク付けされた結果を手動で削除することができます。

これらのメソッドのほとんどは、ブートストラップまたはある弱テキスト分類のためのアプローチを監修、あなたはより多くの文学、約。

関連する問題