私は、定義された概念空間(ここではlearning as it relates to work)に関連して、800k +学術論文を関連性(1)または無関係性(0)として分類する最も効果的かつ簡単な方法を模索します。単純なバイナリテキスト分類
データである:タイトル&アブストラクト及び/又は封入のためのいくつかのしきい値を生じさせる機能を確立することによって、教師付き機械学習を含む、任意の手法を用い、あるいは組み合わせてもよい
を(= 1300個の文字を意味する)、のうちその他。
単純な頻度カウントだけでは信頼性が低いとはいえ、アプローチはkey terms that describe the conceptual spaceになる可能性があります。
トレーニングデータの生成はコーパスの1%まで現実的である可能性がありますが、これは手作業で8,000個の記事を手動でコーディングすることを意味します(1 =関連、0 =無関係) 、それで十分でしょうか?
具体的なアイデアや簡単な推論が非常に高く評価されますので、進め方について十分な情報を得た決定をすることができます。どうもありがとう!
どのように関連性を定義しますか?トレーニングのためのコーパスのわずか1%が妥当ではないと考えている。あなたのコーパスに注釈がありますか?私は、各文書に関連する/関係のないラベルを意味する。 –