私は、英語でコミュニケーションする方法に基づいて、その人の国籍を特定するプロジェクトに取り組んでいます。私は10の国籍を持っています& 1000ファイル、各国籍ごとに100。私は、私のアプローチを検証するために、機能としてN-gramを使用しています。&マルチラベル分類にn-gramを使用するには?
- が与えられたため、すべてのファイルをピックアップ:(行として)ラベルとして&国籍を特徴として私のデータ構造は、私のステップである(列などの文字nグラム、バイグラム、)異なるnグラムを持っているでしょう国籍(FINE)。 1.1。それらを組み合わせてテキストコーパスを形成する(例えば、100のファイルを1つの大きなファイルに結合する)。私は当初、一度に1つのファイルを取ることを考えました&出現に基づいてnグラムの数を更新しました。しかし、それぞれの新しいnグラムについて、私はそれがすでに発生しているかどうかを調べる必要があります&は、与えられたラベルのためにその頻度を更新します。これはより良いアプローチでしょうか?
- バイグラム/トライグラムの抽出&各グラムの頻度を取得します。 (NLTKにはそれぞれ数を与えるFreqDistがあります)
- この情報を保存するので、テストセットを分類するために使用します。 (どのように私はこの情報を格納するようにしてください。次の詳細を)
質問Iは、(マトリックス中にnグラム&周波数情報を格納する必要があり、各ラベルの全てのnグラム&ラベルまたは別個のマトリックスを有する単一マトリックス)、または地図として保存する必要があります(ラベルごとに、N-gram &の頻度カウントを持つ地図)。私は、抽出された情報を格納するためのデータ構造を持っていて、入力として&を処理するために分類器が使いやすいようにしたいと考えています。私は、どのデータ構造がより良い選択肢になるかは予見できません。