アフリカの政治的暴力に関する新聞記事を集計し、インシデントを識別してコード化する研究プロジェクトを監督します。私たちは、あなたがここにデータセットを見ることができるなど、そして事件が起こったとき、関与行為者は、人々の数が殺さを追跡:機械学習/ NLP対キーワード構造化されていないデータを構造化データに変換するための検索
https://docs.google.com/spreadsheets/d/1_QYl4xhMu5nZVluprOgRs6rUzgkkBemapdsg5lFzKU/pubhtml
これは労働集約的なプロセスであると私はマシンを考えます学習が役に立ちます。私は最良のアプローチを見つけようとしています。
私の質問:各記事のコーディング方法を決定するために一連のキーワードを使用する方が良いですか?私。
if "boko haram" in article:
code Boko Haram
or
if [list of locations] in article:
code location
または、既存のデータセットと記事のテキストを使用して、機械抽出を使用してフィーチャ抽出を行うことはできますか?
いくつかの機能は簡単です。記事で暴力的なイベントが記述され、Boko Haramが記述されている場合は、Boko Haramをコーディングします。あるいは、爆弾が言及されていれば、爆弾をコードします。
さらに複雑なものもあります。イベントが「宗派的」であるかどうかを判断するには、民族間の紛争が参照される暴力的な出来事を探します(「フルナニ」、「イボ」など)
774地区のリストに基づいて場所をコードします。ここでの課題は、同じ場所に複数のスペルが存在することです。イベントは通常「最後の火曜日」または「水曜日の夜」と記述されるため、時間も複雑です。
私は少し前にTextBlobのNaive Bayesクラシファイアを使って場所を把握しようと試みました。私は2つの問題にぶつかった。私のプログラムは決して終わらないだろう。私は2,000ワードの記事でnlpを実行すると、Macbook Airが処理できるよりも多くのジュースが必要と仮定しています。もう1つは記事のテキストのエンコードの問題でした。私はpython 3に切り替えることでこれを解決するのに役立つと期待しています。
私はこれにいくつかの時間をシンクするつもりなら、私は取るべき最善の道に関するいくつかの推奨が大好きです。それが実際に機械学習であれば、ナイーブベイズ以外の何かを使うべきでしょうか?たぶん私は雲の中でこれを実行して、私はより多くの力を持っているはずですか? TextBlobとは別のパッケージですか?
ガイダンスは大歓迎です!