私は自分自身で常に新しいものを学ばなければならないことが分かります。私は新しい科目を学ぶ過程を早くする方法を考えようとしてきました。私は、ウィキペディアの記事を解析し、最も重要な情報以外のすべてを取り除くプログラムを書くことができたら、それはうまくいくかもしれないと思った。ウィキペディアを要約する記事
私は、最初の100文章を抽出して、PDFsというウィキペディアの記事を取り上げました。私はそれがどれほど価値があると思ったかに基づいて、各文章にスコアを付けました。私は、このファイルを解析され、私はそれを与えていた値で、それぞれの文を相関するであろう様々な機能を見つけることを試み
<sentence>
<value>
<sentence>
<value>
etc.
:私は、このフォーマットは、以下のファイルを作成することになりました。私はちょうど機械の学習と統計情報とそれ以外のものについて学び始めています。だから私はここで多くのことをやっています。これは私の最新の試みです:https://github.com/JesseAldridge/Wikipedia-Summarizer/blob/master/plot_sentences.py。
平均的な単語の長さ、記事内の位置など、何の相関もほとんど生成していないようなものを試してみました。どんな種類の有用な関係を作り出した唯一のものは、文字列の長さ(具体的には、小文字の「e」の数を数えると最も効果的でした)。しかし、長い文章は有益な情報を含む可能性が高いことが明らかであるように見えますが、それは分かりにくいようです。
私はいくつかの興味深い機能を見つけたと思っていましたが、外れ値を取り除こうとしたときに、内側の四分位数を数えるだけで、結果が悪くなり、すべての文に対して0が返されました。これは私が間違っているかもしれない他の多くのことについて疑問に思いました...私はまた、これがこの問題に近づく良い方法であるかどうかも疑問に思っています。
私は正しい方向にいると思いますか?それとも、これはちょうど愚か者の使命ですか?リンクされたコードに眩しい欠点はありますか?誰でもウィキペディアの記事を要約するという問題にアプローチするより良い方法を知っていますか?私はむしろ、一緒にまとめるのに長い時間を要する完璧なものよりも迅速で汚れた解決策をとるだろう。どんな一般的な助言も歓迎されるでしょう。
次は、スキャンした記事をさらに短くするためにnewspeakを使用してください。 – tylerthemiler
あなたは明らかに古すぎます。この種のものを16歳にしておく。http://www.wired.com/gadgetlab/2011/12/summly-app-summarization/ – ColinE
:)サマリーは冷静に見える。私は私のiPodでそれを実行することはできませんが、私はレビューを読むことができます。彼らはかなり混ざっていた。私はそれがうまく動作しないという印象を受けました。 –