2012-01-01 9 views
16

私は自分自身で常に新しいものを学ばなければならないことが分かります。私は新しい科目を学ぶ過程を早くする方法を考えようとしてきました。私は、ウィキペディアの記事を解析し、最も重要な情報以外のすべてを取り除くプログラムを書くことができたら、それはうまくいくかもしれないと思った。ウィキペディアを要約する記事

私は、最初の100文章を抽出して、PDFsというウィキペディアの記事を取り上げました。私はそれがどれほど価値があると思ったかに基づいて、各文章にスコアを付けました。私は、このファイルを解析され、私はそれを与えていた値で、それぞれの文を相関するであろう様々な機能を見つけることを試み

<sentence> 
<value> 
<sentence> 
<value> 
etc. 

:私は、このフォーマットは、以下のファイルを作成することになりました。私はちょうど機械の学習と統計情報とそれ以外のものについて学び始めています。だから私はここで多くのことをやっています。これは私の最新の試みです:https://github.com/JesseAldridge/Wikipedia-Summarizer/blob/master/plot_sentences.py

平均的な単語の長さ、記事内の位置など、何の相関もほとんど生成していないようなものを試してみました。どんな種類の有用な関係を作り出した唯一のものは、文字列の長さ(具体的には、小文字の「e」の数を数えると最も効果的でした)。しかし、長い文章は有益な情報を含む可能性が高いことが明らかであるように見えますが、それは分かりにくいようです。

私はいくつかの興味深い機能を見つけたと思っていましたが、外れ値を取り除こうとしたときに、内側の四分位数を数えるだけで、結果が悪くなり、すべての文に対して0が返されました。これは私が間違っているかもしれない他の多くのことについて疑問に思いました...私はまた、これがこの問題に近づく良い方法であるかどうかも疑問に思っています。

私は正しい方向にいると思いますか?それとも、これはちょうど愚か者の使命ですか?リンクされたコードに眩しい欠点はありますか?誰でもウィキペディアの記事を要約するという問題にアプローチするより良い方法を知っていますか?私はむしろ、一緒にまとめるのに長い時間を要する完璧なものよりも迅速で汚れた解決策をとるだろう。どんな一般的な助言も歓迎されるでしょう。

+0

次は、スキャンした記事をさらに短くするためにnewspeakを使用してください。 – tylerthemiler

+4

あなたは明らかに古すぎます。この種のものを16歳にしておく。http://www.wired.com/gadgetlab/2011/12/summly-app-summarization/ – ColinE

+0

:)サマリーは冷静に見える。私は私のiPodでそれを実行することはできませんが、私はレビューを読むことができます。彼らはかなり混ざっていた。私はそれがうまく動作しないという印象を受けました。 –

答えて

13

あなたの質問がプログラミング上の問題よりも研究活動に関連していることを考慮すると、おそらく科学文献を見るべきです。ここでは、あなたが望むものを正確に実行する多数のアルゴリズムの公開された詳細を見つけることができます。 「キーワード要約」のためのGoogle検索では、次を発見:

Single document Summarization based on Clustering Coefficient and Transitivity Analysis

Multi-document Summarization for Query Answering E-learning System

Intelligent Email: Aiding Users with AI

あなたは上記を読んでいる場合、それらに含まれる参考文献に従ってください、あなたは全体の富を見つけるだろう情報の機能的なアプリケーションを構築するのに十分です。

+2

わかりましたので、構文依存関係分析に基づいて依存グラフを作成し、ノード接続を測定するためにクラスタリング係数を使用するだけです。それでは、ノードの三角形を引っ張ってキーセンテンスを抽出するという単純な問題です。 ffs ...素早く汚​​れているほど。真剣に、しかし、論文のおかげで。それは私が得ることができる最高の情報です。 –

+4

ねえ...その論文のキーワードを正常に要約しました。おそらく、これは機械的なトルコの仕事です! – ColinE

1

ちょうど私の2セント...

私はウィキペディアに新しい件名を閲覧してる時はいつでも、私は一般的に「幅優先」探索を行います。 と、ページが接続するすべてのリンクをスキャンするまで、私は別のトピックに移動することを拒否します。これは、私がまだ慣れていないトピックを紹介します。私は各段落のの最初の文章を読んで、元のトピックに関連しているような記事を見ると、私はこのプロセスを繰り返します。

私はウィキペディア「サマライザ」のためのインターフェースを設計した場合、私は

  1. 常に全体の入門段落を印刷します。

  2. 記事の残りの部分には、リンクがある文章をすべて印刷してください。

    2a。カンマ区切りのリンクリストを箇条書きリストとして表示します。

  3. 記事へのリンクが「展開済み」の場合、その記事の最初の段落を印刷します。

  4. この冒頭の段落が展開されている場合は、リンク付きの文のリストを繰り返します。

このプロセスは無期限に繰り返す可能性があります。

私が言っていることは、ウィキペディアの記事を要約することは、雑誌の記事を要約することと同じではなく、ブログに投稿することと同じではないということです。クロールの行為は、Wikipediaを介して導入概念を素早く学習する上で重要な部分であり、それが最良のものだと感じています。通常、記事の下半分はcitation neededタグがポップアップを開始するところですが、記事の前半はコミュニティの知識とみなされます。