JepはまだPythonで遊んでいます。単語とセクション(Python)からさらに20単語を抽出する
私は、選択された単語&のトピックを見つけるためのツールGensimを試してみることにしました。
私はどのようにテキストのセクションで単語を見つけ、それと一緒に20単語を抽出するのだろうと思った(そのスペキュラの単語の前の10単語とその特定の単語の後の10単語のように) Gensimを実行することができます。
私にとって難しいと思われることは、選択された単語が見つかったときに前後の単語を10個抽出する方法を見つけることです。私は前にnltkで遊んでいただけで、テキストを単語や文にトークン化するだけで、文章を取得するのは簡単でした。その特定の文の前と後のそれらの言葉または文章を引き続き得ることは、私がどのようにするかを理解することは難しいようです。混乱している人のために
(ここでの午前1時は、私は混乱を招く可能性がある)私は一例でそれを紹介します:できるだけ早くそれが完成していたとして
、すべての彼女の血がために、彼女の心に駆けつけ彼女は は雪白がまだ生きていたと聞いてとても怒っていた。 "しかし、今、" 彼女は自分自身に考えて、 "私は彼女を完全に破棄する何かを作ってくれるでしょう "こうして、彼女は彼女が を理解した後、彼女自身を変装する芸術によって中毒した櫛を作った、古い の未亡人の形を取った。彼女は7つの丘を越えて7人の矮小家の家に行きました。 と[15]ドアをノックして、「今日まで売るために良いお得!
私たちは言葉が白雪姫であると言うなら、私はこの部分が抽出された取得したいと思います:
彼女の心、彼女は白雪姫がまだ生きていたと聞いてとても怒っていたため。 「しかし、今、」 は「
10意志の単語の前にスノーホワイト後、彼女自身に彼女を思った。
また、代わりの文白雪姫の前と後の文を取得するのに十分クールですこれはNLTKで行うことができるかどうかで登場し、簡単です。
私が意味する、誰かが私を助けることができれば私は2つの解決策の一つに満足しなければならない最高の作品何でも。
、これはあまりにもGensimで行うことができれば...それは簡単です、そして私はそれにも満足しています。だから、3つの方法のいずれかがうまくいくでしょう...私はちょうど私の頭が空白なので、これがどのように行われるのか試してみたいと思っています。
ありがとう:
ここで効率的にitertoolsを使用して、それを行うための一つの方法です!あなたはそのようなインデックスを見つけることができるか分からなかった。 :) – N00programmer