NLTKで使用したいテキストを含む何百ものファイルがあります。各行はがないが新しい文を含んでいますデータからコーパスをカスタム形式で作成する
বে,বচা ইয়াণ্ঠা,র্চা ঢার্বিত তোখাটহ নতুন, অ প্রবঃাশিত। তবে ' এ বং মুশায়েরা ' পত্রিব্যায় প্রকাশিত তিনটি লেখাই বইযে সংব্যজান ব্যরার জনা বিশেষভাবে পরিবর্ধিত। পাচ দাপনিকেব ড:বন নিয়ে এই বই তৈরি বাবার পরিব্যল্পনাও ম্ভ্রাসুনতন সামন্তেরই। তার আর তার সহকারীদেব নিষ্ঠা ছাডা অল্প সময়ে এই বই প্রব্যাশিত হতে পারত না।,তাঁদের সকলকে আমাধ নমস্কার জানাই। বতাব্যাতা শ্রাবন্তা জ্জাণ্ণিক জানুয়ারি ২ ণ্ট ণ্ট ৮ Total characters: 378
注:ここではそのようなファイルです。むしろ、センテンスターミネータは、英語のピリオドと同じですが、 '。'シンボル。
誰かが私のコーパスを作成するのを手伝ってもらえますか?変数MyDataにインポートすると、MyData.words()とMyData.sents()にアクセスする必要があります。また、最後の行はコーパスに表示されるべきではありません(単に文字カウントが含まれています)。
からすべてのデータを操作する必要があることに注意してください。ファイルは一度にです。
ありがとうございます!
_corpus_が何であるかを説明すると... – C2H5OH
コーパスは大量のテキストです。私はNLTKコーパスリーダーを使用する予定です(または、必要に応じて自分自身を書く)。 NLTKを使っている人は、コーパスが何であるかを知っているでしょう。 –
@ C2H5OH http://en.wikipedia.org/wiki/Text_corpus – javanna