corpus

    3

    1答えて

    匿名化されたユーザー操作を含むコーパスはありますか?同様に、多くのコールサービスやオンラインチャットサポートでは、「...などのために記録されているかもしれない」というメモがあるため、新しいAIの参照/テストの場と同様に、人間の対話の大きなサンプルを収集した技術?これは間違ったサイトで、 マシュー

    15

    1答えて

    にTMパッケージを使用して、複数のコーパスのトップN頻度の高い用語のデータフレームを作ります最終的のような出力テーブルで終わる:定義により corpus1 corpus2 "beach" "city" "sand" "sidewalk" ... ... [10th most frequent word] 、findFreqTerms(corpus1,N)戻っN回以上出現する用語のすべ

    3

    2答えて

    私は、Penn Treebank構造を扱うPythonデータ構造を探しています。これは、ツリーバンクがどのように見えるかのサンプルです:基本的に ((S (NP-SBJ (PRP He)) (VP (VBD shouted)) (. .))) 、私はのようなものを求めることができ、データ構造たい「対象NPの子供たちは何を?」 「どのような種類のフレーズが代名詞を支

    0

    1答えて

    私はDirSourceを使用してディレクトリから作成したR内のコーパスxを持っています。各ドキュメントは、関連するvBulletinフォーラムのWebページの完全なHTMLを含むテキストファイルです。それはスレッドなので、各文書にはXPathでキャプチャしたい複数の別々の投稿があります。 XPathは機能しているようですが、キャプチャしたすべてのノードをコーパスに戻すことはできません。 私のコーパ

    32

    3答えて

    私はPythonを使用してmysqlデータベースに接続しましたcon = _mysql.connect('localhost', 'dell-pc', '', 'test') 私が書いたプログラムは、完全実行、すなわち約10時間で多くの時間がかかります。実際には、私はコーパスから別個の単語を読み出そうとしています。 読み取りが終了した後、タイムアウトエラーが発生しました。 私がしたMySQLのデフ

    0

    1答えて

    皆さん、基本的に単純なXMLファイルであるNLTK用のコーパスセットをまとめました。私はそのようなことがうまくロードできます >>> from nltk.corpus import cicero >>> print cicero.fileids() ['cicero_academica.xml', 'cicero_arati_phaenomena.xml', ...] は今、私は右、それは

    22

    4答えて

    Creating a subset of words from a corpus in Rから、回答者はterm-document matrixを簡単にワードクラウドに変換できます。 生ワードのテキストファイルまたはNLTKコーパス、または​​Mmcorpusをワードクラウドに変換するPythonライブラリと同様の機能はありますか? 結果はやや次のようになります。

    6

    1答えて

    私はNTLK/Pythonの初心者で、CategorizedPlaintextCorpusReaderを使用して自分のコーパスを読み込むことができましたが、実際にテキストの分類にデータを使用してどのように使用しますか?あなたは言葉の機能のバッグとナイーブベイズ分類をしたいと仮定すると、 >>> from nltk.corpus.reader import CategorizedPlaintextC

    -1

    1答えて

    TF-IDF、ベクトルモデル、およびTF-IDFアルゴリズムの最適化を比較したいと思います。 そのためには、データセットが必要です(少なくとも100文字の英語テキスト)。私は1つを見つけることができません。助言がありますか ?

    3

    6答えて

    頻度辞書からリストの頻度ソートリストを作成するためのショートカットを見つけるのに役立つ必要があります。私はリストのリストを作成することができます(下記参照)。リストに各要素を追加し、各リストをリストのリストに追加します。 100以上に!より良い方法が必要です。 Pythonでの実行の dictionary = {'ab':2, 'bc':3, 'cd':1, 'de':1, 'ef':3, 'fg