corpus

3熱

1答えて

匿名化されたユーザー操作を含むコーパスはありますか？同様に、多くのコールサービスやオンラインチャットサポートでは、「...などのために記録されているかもしれない」というメモがあるため、新しいAIの参照/テストの場と同様に、人間の対話の大きなサンプルを収集した技術？これは間違ったサイトで、マシュー

15熱

1答えて

私はへの文書の各セットの10件の最も頻度の高い用語を検索したいR.</p> <p>に<code>tm</code>パッケージで作成したいくつかの<code>TermDocumentMatrix</code>秒を持っているR

にTMパッケージを使用して、複数のコーパスのトップN頻度の高い用語のデータフレームを作ります最終的のような出力テーブルで終わる：定義により corpus1 corpus2 "beach" "city" "sand" "sidewalk" ... ... [10th most frequent word] 、findFreqTerms(corpus1,N)戻っN回以上出現する用語のすべ

3熱

2答えて

TreebankのPythonデータ構造

私は、Penn Treebank構造を扱うPythonデータ構造を探しています。これは、ツリーバンクがどのように見えるかのサンプルです：基本的に ((S (NP-SBJ (PRP He)) (VP (VBD shouted)) (. .))) 、私はのようなものを求めることができ、データ構造たい「対象NPの子供たちは何を？」「どのような種類のフレーズが代名詞を支

0熱

1答えて

Rコーパス内の各文書のXPath

私はDirSourceを使用してディレクトリから作成したR内のコーパスxを持っています。各ドキュメントは、関連するvBulletinフォーラムのWebページの完全なHTMLを含むテキストファイルです。それはスレッドなので、各文書にはXPathでキャプチャしたい複数の別々の投稿があります。 XPathは機能しているようですが、キャプチャしたすべてのノードをコーパスに戻すことはできません。私のコーパ

32熱

3答えて

Pythonで接続するときのデフォルトのMysql接続タイムアウトを変更する方法はありますか？

私はPythonを使用してmysqlデータベースに接続しましたcon = _mysql.connect('localhost', 'dell-pc', '', 'test') 私が書いたプログラムは、完全実行、すなわち約10時間で多くの時間がかかります。実際には、私はコーパスから別個の単語を読み出そうとしています。読み取りが終了した後、タイムアウトエラーが発生しました。私がしたMySQLのデフ

0熱

1答えて

NLTKでコーパスの複数のXMLファイルを読み込み、Textクラスで全体として使用する方法は？

皆さん、基本的に単純なXMLファイルであるNLTK用のコーパスセットをまとめました。私はそのようなことがうまくロードできます >>> from nltk.corpus import cicero >>> print cicero.fileids() ['cicero_academica.xml', 'cicero_arati_phaenomena.xml', ...] は今、私は右、それは

22熱

4答えて

Pythonのコーパスからワードクラウドを作成するには？

Creating a subset of words from a corpus in Rから、回答者はterm-document matrixを簡単にワードクラウドに変換できます。生ワードのテキストファイルまたはNLTKコーパス、またはMmcorpusをワードクラウドに変換するPythonライブラリと同様の機能はありますか？結果はやや次のようになります。

6熱

1答えて

Python NLTKでカテゴリ分類に自分のコーパスを使用

私はNTLK/Pythonの初心者で、CategorizedPlaintextCorpusReaderを使用して自分のコーパスを読み込むことができましたが、実際にテキストの分類にデータを使用してどのように使用しますか？あなたは言葉の機能のバッグとナイーブベイズ分類をしたいと仮定すると、 >>> from nltk.corpus.reader import CategorizedPlaintextC

-1熱

1答えて

TF-IDFおよびベクトルモデルのデータセットヘルプ

TF-IDF、ベクトルモデル、およびTF-IDFアルゴリズムの最適化を比較したいと思います。そのためには、データセットが必要です（少なくとも100文字の英語テキスト）。私は1つを見つけることができません。助言がありますか？

3熱

6答えて

Pythonで頻度辞書のリストを作成する

頻度辞書からリストの頻度ソートリストを作成するためのショートカットを見つけるのに役立つ必要があります。私はリストのリストを作成することができます（下記参照）。リストに各要素を追加し、各リストをリストのリストに追加します。 100以上に！より良い方法が必要です。 Pythonでの実行の dictionary = {'ab':2, 'bc':3, 'cd':1, 'de':1, 'ef':3, 'fg