text-mining

1熱

4答えて

私は、txtファイルのすべての単語の出現を数える必要があるプロジェクトに取り組んでいます。は例えば、私はこのようなテキストファイルを持っている：シルバーレイクは、IPO候補に探し何業績によって押しつぶさ 3会社：アップル、シーラス・ロジック社、IBM IBMのパルミサーノ：あなたが100であることを取得する方法-Year Old Company 上記の3つの文がファイルにある場合、すべての単

1熱

2答えて

VIM：特定の文字を持たない行を検索するにはどうすればよいですか？

私は今、前の行の続きであるいくつかの行があるので、ldiffファイルからこのようないくつかのラインを持っている dn: cn=dkalland_directs_ww,cn=org_groups,cn=beehive_groups,cn=groups,dc=oracle ,dc=com businesscategory: open cn: dkalland_directs_ww descri

2熱

3答えて

どのように会話の中の各人の語数を集計するのですか？

私はPythonを学び始めていますが、テキストファイルをインポートし、総単語数をカウントし、特定の段落の単語数を数えます（各参加者によって、 'P1'、 'P2'など）、単語数からこれらの単語（P1など）を除外し、段落を別々に印刷します。私はこのコードを持って@James Hurfordへありがとう： words = None with open('data.txt') as f:

-1熱

3答えて

テキストマイニングの基本的なアルゴリズムは何ですか？

私はWebからいくつかのテキストをマイニングするためのアプリケーションを作成しようとしていますが、テキストマイニングを実行する最良の方法は何か分かりません。この質問で私が望むのは、テキストマイニングを実行するために最もよく使用されるテクニック/アルゴリズムが何であるかを知っていて、索引付けではなくドキュメントで情報検索を行うものです。

2熱

1答えて

パッケージtm。 kmeansの問題

Rのk-meansクラスタリングに関する質問があります。実際には、私はこれに基づいてすべてをやっていますarticle。すべてはtmパッケージ内の例に基づいているので、データのインポートは必要ありません。 acqには50件の文書と20件の原文が含まれています。 library(tm) data("acq") data("crude") ws <- c(acq, crude) wsTDM <

1熱

3答えて

検索エンジンを使用してローカルデータベースから文書を検索する

検索クエリに基づいてローカルデータベースの文書を検索する検索エンジンを探しています。このプロセスにはWebページは含まれていません。それらには、一連のテキスト文書（pdfおよびdocファイル）のみが含まれています。このプロセスでは、効率的な検索エンジンをご提案ください。

7熱

2答えて

データマイニングの状況

以下のようなデータがあるとします。オフィスための準備Brakfast 11:10 user1が食べる朝食 11:15 USER1風呂に入る 11:30 user1の休暇USER1 11AM user1のブラシ 11:05 12pm user2ブラシ 1準備Brakfast User2が朝食 12:15 user2のお風呂にを取り12:30 user2のオフィス放置 11AMのユーザー3テイク風

5熱

2答えて

Javaでの架橋提案のためのカスタム制御ボキャブラリ付きネームドエンティティ認識（NER）

ラベル付きトレーニングデータを必要とせずにカスタム制御ボキャブラリで名前付きエンティティ認識（NER）を行うことができるJavaライブラリを探しています。私はSEでいくつか検索しましたが、ほとんどの質問はむしろ非特異的です。は、以下のユースケースを考えてみましょう：エディタは、CMS（約500語）に記事を入力しています。テキストには、特定のドメインのエンティティへの参照（プレーンテキスト）が

7熱

4答えて

PythonとJavaの音声スペル

私は、テキストを受け入れ、このテキストの単語の音声スペルを出力するシステムを構築しようとしています。 PythonとJavaでどんなライブラリを使うことができるかについてのアイデアはありますか？

3熱

3答えて

LSA/SVDを使用したドキュメント分類

サポートベクターマシン（SVM）を使用してドキュメント分類を実行しようとしています。私が持っているドキュメントは、電子メールのコレクションです。私はSVM分類器を訓練するために約3000の文書を持っており、私は分類が必要な約700の試験文書セットを持っています。私は、バイナリDocumentTermMatrixを最初にSVMトレーニングの入力として使用しました。私は、テストデータでの分類について