text-mining

    1

    4答えて

    私は、txtファイルのすべての単語の出現を数える必要があるプロジェクトに取り組んでいます。 は例えば、私はこのようなテキストファイルを持っている: シルバーレイクは、IPO候補に探し何 業績によって押しつぶさ 3会社:アップル、シーラス・ロジック社、IBM IBMのパルミサーノ:あなたが100であることを取得する方法-Year Old Company 上記の3つの文がファイルにある場合、すべての単

    1

    2答えて

    私は今、前の行の続きであるいくつかの行があるので、ldiffファイルからこのようないくつかのラインを持っている dn: cn=dkalland_directs_ww,cn=org_groups,cn=beehive_groups,cn=groups,dc=oracle ,dc=com businesscategory: open cn: dkalland_directs_ww descri

    2

    3答えて

    私はPythonを学び始めていますが、テキストファイルをインポートし、総単語数をカウントし、特定の段落の単語数を数えます(各参加者によって、 'P1'、 'P2'など)、単語数からこれらの単語(P1など)を除外し、段落を別々に印刷します。私はこのコードを持って@James Hurfordへ ありがとう: words = None with open('data.txt') as f:

    -1

    3答えて

    私はWebからいくつかのテキストをマイニングするためのアプリケーションを作成しようとしていますが、テキストマイニングを実行する最良の方法は何か分かりません。 この質問で私が望むのは、テキストマイニングを実行するために最もよく使用されるテクニック/アルゴリズムが何であるかを知っていて、索引付けではなくドキュメントで情報検索を行うものです。

    2

    1答えて

    Rのk-meansクラスタリングに関する質問があります。実際には、私はこれに基づいてすべてをやっていますarticle。すべてはtmパッケージ内の例に基づいているので、データのインポートは必要ありません。 acqには50件の文書と20件の原文が含まれています。 library(tm) data("acq") data("crude") ws <- c(acq, crude) wsTDM <

    1

    3答えて

    検索クエリに基づいてローカルデータベースの文書を検索する検索エンジンを探しています。このプロセスにはWebページは含まれていません。それらには、一連のテキスト文書(pdfおよびdocファイル)のみが含まれています。 このプロセスでは、効率的な検索エンジンをご提案ください。

    7

    2答えて

    以下のようなデータがあるとします。オフィス ための準備Brakfast 11:10 user1が食べる朝食 11:15 USER1風呂に入る 11:30 user1の休暇USER1 11AM user1のブラシ 11:05 12pm user2ブラシ 1準備Brakfast User2が朝食 12:15 user2のお風呂に を取り12:30 user2のオフィス放置 11AMのユーザー3テイク風

    5

    2答えて

    ラベル付きトレーニングデータを必要とせずにカスタム制御ボキャブラリで名前付きエンティティ認識(NER)を行うことができるJavaライブラリを探しています。私はSEでいくつか検索しましたが、ほとんどの質問はむしろ非特異的です。 は、以下のユースケースを考えてみましょう: エディタは、CMS(約500語)に記事を入力しています。 テキストには、特定のドメインのエンティティへの参照(プレーンテキスト)が

    7

    4答えて

    私は、テキストを受け入れ、このテキストの単語の音声スペルを出力するシステムを構築しようとしています。 PythonとJavaでどんなライブラリを使うことができるかについてのアイデアはありますか?

    3

    3答えて

    サポートベクターマシン(SVM)を使用してドキュメント分類を実行しようとしています。私が持っているドキュメントは、電子メールのコレクションです。私はSVM分類器を訓練するために約3000の文書を持っており、私は分類が必要な約700の試験文書セットを持っています。 私は、バイナリDocumentTermMatrixを最初にSVMトレーニングの入力として使用しました。私は、テストデータでの分類について