text-analysis

    1

    1答えて

    私はSarah Palinの14,500通の電子メールで30件のトピックを識別するこのcode from github(1-2-3ステップに続いて)を実行しようとしました。著者が発見したトピックはhereです。しかし、Stanford Topic Modeling Toolboxは私のためにlda-outputディレクトリを作成していません。 lda-86a58136-30-2b1a90a6が作成

    6

    1答えて

    コードパターンを解析するためにクライアント側で使用できるJavaScriptコードアナライザはありますか? 私は以下を見つけましたが、これは通常のテキストのためのもので、=という記号などを表示しているようです。クライアント側(JSコード)で実行できるコード分析が必要です。 function parseData() { var rawData = document.getElement

    2

    1答えて

    私は、JavaでプログラミングされたWebページの形式で書式なしのテキストをレンダリングする必要があるユースケースを持っています。すなわち、テキストは自動的にスタイル、段落、箇条書きなどのようなWebページのようにフォーマットされます。 まず、書式なしのテキストを分析して段落、箇条書き、見出しなどの候補を見つけなければなりません。私はこの作業にLuceneアナライザ/トークナイザを使う予定です。選

    2

    3答えて

    与えられたテキスト(タイトル)で重要な単語の集合を取得するJavaライブラリがありますか? EDITED:重要なことは、文章の主なアイデアを定義していることを意味します。 ありがとうございます。

    4

    2答えて

    Rのtmとパッケージを使って、ニュース記事のコーパスをトピックモデルにしています。しかし、私は""として表現されている "非文字"問題が発生しているので、私の話題はうんざりしています。ここに私のワークフローは次のとおりです。私はLDAモデルを訓練するとき text <- Corpus(VectorSource(d$text)) newtext <- lapply(text, tolower)

    7

    1答えて

    「食べる」「食べる」「食べる」のような文字列に変換したい。私は検索して、解法としてlemmatizationを見つけましたが、私が遭遇したすべてのlemmatizerツールは、ワードリストまたは辞書検索を使用しています。辞書ルックアップを避け、高効率を与えるルミナタイザーはありますか?ルームタイザーはルールに基づいているかもしれません。はい、私は "茎"を探していません。

    8

    5答えて

    文字列が別の単語の省略形である可能性があるかどうかを調べるためにPythonアルゴリズムを開発しようとしています。それは単語の最初の文字と一致するため、例えば fckはfc kopenhavnの一致です。 fhkは一致しません。 fcoは、と一致してはいけません。FC KopenhavnをFCOと略すことはないためです。 irlはin real lifeと一致します。 ifkはifk gotebo

    5

    4答えて

    私は文法学校の満足度や一般的な問題を調査することを目的とした生徒のチームの「プログラマー」です。私たちは1-6の尺度に基づいて作成された質問を持っており、私はこれらの答えをPythonで書いたダイアグラムソフトウェアで解釈します。 私たちの質問の最後に、好きなように使うことができる<textarea>があります。 私は現在、このデータを使用可能にする方法を考えています(私たちは800以上の回答を読

    1

    2答えて

    これまで使用されていなかったいくつかの新しいデータソースを使って、素朴なベイズを育てようと考えています。私はすでにIMDBレビューのLee & PangコーパスとMPQAの意見コーパスを見てきました。私は、次の基準に適合する新しいWebサービスを探しています。 簡単に分類 - のような/嫌いか 入手が容易な5つ星評価の新素材へ 関係ここ (最初の二つよりも重要)を持っている必要がありますいくつかの

    0

    1答えて

    フレーズ検索では、完全一致(ストップワードを無視しない)の場合にのみ結果を表示します。フレーズでない検索の場合は、単語のルートフォームなどが一致しても結果を表示できます。 現在のところ、standardTokenizer、StopFilter、PorterStemFilter、LowerCaseFilterでデータを渡しています。これにより、ユーザが「パスワード管理」を検索したい場合には、「パスワ