text-mining

    0

    1答えて

    私はDirSourceを使用してディレクトリから作成したR内のコーパスxを持っています。各ドキュメントは、関連するvBulletinフォーラムのWebページの完全なHTMLを含むテキストファイルです。それはスレッドなので、各文書にはXPathでキャプチャしたい複数の別々の投稿があります。 XPathは機能しているようですが、キャプチャしたすべてのノードをコーパスに戻すことはできません。 私のコーパ

    1

    1答えて

    単語意味論的に類似した測定を提供するWebサービスはありますか? 私はDiscoを知っていますが、私は継続的な成長基盤を持つサービスを望んでいます(あなたのプロジェクトで試してみたら、最も役に立ちます)。 私はWordNetベースのアルゴリズムについても認識していますが、プロジェクトリソースの一部としてインストールして管理することは、重い負担となります。前もって感謝します。

    -2

    2答えて

    私は、人々の名前やスキルなどのデータを含む約30の.docx文書(履歴書)を持っています。私はこの情報の一部をスプレッドシートに取り込み、手作業を減らすために、テキストマイニングのアプローチを使うことができると考えました。 これらの文書からマイニング(半構造の並べ替え)に役立つツールやアプローチはありますか?

    23

    12答えて

    テキスト解析を行うためにRのtmパッケージを使用しようとしています。私は以下を結びつけました: require(tm) dataSet <- Corpus(DirSource('tmp/')) dataSet <- tm_map(dataSet, tolower) Error in FUN(X[[6L]], ...) : invalid input 'RT @noXforU Erneut r

    24

    2答えて

    本質的に私は、テキストファイル内の2つの角括弧内の4桁のコードを探しています。私は、テキストファイルを開いて行ごとに解析する必要があることを知っていますが、 "for line in file"をチェックした後に自分のコードを構造化する最良の方法がわかりません。 私は何とか分割、ストリップ、パーティションすることができますが、私はコンパイルに使用した正規表現を書いていますので、マッチオブジェクトを

    4

    2答えて

    Rのtmとパッケージを使って、ニュース記事のコーパスをトピックモデルにしています。しかし、私は""として表現されている "非文字"問題が発生しているので、私の話題はうんざりしています。ここに私のワークフローは次のとおりです。私はLDAモデルを訓練するとき text <- Corpus(VectorSource(d$text)) newtext <- lapply(text, tolower)

    1

    3答えて

    私は、彼のツイッタープロフィールを通じてユーザーの興味と関わりを分析するプロジェクトから始めています。彼のツイッターデータを分析することでどのような指標が得られますか?私ができると感じることは以下を含みます: 彼のつぶやきを分析することによって、ユーザーが最も関心を持つ話題(彼の興味)。 (ハッシュタグを分析することによって)彼が活動しているコミュニティ つぶやきを肯定的/否定的に分類することによ

    1

    3答えて

    私はパッケージtmを使用しています。私はhtml文書でいっぱいのコーパスを持っており、htmlタグ以外のすべてを削除したいと思います。私は数日間それをしようとしてきましたが、私は良い解決策を見つけることができないようです。例えば 、のは、私はこのような文書を持っているとしましょう: <html> <body> <h1>hello</h1> </body> </html> 私は、文書

    4

    2答えて

    段落から簡単な文を抽出するために使用できるアルゴリズムはありますか? 私の最終的な目標は、結果として得られた単純な文章で別のアルゴリズムを実行して、著者の感想を判断することです。 私はChae-Deug Parkのような情報源からこれを研究しましたが、訓練データとして単純な文章を準備することについては議論していません。事前

    3

    1答えて

    2つのhtmlソースがある場合は、最初にthisのようなものを使用してメインコンテンツを抽出します。 other better librariesはありますか?私は特にPython/Javascriptのものを探していますか? 2つの抽出されたコンテンツを取得したら、どれくらい似ているかを示す0〜1のスコアを返します。 CNNとBBCの同じトピックに関するニュース記事は、同じトピックにあるか、Am