stop-words

    -1

    1答えて

    ストップワードリストから " - "文字を削除しようとしていますが、できません。私は、システム停止リストから継承したカスタム停止リストを作成しました。ストップリストから " - "を削除しようとすると、SQL Serverはその文字がストップリストにないことを通知します。これは私が使用しているSQL文です: ALTER FULLTEXT STOPLIST "mystoplist" DROP '-'

    -1

    3答えて

    私は自分のストップワードの削除を書くために何か手がかりがあるのだろうかと疑問に思います。私はHashSetを作成した後、外部ライブラリを使用したくありません。テキストの停止単語?もう一度、私は任意の外部ライブラリを使用したいと思います。

    20

    3答えて

    私はこのための良い解決策を見つける難しさのかなりのビットを抱えているためにストップワードをオフにします"名"。私はこのコラムのフルテキストカタログを持っています。ユーザーは「とても良い会社」で検索した場合、私のクエリは次のようになります。 SELECT ssw.* FROM sys.fulltext_system_stopwords ssw WHERE ssw.l

    7

    2答えて

    grepをstopwords-fileとともに使用して、別のファイルから共通の英語単語を除外したいと考えています。ファイル "somefile"には1行に1語が含まれています。 cat somefile | grep -v -f stopwords このアプローチの問題点は次のとおりです。それは、ストップワードのワードがsomefileという中で発生するかどうかをチェックしますが、私は反対のこ

    2

    2答えて

    私はタグ付けして保存したいプレーンテキストコーパスを持っています。これを行う最善の方法は何ですか? 私はすでにタグ付けがなされていますが、私はあなたが簡単なユニグラムタギングをやっている、またはあなたが実際にテキストを解析している

    0

    4答えて

    機能私は悪い言葉の一つは、正常に動作するようです配列$stopwords function stopWords($string, $stopwords) { $stopwords = explode(',', $stopwords); $pattern = '/\b(' . implode('|', $stopwords) . ')\b/i'; if(preg_mat

    4

    2答えて

    私は映画「Yes、We're Open」に関する情報を含む映画データベースを持っています。 データベースを検索しているときに「私たちは開いています」という検索で「we're」と「open」という単語が含まれていますが、「yes」ではありませんブール値モードですべての単語が必要な場合でも(クエリが送信される前に「はい、私たちは開いています」は'+yes +we\'re +open'に変換されます)。

    0

    1答えて

    単語bigramとその頻度をテキストファイルで検索するmatlabプログラムを作成しました。この目的のために、私はtextread関数を使って文字列のセル配列を作成しました: unigrams = textread( 'file.txt'、 '%s'); また、 'to'、 'the'、 'is'、 'or'など特殊文字 '#'、 '$'、 '&'、 '%'などの単語を省略したい場合は、私の細胞ア

    1

    1答えて

    私は基本的に単語「単独で」を取り出した変更されたストップワードリストファイルを持っています。私は、MySQLが実際に新しい変数を拾っていることを示すために、以下のなかった、私のMySQLサーバを再起動した後、私の/etc/my.cnf ft_stopword_file=/etc/new_stopwords_list.txt を更新しました。 その後、インデックスを更新するためにREPAIR T

    5

    2答えて

    ブックのタイトルフィールドを持つテーブルがあります。私はこのようなレコードをソートできるようにしたいと思います: 古代ワニの おばさんアニーのアリゲーター ワニ Countrifiedワニへの完全なガイド アリゲーターをタッチしないでください。 ! アン楽アリゲーター・ハント というように、「A」、「アン」を、無視して&「」彼らは、タイトルの最初の単語として表示されたとき。 これらはSQL Ser