n-gram

    4

    1答えて

    私は文字列入力を受け、Google APIを使ってランク付けされた書籍リストを返すAndroidアプリを開発しています。 私は、入力した内容が1つの本である可能性が高いかどうかを確認するために、ユーザーが入力するオープンエンドの文字列をリストの最初の項目と比較する方法を探しています。私は本、タイトル、著者、説明などの情報がたくさんあるので、どこでも検索できます。 例は次のとおりです。 'eyr

    1

    3答えて

    Googleが人気のある通路ブロックの機能をどのように作成したかについて、誰かが理解しているか、知っているか、包括的な文献やソースコードを指し示すことができるかどうか不思議です。しかし、あなたが同じことをすることができる他のアプリケーションについて知っていれば、あなたの答えも投稿してください。 私が何を書いているのかわからないなら、人気のある通路のhere is a link to an exam

    1

    3答えて

    私はスペルチェッカーのバリエーションを実装しています。時間効率を向上させるためにさまざまなルートをとった後、私は、n-gramモデルの使用を含むコンポーネントを試す予定です。だから本質的には、今後の処理のために候補者候補のリストを整理したい。皆さんは、nの1つの値(例えば2)を使用する方が他のもの(3と言う)よりも優れているかどうか知っていますか?

    6

    2答えて

    検索用語のリストを「記入」するアルゴリズム(自然言語処理技術に依存していると思われます)を記述しようとしています。私が気付いていないこの種の名前がおそらくあります。この種の問題は何と呼ばれ、どのようなアルゴリズムが私に次のような振る舞いを与えますか? 入力: docs = [ "I bought a ticket to the Dolphin Watching cruise",

    3

    2答えて

    スペクトルカーネル関数は、2つの文字列の間で同じnグラムを数えることによって文字列に対して作用します。たとえば、 'tool'には2つの2グラム( 'to'、 'oo'、 'ol')があり、 'tool'と 'fool'の類似度は2です( 'oo'と 'ol'は共通しています) )。 このメトリックを計算するMATLAB関数を作成するにはどうすればよいですか?

    0

    1答えて

    私は、各行で複数の単語の一部にパターン「マイニング」をしようとしています。私は各単語の頻度を与えるperlのText :: Ngramsモジュールを使ってN-gram解析を行った。しかし、私はこのテキストのパターンを見つけることについてかなり混乱しています。 tf-idfも頻度を見つけますが、これはNgram分析とどのように違うのですか?類似性指標も役立ちます。 このコンセプトのいくつかを理解する

    3

    2答えて

    Googleのような自動補完方法の1つは、シングルとソルバー1.4のタームベクトルコンポーネントを組み合わせることです。 まず、帯状疱疹成分を含むすべてのnグラム分布を生成し、次にtermvectorを使用して、ユーザーの用語シーケンス(文書の頻度に基づく)に最も近い予測を得る。 スキーマ: <fieldType name="shingle_text_fivegram" class="solr.T

    4

    3答えて

    入力テキストからnグラムの確率を自動的に生成するパッケージやモジュール(できればPythonやPerlなどがあります)を探していて、自動的に1つ以上のスムージングを適用できますアルゴリズムも同様です。 つまり、NLTK NgramModelクラスのようなものを探しています。私は私の目的のためにこれを使用することはできません。なぜなら、前に見たことのない単語の確率を尋ねるときに、スムージング関数にい