2012-01-13 9 views
2

英語の辞書&のすべての単語を繰り返して、名詞/動詞のいずれかであるかどうかに基づいてフィルタリングする必要があります。&特定の他の特性。これらの言葉の出典として私が使用できるものはありますか?英語辞書のすべての単語を反復するためのソース

+0

英語の辞書は?あなたはその辞書をお探しですか?名詞/動詞の場合はその値のような情報を含む「単語オブジェクト」を受け取っていませんか、他の情報なしの単純な単語だけを受け取っていますか?既にコードがありますか? – talnicolas

答えて

1

私はをprinceton.eduからお勧めします。スピーチ、例えばの

  1. ショート定義
  2. パート:それは言葉に人気の英語の語彙データベースは、次のような属性れます名詞、動詞、形容詞、& c。
  3. 同義語と

アプリケーションでのWordNetを使用して簡素化されますsmu.eduからWordNet Java APIありグルーピング。また、データベースをダウンロードして、それを唯一の12MBの圧縮ファイルとして解析することもできます。

2

WordNetに関して言えば、含まれていない「ストップワード」があります。オンラインでストップワードのリストを作成している人もいますが、どれほど完全であるかわかりません。 いくつかのストップワードは 'the'、 'that'、 'I'、 'to' 'from' ''です。

大きなリストはこちらです:ためには、 http://wordlist.sourceforge.net/

あなたはまた、そのようなリストのユースケースを検索することもできます。単語のリストについてはhttp://www.d.umn.edu/~tpederse/Group01/WordNet/wordnet-stoplist.html

は、このSourceForgeのプロジェクトを参照してください適切なデータソースを見つけることができます。例えば

  • スペルチェックのアルゴリズムは、単語リスト(スタンドアローンスペルチェッカー、OpenOfficeのようなワープロアプリケーションなど)を使用します。

  • 単語ゲームアルゴリズムは、ワード(スクラブルのタイプのゲーム、語彙教育ゲーム、クロスワードパズルジェネレータ)、弱いパスワードを見つけるためにアルゴリズムを使用する単語を割れ

  • パスワードを使用します。 outpost9.com/files/WordLists.html

はまた、から選択するには、いくつかのJava APIがありますし、最新の辞書(3.1)を有する唯一のいくつかの作業は、MITずつはWordNetの3.1でJava 5との言葉を使用しています。