私はNLTKでステムマーとリーマイタイザーの束を試してきましたが、私は何もしません。私は、 "放射線科医"、 "放射線科医"、 "心臓病学者"、 "心臓病学"などのような言葉をたくさん持っています... * ologistは* ologyと同じバケツに行きます。私はPorterStemmer、SnowballStemmer、WordNetのLemmatizerをPythonで試しましたが、何も同じバケットに送りません。これはステミングがこれを達成するはずだと思われますが、これは信じられないほど珍しい言葉ではありません。希望の結果を達成するにはどうしたらいいですか?* ologistや* ologyのような言葉をどのようにして同じ根に幹/字形にするか?
1
A
答えて
0
このようなものはありますか?
>>> s = 'cardiology'
>>> s = s[:-5] if s.endswith('ology') else s
>>> s = s[:-7] if s.endswith('ologist') else s
>>> s
'cardi'
>>> s = 'cardiologist'
>>> s = s[:-5] if s.endswith('ology') else s
>>> s = s[:-7] if s.endswith('ologist') else s
>>> s
'cardi'
1
あなたはMorfessorを見ましたか?それはモーフセグメンテーションアルゴリズムの束を特色にしています。明らかに、このツールを使用して、探している分析の種類が可能です。ここにリンク[1]です:http://asr.aalto.fi/morfessordemo/
関連する問題
- 1. パラメータパラドックス? (どのように言葉にわからない)
- 2. 同じようなカードを見せないように、どのようにタイダーのようなアプリですか?
- 3. どのように文字列を同じバイトサイズにする
- 4. GROK learning-私はGROKの学習に質問をやっている「どのように多くの言葉」
- 5. JSの言葉/表現をどのように翻訳するのですか?
- 6. 同じ言葉(perlの)
- 7. すべてのデバイスで同じ距離になるようにどのようにスケールするのですか?
- 8. 言葉の文字列が言葉で終わるかどうかをどうやって判断できますか?
- 9. "the"という言葉を無視して、mysqlのタイトル順にどうやって注文しますか?
- 10. ソーシャルメディアボタンはどのようにして同じサイズになりますか?
- 11. FastTextで似たような言葉を見つけるには?
- 12. ruby言語としてmongodbと同じように検索
- 13. 別のアルファベットで同じIDをどのように増やすのですか?
- 14. 大文字と小文字を同じように扱うにはどうすればよいですか?
- 15. どのようにこれは簡単な質問かもしれないが、どのように私は言葉を分割しないのJavaScript
- 16. ピクセルをどのようにして軸を同じサイズにするか?
- 17. 動的に私はこのようなデータと同じようにJSONを持っている形
- 18. Kotlinどのように連鎖フィールドにJavaのような他のプログラミング言語で同じデータ型
- 19. どのようにして、同じ形式のテーブル形式のアイコンとテキストを作成できますか
- 20. どのようにルビーで同等ではないと言うのですか?
- 21. どのようにリファクタリングメソッド呼び出しは同じように見える?
- 22. なぜ、1桁の数字と同じように、大きな数字の場合も同じようにインクリメントが行われないのですか?
- 23. どのようにフィルタと同じ値
- 24. はどのように同じキー
- 25. どのように同じルート
- 26. 長い言葉が箱から流出している - どのように防止するには?
- 27. 文中に「will」という言葉を見つけよう。
- 28. console.logsの出力値が同じになるようにするにはどうすればよいですか?
- 29. 文字列の形式が入力値の形式と同じかどうかをどのように知ることができますか? Javaの
- 30. UIbuttonのポイントをキャッスルパッドのように同じ形にするには
私はそれが私が意味するものではありません知っている。 – Eli
実際には、既存のレーマタイザー/ステムマーを「ハックする」最適な方法を見つけるために、データがどのように見えるかによって異なります。あなたのデータの代表的なサンプルを共有することは、答えを改善するのに役立ちます=) – alvas