spacyを使用してストップワードを追加/削除する最良の方法は何ですか?私はtoken.is_stop
機能を使用しており、お手入れのためにいくつかの変更を加えたいと思います。私はドキュメンテーションを見ていましたが、ストップワードに関しては何も見つかりませんでした。ありがとう!spacyを使用したストップワードの追加/削除
答えて
あなたは(this postを参照)、このようなあなたのテキストを処理する前に、それらを編集することができます
>>> import spacy
>>> nlp = spacy.load("en")
>>> nlp.vocab["the"].is_stop = False
>>> nlp.vocab["definitelynotastopword"].is_stop = True
>>> sentence = nlp("the word is definitelynotastopword")
>>> sentence[0].is_stop
False
>>> sentence[3].is_stop
True
注:これは< = V1.8を動作するようです。新しいバージョンについては、他の回答を参照してください。
from spacy.lang.en.stop_words import STOP_WORDS
print(STOP_WORDS) # <- set of Spacy's default stop words
STOP_WORDS.add("your_additional_stop_word_here")
for word in STOP_WORDS:
lexeme = nlp.vocab[word]
lexeme.is_stop = True
はこれがセットにすべてのストップワードをロードします。
ああいいね。ありがとうございました! –
このソリューションは、バージョン1.9.0では動作していません。 'TypeError:整数が必要です 'というメッセージが表示されます –
@ E.K。同じ問題があった。下の私の答えを見てください。 – petezurich
は、バージョン2.0のために私はこれを使用していました。
ストップワードをSTOP_WORDS
に修正するか、最初に独自のリストを使用することができます。
バージョン2.0でこれを行い、 "ImportError:No module named en.stop_words" ... suggestions? – user1025852
@ user1025852私の答えを更新している場合。 – petezurich
'spacy.lang.en.stop_words'もエラーを返します。 – jxn
- 1. Pythonを使用したストップワードの削除
- 2. 単語egrepを使用したストップワードを使用しない頻度
- 3. jQuery FlexSliderを使用したスライドの追加または削除
- 4. spaCyを使用して句読点を削除する。現在
- 5. PHPを使用したcronジョブの追加/削除
- 6. Struts2 selectタグjavascriptを使用した値の追加/削除
- 7. ElasticsearchプラグインAzure RMテンプレートを使用した追加/削除
- 8. オプションを追加、削除、追加したときのピックリストエラー
- 9. MediaPlayerを使用したストリーミングオーディオのプログレスバー
- 10. CosmosDbを使用したストアドプロシージャのデプロイ
- 11. RestTemplateを使用したストリームファイルのダウンロード
- 12. テンプレートパラメータを使用してデータメンバーを追加/削除しますか?
- 13. ボタンを使用してサブビューを追加して削除する
- 14. JavaScriptを使用してフィールドを追加/削除する機能
- 15. .batを使用してキーボード言語を追加/削除する
- 16. jqueryを使用して追加イメージを削除する方法
- 17. カスタムカーソルクラスを使用してListViewに削除ボタンを追加する
- 18. JQUERYを使用してCSSファイルを追加/削除する
- 19. PHP Html5を使用したストリーミングビデオ
- 20. eclipseを使用したストレージプロジェクト
- 21. CodeIgniterを使用したストアドプロシージャ
- 22. WebRTCを使用したストリームメディアファイル
- 23. RTSPを使用したストリーミングウェブカメラ
- 24. エンティティフレームワークを使用したストアドプロシージャ
- 25. エンティティフレームワークとカスタムエンティティを使用したストアドプロシージャ
- 26. ピラミッドフレームワーク:Opencvを使用したストリームカメラ
- 27. コンパレータを使用したストリームソートメソッド
- 28. キャメルを使用したストリーミングJMS
- 29. IFを使用したストアドプロシージャ
- 30. デビットカードを使用したストライプチェック
完全なリスト: 'from spacy.en.word_sets import STOP_WORDS' – Xeoncross