私は特に欠損値を扱うデータを前処理しようとしています。 私は単語のリストとテキストデータを持つ2つの列を持っています。リストから単語を2つのテキスト列の少なくとも一つである場合、私は言葉条件のリストからの単語の欠損値の入力
import pandas as pd
a=['coffee', 'milk', 'sugar']
test=pd.DataFrame({'col':['missing', 'missing', 'missing'],
'text1': ['i drink tea', 'i drink coffee', 'i drink whiskey'],
'text2': ['i drink juice', 'i drink nothing', 'i drink milk']
})
で行方不明埋めるので、データフレームは次のようになり、列「colが」(fillnaを適用した結果として、「行方不明」あり私は100 000行と、リスト内の2000の要素でループ
を適用するようなコードを思い付いた)
Out[19]:
col text1 text2
0 missing i drink tea i drink juice
1 missing i drink coffee i drink nothing
2 missing i drink whiskey i drink milk
の「欠落して」「」それは仕事を終えるために周りに870秒かかります。 巨大なデータフレームで高速化するソリューションはありますか? 事前のおかげで
あなたがここに 'pandas'を使用していますか?ここで不要なタグをいくつか削除して、そのタグを追加して、[mcve]を提供するようにしてください。 –
欠けている値を示す列はどれですか? – Tanu
fillna( "missing")を適用した結果、列 "col"に "missing"が発生しました – Yury