として列に複数の単語を使用しますPythonのパンダは、私は、次のパンダのデータフレームDFを持つインデックス
Book_Title_word | Revenue
you 300
I 300
don't 200
know 200
what 200
have 200
done 200
last 100
summer 100
loved 100
私とあなたが両方のタイトルで、収益は彼らのために合計されたされた言葉なので:大文字と小文字はこれが最終目標であるDF2)
問題ではないはず。
これはPythonで実現可能ですか?収入を使用しているとき、私は、より大きな数字を使用していますので-ZA-zは、科学的表記fromat( '2.155051e-01')であるが提供する
:
は
非常UPDATE、ありがとうございました。Book_Category | Book_Title | Revenue | Quantity
A ...what ... 3459283 45757
B what ... 4376899 35657
C .....what 4567856 7689
df_new = pd.DataFrame(df['Book_Title'].str.split(' ').tolist(), index=df['Revenue']).stack().reset_index()[[0, 'Revenue']]
df_new.columns = ['Book_Title_word', 'Revenue']
df_new.Book_Title_word = df_new.Book_Title_word.str.lower()
df_new.groupby('Book_Title_word').sum().sort_values(by = 'Revenue',ascending = False)
Book_Title_word | Revenue
what 2.160651e-01
これは私が(何らかの二次研究・ラムダ関数...に)これは、計算に最適であるかどうかわからないですこの答えFormat/Suppress Scientific Notation from Python Pandas Aggregation Results
この回答に感謝します - それはうまくいきますが、収益のために得られる数値はこの形式です2.155051e-01-それを避ける方法はありますか?また、RevenueとQuantity_boughtのように2つのメトリックを追加したい場合は、 Quantity_boughtをインデックスに追加するだけですか? – jeangelj
使用しているサンプルのスニペットを提供できますか?問題を理解するのが簡単です – Vaishali
ありがとう - 私はデータの例を追加しました。私は収入と量を合計し、科学記法のフォーマットを避けたいと思います。 .format()を使用できますか? – jeangelj