2017-06-26 5 views
0

私はpandasデータフレームにデータを持っています。私は "Impact Factor:"で始まり "&#"で終わる文字列の間のすべての内容を抽出する必要があります。コンテンツに「Impact Factor:」がない場合は、データフレームのその行にnullが必要ですパンダデータフレームの2つの文字列の間のすべてのコンテンツを抽出する必要があります

これは単一行のサンプルデータです。ジャーナル2と引用は500 &#その他の情報&#IDS番号レポート:私は以下のような内容にしたいEW5UR &#

をEndNoteにオンライン&#マークリストに&#インパクトファクターを追加する保存

データフレーム。 ジャーナル2と引用ジャーナル6 500 レポートと引用は120 ジャーナル50レポートと引用は360 ジャーナル30レポートと引用は120

答えて

0

こんにちはあなたはちょうどここに正規表現を使用することができますレポート:

result = your_df.your_col.apply(lambda x: re.findall('Impact Factor:(.*?)&#',x)) 

あなたを空白を取り除きたい場合は、次のようにしてください:

result = your_df.your_col.apply(lambda x: re.findall('Impact Factor:\s*(.*?)\s*&#',x)) 
関連する問題