私は1,000,000のPDFファイルを持っており、そこからデータをスクラップしてデータベースを構築します。それらが生産こするようないくつかのデータ:pythonの正規表現を使用して文章内の別の部分を分割します
Mobile: 98-912-7990154Home: [email protected] 12 - No. 15 - West 19th Alley - South Varzi St. -West Ferdows Blvd. - Sadeghiyeh Sq.1483676479,Tehran
は、どのように私はそれらを分割することができますなどのデータている:
Mobile: 98-912-7990154 Home: 98-21-44157129 Email: [email protected] Address : Unit 12 - No. 15 - West 19th Alley - South Varzi St. -West Ferdows Blvd. - Sadeghiyeh Sq.1483676479,Tehran
あなたは何をしようとしましたか? 'ppouriya @ yahoo.comUnit'の間にスペースや改行がありますか? – depperm
フィールドの順序は常に同じですか?彼らに価値がない場合、彼らはどのように見えますか? (たとえば、自宅番号のない人、または電子メールがない人) –
いつもこの4つのフィールドになるのですか、それとももっとありますか? –