タイのレストランにいくつかのデータを網かけしました。私は現在アドレス欄の問題を抱えています。その理由は、アドレスが次の行に移動したときに、擦り傷はそれを結合してスペースを残さないことにしたからです。例えば、Excel:アドレスの解析
22/F, Dusit Thani Bangkok946 Rama 4 RoadBangkokThailand
1/F, Oakwood Residence113 Thonglor Soi 13BangkokThailand
G/F, Ocean Tower IISukhumvit Soi 21WattanaBangkokThailand
最初のエントリでは、kと9とdとBの間にスペースが必要ですが、他のエントリについても同様です。
私は現在、hereからデータをスクラップするためにBeautifulSoupを使用しています。誰かがこれを解析する方法やHTMLを掻き取るためのより良い方法で私を助けてくれるなら、私はすべての耳です。私は手動で280 +アドレスのエントリを変更しないことをお勧めします。
数字から文字を区切る最初の部分はあまりにも厄介ではありません。次の問題は、「バンコク」から「道」を切り離すことです。それはいつも「バンコク」になるのだろうか?あるいは、私たちが使える都市のリストがありますか?私は各セルを取ることを考えています。文字の隣に数字がある場合は、その間にスペースを入れてください。それから、私たちは、どの都市に宇宙を加えるのか、そして国(タイだけであると仮定します)を知る必要があります。 – BruceWayne
さて、私は難しい部分になると感じていた。残念なことに、Samutprakarnなどのように、そこに他の都市も置いています。番号から文字を分ける方法は? – dtrinh