私はPythonスクリプトを使用して、Seleniumライブラリを使用してWebサイトから情報を抽出しています。 は、いくつかのセレクタを使用して、私は次のようになりますそのあと私はターゲット要素のWebElementオブジェクトを得ました:Seleniumを使用した親要素テキストの選択
<myTargetElement><strong>324. </strong>Some interesting content that might contain numbers 323 or dots ...,;</myTargetElement>
私は別々に2つの情報を抽出したい:
Idが囲まstrong
タグは、と私は次のようにこれをやった:
myTargetElementObject.find_element_by_tag_name('strong').text.strip(' .')
は今、私は他の部分を抽出する方法を困惑しています。 myTargetElementObject.text
を使用した場合、テキスト内のIDが返されます。
私が抽出しているデータは非常に大きく、正規表現の使用には慎重です。 WebElementオブジェクトを使用してサブ要素のない要素のテキストを返す方法はありますか?
データをディスクにバッファリングしない限り、Seleniumはすでにデータを解析してRAM内のオブジェクトにあると仮定しています。 –