htmlTreeParse
を使用して、巨大な解析HTMLファイルから情報を削り取ろうとしています。 xpathSApply
を使用して必要なフィールドから情報を抽出しています。フィールドは順番に並べられているため、次のフィールドの情報は常に前のフィールドの情報の下にあります。R - 特定の行からhtmlファイルを読み込みます。
xpathSApply
関数は永遠に使用され、より効率的にする方法があるかどうかは疑問でした。 xpathSApply
関数は、最初から解析されたhtmlファイルの読み込みを開始することを強く信じています。したがって、既に読み込まれている有用なデータを含んでいないhtmlコードが多く読み込まれます。私はxpathSApply
に前回の読書を終えた行からの読書を開始するように指示する方法があるかどうかを調べようとしていました。次のように
コードは次のとおりです。
nomcorpN <- xpathSApply(doc.html, "//*//input[@name='_ctl0:PlaceHolderContenido:nomcorpN']/@value")
codigoINE <- xpathSApply(doc.html, "//*//input[@name='_ctl0:PlaceHolderContenido:codigoINE']/@value")
codigo <- xpathSApply(doc.html, "//*//input[@name='_ctl0:PlaceHolderContenido:codigo']/@value")
#...
などなど異なる分野の多くのために。私はそれがnomcorpN
の情報を見つけた行を保ちたいと思い、その行からcodigoINE
を探し始めます。そこにはcodigoINE
という行があり、その行にはcodigo
があります。
これを達成する方法はありますか? 皆様に感謝します!
HTMLを見ずに何を示唆するのは難しいです。私はdropboxのようなサイトにあなたのファイルをアップロードし、ここにリンクを投稿することをお勧めします。または、すべてのデータを明らかにしたくない場合は、少なくとも同じ構造を持つダミーファイルを用意してください。 –
問題はありません。ここにあります:https://www.dropbox.com/s/lwvfxpcoa0ipwih/FederacionEspanoladeMunicipiosyProvincias.html?dl=0 – OBT