私は大量のXMLファイル、クリエイティブ・コモンズ・ライセンスの辞書をとり、それをデータベースに入れたいと思っています。問題はファイルのドキュメントがないことです。単語の数十万人が大きな(300mb +)xmlファイルをどのように分析してデータベースに取り込みますか?
<entry key="a)rxiereu/s" type="main" id="n5063">
<form opt="n"><orth extent="full" lang="greek" opt="n">a)rxiereu/s</orth></form>
<sense level="0" n="0" id="n5063.0" opt="n"><trans opt="n"><tr opt="n">an arch-priest, chief-priest</tr></trans>, <usg opt="n">Hdt.</usg> [...] </sense>
</entry>
はすべて<entry>
タグとその属性を比較する方法はあり、それらのほとんどはのようなものです、このXMLファイルにありますか?たとえば、<entry>
タグのほとんどに<type="main">
があります。タイプの他の属性にmain以外の値が含まれていると検出できる方法はありますか?またはentry
タグで使用されているすべての属性とsense
というすべての属性がドキュメント全体に含まれていますか?
最後に、私は本当にWebベースの技術、HTML、Javascript、PHPなどに精通しています。だから当然のことながら、これをMySQLデータベースで手に入れる最良の方法は、PHPスクリプトこれは必ず正しいですか?
SimpleMMLを使用して300mb +を解析するには、PHPに約500mb以上のRAMを与える必要があります。それはあまりにも多い。 – Timur
可能な解決策の1つは、ファイルを管理しやすいサイズに分割することです。 –
それほど簡単ではありません。 XMLの構造が壊れないようにファイルを分割する必要があります。 – Timur