今後のオークションに掲載されているいくつかのプロパティについて分析したいと思います。残念なことに、オークションを運営する市は、情報を構造化された形式で公開するのではなく、オークションのためにプロパティの700+ page PDFを提供します。PDFを構造化形式に変換する方法のお勧めをお探しの場合
DBに挿入するための構造化された書式に前記PDFを解析する方法や、プロパティのスプレッドシートを作成する方法について、コミュニティが考えているかどうかは疑問です。ここで
は、各ページが何を表すかの画像です:
そしてここではいくつかのプロパティを表示するページがあります:
私はすべての問題を持っていないので、私は、PythonとRubyで快適ですスクリプトを記述することができますが、それらの列のデータと列は必ずしも結びついている必要はないので、これは疑わしい提案であるようです。
アイデアをいただければ幸いです。
私の考えは、テキストコンバータにPDFファイルを使用して、(Aコンバータはあなたに予測可能な出力形式を与えると仮定して)テキストファイルを解析することであろう。 –
さて、私は試しました。私が試したルビープロジェクト(https://github.com/kitplummer/pdftohtmlr)があり、それはジャンクを吐き出す。 – doremi
テキストはどうですか?それはhtmlのように見えます。 –