2009-12-09 8 views
5

私は大学生で、今度は再び教科書を購入しましょう。今四半期には、授業に必要な20冊以上の本があります。通常、ISBNをコピーしてアマゾンに貼り付けるだけなので、これは大きな問題ではありません。しかし、ISBNは私の学校の本のサイトのイメージに変換されます。 ISBNを文字列にして、手で入力する必要はありません。私はGOCRを使ってイメージをテキストに変換しましたが、私はRubyスクリプトでそれを使用したいので、プロセスを自動化してクラスメイトに同じことをさせることができます。RubyとUbuntuを光学式文字認識で使用する

私はそのサイトに移動することができます。どのようにイメージを私のコンピュータ上のファイル(UBUNTUを実行中)に保存し、GOCRでイメージを変換し、最終的にファイルに保存して、私のRubyスクリプトで再度アクセスできますか?

答えて

2

素晴らしいプロジェクトのようなサウンドで、ISBNイメージが個々のファイルに保存されていると難しいはずがありません。

これは、すべてはバックグラウンドで実行することができます:

  • ダウンロードWebページ(ネット/ HTTP)
  • すべての画像の上に各書籍のメタデータ+画像ファイル(クリップ)
  • 実行GOCRを保存

あなたが必要とするのは、URLやクローラ(機械化)のリストです。大学のhtmlページのパーサー(joeの記事を参照)を書くのに数分かかることがあります。

3

GOCRは最初は良い選択であると思われますが、自分の「研究」からわかることから、日々の使用には十分ではありません。これは、画像の入力に応じて、問題につながる可能性があります。うまくいかない場合は、Googleドキュメントの「新機能」を試してください。この機能を使用すると、OCRの画像をアップロードできます。あなたはいくつかのGoogle APIを使って結果を取得することができます(そこにはトンがありますが、私は何らかのハッキングを必要とするgdata-ruby-utilを使用しています)。アクティブ開発中

検索部分には、超強力で柔軟なhpricotを貼り付けます。