ここでは、私はdjangoの中でscrapyを使用するサンプルプロジェクトを作成しています。そして、パイプラインの1つでDjangoモデルとORMを使用します。
https://github.com/bipul21/scrapy_django
ディレクトリ構造は、あなたのDjangoプロジェクトを開始します。 この場合、プロジェクト名はdjango_projectです。 は、一度、あなたのscrapyプロジェクトの設定でscrapy_projectここ
つまり、あなたのscrapyプロジェクトを作成し、ベースのプロジェクト内の設定に次の行を追加しますiは、単純なクエリを作ったパイプラインでジャンゴ
import os
import sys
import django
sys.path.append(os.path.join(os.path.dirname(os.path.dirname(os.path.abspath(__file__))), ".."))
os.environ['DJANGO_SETTINGS_MODULE'] = 'django_project.settings'
django.setup()
を初期化します質問モデル
from questions.models import Questions
class ScrapyProjectPipeline(object):
def process_item(self, item, spider):
try:
question = Questions.objects.get(identifier=item["identifier"])
print "Question already exist"
return item
except Questions.DoesNotExist:
pass
question = Questions()
question.identifier = item["identifier"]
question.title = item["title"]
question.url = item["url"]
question.save()
return item
モデルスキーマなどの詳細については、プロジェクトをチェックインできます。
これを理解できましたか? –
いいえ私はしていません。それは私を夢中にさせている。私は本当に生のSQLを扱うことを避けたいと思います。 Django APIはそれに最適です!私はsqlalchemyを見ているかもしれませんが、もし私も持っていなければ、私はむしろ別のライブラリを習得しません。何か提案がありましたか、あるいは私が調べることができるアプローチがありますか? –
OKこれまでにこれを行っています。すぐに答えを書き留めます。週末です。 –