0

ウェブサイトのナレッジベース(githubリポジトリに保存されている)の検索機能を作成する任務がありました。私はDjangoでデータベースを構築することに本当に慣れているだけなので、どうやってhtmlファイルをデータベースにアップロードし、postgresでそれらを照会するのか分かりません。どのようにデータベースを構造化できるかについてのあらゆる指針。私はHTMLファイルがテキストフィールドに格納できると聞いたことがありますが、どのように列が構造化されているのですか、各ページは独自の行などを取得しますか?手動で各ファイルをアップロードする必要はなく、かなり大きなナレッジベースでこれをどうやって行うことができますか?検索クエリのためにウェブサイトのナレッジベースをPostgreSQLデータベースに移行する

私が使用しているDBのホスティングプラットフォームは

のアップロードには三つの形式、プレーンテキスト(SQL)、tarアーカイブのいずれかの(非圧縮)のデータを受け入れると言い移行ユーティリティを持っている、またはPostgreSQLの独自の圧縮 "カスタム '形式です。

これは、データベースがすでに構造化されていることを前提としています。

答えて

1

私は、htmlファイルをテキストフィールドに格納できると聞いていますが、どのように列が構造化されていますか、各ページには独自の行などがありますか?

htmlを列に格納することは完全に受け入れられます。 htmlを列に格納する場合は、新しい各ページに新しい行が必要です。

どのように手動で各ファイルをアップロードすることなくかなり大きな知識ベースでこれを行うことができますか?

あなたは、ホスティングプロバイダが「PostgreSQL独自の圧縮されたカスタム形式」を許可したと言いました。したがって、PostgreSQLはローカルにインストールしてください。それをすべて稼働させてください。すべてのページをローカルに挿入します。次に、pg_dump --format=cを使用してホスティングプロバイダにアップロードできます。これは単なるアクションではなく圧縮されています。

+0

エバンのおかげでありがとう!もう1つの質問:htmlタグなどのページを削除する方法があるので、検索結果に返されません。 –

+1

['HTML :: Strip'](https://metacpan.org/pod/HTML::Strip)などを使用してください。また、取り除かれたテキストに対してフルテキスト検索を実行することもできます。 –

関連する問題