ウェブサイトのナレッジベース(githubリポジトリに保存されている)の検索機能を作成する任務がありました。私はDjangoでデータベースを構築することに本当に慣れているだけなので、どうやってhtmlファイルをデータベースにアップロードし、postgresでそれらを照会するのか分かりません。どのようにデータベースを構造化できるかについてのあらゆる指針。私はHTMLファイルがテキストフィールドに格納できると聞いたことがありますが、どのように列が構造化されているのですか、各ページは独自の行などを取得しますか?手動で各ファイルをアップロードする必要はなく、かなり大きなナレッジベースでこれをどうやって行うことができますか?検索クエリのためにウェブサイトのナレッジベースをPostgreSQLデータベースに移行する
私が使用しているDBのホスティングプラットフォームは
のアップロードには三つの形式、プレーンテキスト(SQL)、tarアーカイブのいずれかの(非圧縮)のデータを受け入れると言い移行ユーティリティを持っている、またはPostgreSQLの独自の圧縮 "カスタム '形式です。
これは、データベースがすでに構造化されていることを前提としています。
エバンのおかげでありがとう!もう1つの質問:htmlタグなどのページを削除する方法があるので、検索結果に返されません。 –
['HTML :: Strip'](https://metacpan.org/pod/HTML::Strip)などを使用してください。また、取り除かれたテキストに対してフルテキスト検索を実行することもできます。 –