Feedjiraを使ってニュースフィードのコンテンツ分析を支援しようとしましたが、RSSフィードはRSSでそれらを含めるのではなく、 Feedjira not adding content and author "。 Feedjiraを使用して記事のURLを取得する予定ですが、Nokogiriを使用して記事をスクラップし、関連する部分を選び出します。さまざまな要件を持つNokogiriを使用して異なるURLをデータベースから削る方法
問題は、それぞれのメディアのコンセントがページのフォーマットが異なり、Nokogiriがデータベース(Feedjira提供)からURLを取得し、関連するフィードのタイトルに応じて最適な方法を知る必要があることですFeedjira syncのデータベース)は、ページを特定の方法でスクラブし、データベースの別のテーブルに保存します。誰でも何か提案がありますか?
私は一見しましたが、非常に一般的に見えます。理想的には、作者だけでなく様々な属性も掻き分ける何らかの方法を探しています。可読性がこれを行うことができるのかどうかわかりません。私は[Mercury Parser](https://mercury.postlight.com/web-parser/)と[Ruby wrapper](https://github.com/moisesnarvaez/mercury_parser)を見つけましたが、彼らの言葉には限界があるようです。 –