boilerpipeのJavaライブラリを使用して、一連のウェブサイトからニュース記事を抽出しようとしています。 英語のテキストでは効果的ですが、アクセント記号(ヒストリア)のような特殊文字を含むテキストの場合、この特殊文字は正しく抽出されません。私はそれがエンコーディングの問題だと思う。ボイラーパイプを使用して英語以外の記事を抽出する
ボイラーパイプfaqでは、「英語以外のテキストを抽出した場合、一部のパラメータを変更する必要があります」と表示され、paperを参照しています。この論文では解決策が見つかりませんでした。
私の質問は、私がエンコーディングを指定できるボイラーパイプを使用しているときに何らかのパラメータがありますか?テキストを正しく取得する方法はありますか?私が見るものから
URL url = new URL(link);
String article = ArticleExtractor.INSTANCE.getText(url);
(第2 HTLMのソースコード上)
String article = ArticleExtractor.INSTANCE.getText(html_page_as_string);
ありがとうございました。私は今それに注意を払うだけで申し訳ありませんが、私は別のプロジェクトで立ち往生しています。私はコードのこの塊の後に変数csに設定されたエンコンディングを印刷しようとしましたが、結果は常にISO-8859-1でした。私はエンコーディングを強制的にUTF-8にしようとしましたが、良い結果は得られませんでした。 問題は変換の1つ、HTMLDocument、TextDocumentなどにある必要があります。しかし、テキストコンテンツを印刷する際に問題があります。何か案は?再度、感謝します。 –
Andrei、あなたは正しいです。私は多くを複雑にしようとしていましたが、結局それは非常に単純な解決策でした。もう一度お礼します。申し訳ありませんが、私はまだあなたをアップアップすることはできません。 –