私の大学のプロジェクトはJavaで書かれており、Twitterからつぶやきを分析して分析します。(WindowsからUnixへ)Reconversion txtファイル
第1段階では、つぶやきを取る。私はLinuxマシン上でオンラインにした後、Windowsマシン上でそれを行う必要があります。私はそれを使ってユーザーフィードバックシステムでつぶやきを分析します。
Linuxマシンでtxtファイルを開くと、変換する場合はUTF-8
に変えたいのですが、はいをクリックします。しかし、この操作のために、一部の特殊文字が正しくフォーマットされていません。 iconvで元の形式(おそらくCP1252
)で再変換しようとすると、特殊文字によるエラーが返されます。
特殊文字は可能な文字の合計であるため、その文字を再変換することは不可能ですが、ある種の文字予測文字を使用してその文字を書き換えることができます。?
例えば
私はbecause
を持っている、と私は私がe
をreputする方法?
文字を、削除する場合e
が、私はこの言葉にこのbecaus?
ような何かを参照してください特殊文字の場合は?私はWordを使用しようとしましたが、txtが大きすぎるので、この問題では単語の数が多くなり、Wordでは手動ですべての単語を確認する必要があります。