私は次のようなテキストを持っています。実際、上記は全体のテキストのほんの一部です。使用改行は()
私はまた、institutionというStringを持っています。この場合、施設の価値は「オステオパシー医学と健康科学の大学」です。
上記のPDFファイルでは、大学名が行幅を超えて次の行に折り返されています。
私がしたいことは、pdfFileText.contains(機関)を確認することです。しかし、機関がラインラップされているので、これはうまくいきません。
私は新しいString ins = institution.replaceAll( ""、[\ n \ r] +)を作成しようとしました。 しかし、それは動作しませんでした。私もinstitution.replaceAll( ""、[\\\\ n \\\\ r] +)のようなものまで、さまざまな数のダッシュを試しました。またはバックスラッシュを追加することもできます。しかし、何も動作していないようです。
使用する正しい正規表現は何でしょうか?あるいは、contains()は正規表現を許可しないでしょうか?パターンマッチャーを試してみることをお勧めしますか?空白を置き換えるパターンについては、私はまだ混乱しています。
考え方:すべてのハイフンとスペースを 'text'と' searchPhrase'の '.replaceAll(" [\\ p {Pd} \\ s] + ""、 "") 'に置き換え、' .contains' 。 –