名刺パーサ。どのように名刺から認識されたテキストから関連情報を抽出するのですか？

私はOCRのスキャン機能付きのiPhoneアプリを開発しました。 Tesseract APIを使用して、撮影した画像からテキストを取得しました。しかし、私は名前、住所、電子メール、電話番号などに関してそれぞれのテキストを分ける必要があります。名刺の構造/形式は特定ではないので、想定するのは難しいです。名刺パーサ。どのように名刺から認識されたテキストから関連情報を抽出するのですか？

1） "@"文字列を含む文字列は主に電子メールIDになります。 2）すべての数字に中かっこまたは+記号が付いています。電話番号はになりますが、まだ多くの可能性があります。

出典

2012-04-06 Matrix

g8Tesseractを使用して、画像からテキストを取得しました。しかし、どのようにして各テキストの名前、アドレス、および指定を分けることができますか？ appcardで利用可能なcamcard、bizcamcard、またはanyother appのために彼らが従ったプロセスは？私は研究開発のためにたくさん試しましたが、役に立たないです。 –

あなたはNSLInguisticTaggerクラスの助けが必要です。これが最善の策です。そうしないと、上記のように各パートで同様のロジックを作成する必要があります。

出典

2012-04-06 07:07:08

+1このクラスではまた、私は何か新しいことを学んだ:)質問者のために悪いそれは5.0からのみ利用可能です – MrTJ

私は名刺から情報を抽出するための独自のロジックを書く必要があるようですが、ビジネスカードのフォーマット（RFCの種類のもの...）に関して – Matrix

私は特定の名刺形式について知らないけど、最近あなたのアプリにQRコードスキャナーを入れてみることをアドバイスできると思います。最近のほとんどのカードにはQRコードが含まれています。 –

名刺パーサ。どのように名刺から認識されたテキストから関連情報を抽出するのですか？

答えて

関連する問題