は、私は（それがペルシャ（アラビア語スクリプト）である）スキャンされた書籍の多くのすべての単語の小さな画像を取得したいスキャンした紙

私はあなたがこのようなMATLAB何かでスクリプトを記述し示唆しています。
：文字間の最大距離の半分（ピクセル）
B：単語間の最小距離の半分（ピクセル）
（希望< Bでき）

しきい値スキャン。ページのイメージ。

I(I < Th) = 0;I(I > Th) = 1;

「Th」を実験的に選択します。あなたは文字がどこにあるの1つを持っているバイナリイメージ '私'を取得する必要があります。イメージを拡大します。

imdilate(I,a);

これは、文字を一緒に接続します。
ノイズを除去します。

I = bwareaopen(I,n);

これにより、nピクセル未満のすべての接続コンポーネントが削除されます。
接続コンポーネント分析を実行します。

CC = bwconncomp(I); 
Rect = regionprops(I,'BoundingBox');

これは、単一の単語を含む四角形の座標のリストを返します。元のコピーから部分行列を抽出し、imwrite（）を使用してイメージを書き込みます。

2012-04-10 09:44:13 nac

答えて