четвртак, 22. јануар 2015.

OCR - prepoznavanje teksta sa slike

free OCR
Iako postoji veliki broj i programa i sajtova koji vrše prepoznavanje teksta sa slika, izgleda da mnogim korisnicima nije jasna razlika između: tekstualne datoteke i datoteke sa slikom teksta. OCR je skraćenica od Optical Character Recognition tj. prepoznavanje i „izvlačenje“ slova iz slike i njihovo pretvaranje u prava slova (tekst).

U uređivačima teksta kao što su Word, NotePad i sl. postoje razne alatke za uređivanje teksta. Posle uređivanja, takav tekst  se može sačuvati u odgovarajućem formatu (.doc, .docx, .txt,...). Kasnije, svaka od tih datoteka se može ponovo otvoriti i vršiti novo uređivanje teksta bez ikakvog problema.

Međutim, postoje i slučajevi kada se tekst ne piše, već se slika. Npr. fotografišete tekst sa stranice neke knjige ili iz nekog časopisa i datoteku prebacite u računar. Ili, skenirate stranice neke knjige. Sada imate tekst koji se ne nalazi u tekstualnoj datoteci, već je u obliku slike. Takve datoteke-slike obično imaju proširenja: .jpg, .png, .bmp,... ili, ako su u obliku knjiga: .pdf, djvu,... Pri pokretanju takvih datoteka, otvara se specijalni program za pregled fotografija ili program za pregled odgovarajućeg formata elektronske knjige. Tekst se lepo vidi, možete normalno da ga čitate, ali ne možete da ga uređujete, jer su to slike.


OCR - slika teksta

Da biste mogli da uređujete takav tekst, potrebno je da ga prvo „izvučete“ iz slike, tj. izvršite raspoznavanje teksta. Za tu namenu postoje i posebni programi, kao i posebni sajtovi. Oni raspoznaju tekst, koji zatim možete zalepiti u bilo koji uređivač teksta, i uređivati ga prema svojoj želji. Posao prepoznavanja nije jednostavan ni za najbolje programe ove vrste i zavisi od mnogo faktora: od vrste slova i njihove jasnoće, kontrasta na fotografiji, boje fotografije,... Zbog toga, ponekad raspoznavanje nije baš idealno, ali uglavnom je dovoljno dobro.

Online OCR je besplatan sajt, na kojem možete izvršiti prepoznavanje teksta iz slike. Možete da učitate u sajt grafičku datoteku ili pdf datoteku i da izaberete jezik. Na izlazu ćete dobiti Word ili običan tekstualni dokument. Mana sajta je što slabo prepoznaje naše specifične znakove: č, š, ž, ć, đ.


PDF-XChange Viewer

Od programa, koji prepoznaju tekst sa slika u pdf knjigama, posebno bih preporučila program PDF-XChange Viewer. On je veoma brz, lak i izuzetno funkcionalan. Detaljno uputstvo, korak po korak, za rad sa ovm programom, naći ćete u elektronskoj knjizi, koju možete naručiti preko sajta OKO.



.

2 коментара :

Milan Stanojevic је рекао...

U pravo vreme! Baš mi ovo treba!

Fantazija је рекао...

Ovo je super.

Постави коментар