avatar

OCRFeeder, l’OCR més senzill per a GNU/Linux

A la meua feina portem el lloc web Viasona.cat, un web on podeu trobar gairebé totes les lletres de totes les cançons catalanes de la història. A l’hora d’aconseguir les lletres, la gran majoria s’han d’obtindre per les cobertes dels cds, ja que, encara que parega mentida, a Internet hi ha molt poca cosa. Per tant, gran part de la feina ha consistit en transcriure les lletres de les cobertes manualment.

Durant molt de temps jo havia pensat que aquesta tasca a GNU/Linux (i també a qualsevol altre sistema operatiu) era temps perdut: pensava que els OCR no funcionaven gens bé.

Però el company que s’hi està dedicant ens va ser insistent en què volia un OCR i llavors vaig dedicar-me a veure si trobava alguna cosa. Vaig trobar alguns lectors, però gens no em quedava clar: molts lectors van per terminal, amb la qual cosa no servien pel meu company. Va ser llavors quan vaig descobrir l’OCRFeeder.

OCRFeeder

L’OCRFeeder no és més que una interfície per a tots eixos programes OCR per terminal que vaig trobar. El que té d’especial és que és un programa extremadament intuïtiu i potent: simplement funciona (bé, amb les limitacions que suposa un OCR, és clar):

  • Llegeix directament imatges
  • Permet importar fitxers pdf
  • Admet la selecció i lectura per regions
  • Podem fer servir motors de lectura diferents

El programa no es troba actualment traduït al català, tot i que ja he enviat la traducció de la darrera versió que apareixerà amb la propera versió del GNOME (no sé si s’inclourà també a l’Ubuntu).

Interfície de l'OCRFeeder

Interfície de l'OCRFeeder

Baixada

Si el voleu instal·lar a la vostra distribució, només caldrà que cerqueu als repositoris i l’instal·leu, en realitat no té cap complicació. La versió que es troba als repositoris de l’Ubuntu és la 0.6.6, però és gairebé igual a la 0.7.4, que és la darrera versió publicada. A l’Ubuntu:

sudo apt-get install ocrfeeder tesseract-ocr

També podeu baixar i compilar la darrera versió sense grans problemes (hauré de resoldre algunes dependències, però res realment complicat). Ací teniu un vídeo per veure com funciona.

Anotacions relacionades:

Publicat en Ofimàtica | Etiquetat , | 6 comentaris

6 comentaris a l'entrada: OCRFeeder, l’OCR més senzill per a GNU/Linux

  1. avatar baltolkien diu:

    Vaja!
    Precisament aquesta vesprada em feia falta un.
    El probaré.

    Thumb up 1 Thumb down 0

  2. avatar Pere diu:

    Vaja, em feia falta això per l’Ubuntu.

    Veig que només pot obrir imatges, hi ha alguna possibilitat de reconeixer text de pdfs?

    Thumb up 0 Thumb down 0

  3. avatar Ecron diu:

    Estaria genial que ens facilitareu un .deb amb la darrera versió del programa (la 0.7.4), perquè he provat la 0.6.6 i amb el motor Tesseract reconeix QUASI be totes les paraules, però no es perfecte (com ho fa la meua impressora hp a Windows… i no, no puc usar la impresora perquè no estic a casa…). He instal·lat altres motors (l’Ocrad i el GOCR) i és increïble com de mal detecten els caràcters… :| amazing.

    Coneixeu algun motor de lectura que pague la pena? (Si estiguera per ahí el de HP…).

    ;)

    Thumb up 0 Thumb down 0

    • avatar Pau diu:

      No n’he trobat cap :( . Jo ho vaig haver de compilar. Has d’entendre, però, que això que comentes no depèn de l’ocrfeeder directament, sinó del motor d’escanejat. El tesseract és el millor, però si et fixes, no té un paquet específic pel català.

      Thumb up 0 Thumb down 0

Deixa un comentari

Registra't! Així ja no hauràs d'introduir les dades cada vegada i podràs editar els teus comentaris.

*

L'adreça electrònica no es publicarà Els camps necessaris estan marcats amb *

Podeu fer servir aquestes etiquetes i atributs HTML: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>