El reconocimiento óptico de caracteres (OCR) es la tecnología que se emplea para determinar un carácter individual en una página impresa para poder almacenarlo y editarlo como si fuera texto.
Primero se escanea la imagen de la página con la ayuda de un escáner, cámara digital o fax módem para pasarla a la memoria de la computadora. Después, el OCR localiza e identifica los caracteres impresos incrustados en las imágenes, es decir, lee texto. Esta no es una tarea sencilla para un máquina, dada la variedad de tipos y estilos de fuentes existentes actualmente.
Los programas de OCR de última generación utilizan varias técnicas como por ejemplo:
- Segmentación de la página en imágenes bloques de texto y caracteres individuales.
- Reducción a escala de la tecnología de los sistemas expertos para reconocer las reglas subyacentes que distinguen las letras.
- Sistemas expertos para ayudar a identificar las letras ambiguas por su contexto.
- Aprendizaje de los ejemplos reales y retroalimentación de un instructor humano.
Captchas
- Es el acrónimo de: Completely Automated Public Turing test to tell Computers and Humans Apart.
- Es un método para distinguir si el usuario es humano o no.
- La prueba consiste en que el usuario introduzca un conjunto de caracteres que se muestran en una imagen distorsionada que aparece en la pantalla. La máquina no es capaz de comprender la secuencia de caracteres, por lo que solamente podría hacerlo un ser humano.
No hay comentarios:
Publicar un comentario