|
nov
01
|

De acuerdo con el Blog Oficial de Google, el gigante de las búsquedas ya está aplicando tecnologÃas OCR (optical character recognition, reconocimiento óptico de caracteres) para indexar documentos escaneados en formato PDF. Hasta ahora, Google indexaba documentos de texto en PDF, pero muchos documentos PDF en realidad son páginas escaneadas, es decir, el texto está en formato de imagen. Google se decidió a usar su tecnologÃa de fuente abierta OCRopus, basada en un software llamado Tesseract que fue desarrollado por HP; dicha tecnologÃa pude indexar documentos escaneados que contengan una mezcla de texto, imágenes e incluso manchas de café. ¿Qué tan buenos son los resultados de este motor de OCR? según Ars Technica, cuando lo revisaron en octubre de 2007 obtuvieron resultados mezclados; sin embargo, desde entonces Google puso a varios ingenieros a trabajar en mejorar Tesseract, y quizás lo hayan logrado, pues a fin de cuentas ya activaron el servicio.
Ahora bien, es probable que empiecen los problemas para Google, porque ya en el pasado muchos se han quejado cuando ha puesto en marcha tecnologÃas similares. Esta vez los que pudieran quejarse son universidades u organizaciones que publicaron en lÃnea documentos en PDF para humanos, y no para máquinas; y también está el lado de la privacidad, pues esta tecnologÃa hará que mucho material con derechos de autor e información personal sean mucho más fáciles de usar.
Para un uso útil de esta tecnologÃa, como por ejemplo de convertidor de PDF en texto, puedes consultar este artÃculo de LifeHacker que te dice como hacerlo.
Fuente: Ars Technica
Términos de búsqueda entrantes:
- como se indexa un pdf
- tutorial adobe acrobat 9 pro español
- sofware para indexar documentos escaneadas
- como indexar documentos escaneados
- los documentos escaneados en que formato estan
- indexar documentos software gratis
- indexar archivos con google
- indexador archivos pdf chrome
- ficheros pdf no indiza
- escanear documentos a pdf indexar
¿Te gustó este artículo? ¡compártelo con Twitter, Google +1 o FaceBook!
Artículos relacionados:
- GMail ya tiene visor de archivos PDF
- GooglePack ahora incluye StarOffice
- Comparte documentos en tu sitio con DocShots
- Google presenta nuevo formato WebP para imágenes; ¿el fin de JPEG?
- El formato HD Photo de Microsoft, considerado para estandarización
- Google prueba nuevo servicio interactivo de anuncios
- Google Chrome 8 liberado: visor de PDF, soporte para Chrome Web Store y más
- Microsoft ofrece 250MB de almacenamiento con Office Live Workspace
Dejar una respuesta (sé educado y tu post será publicado, pórtate como un idiota y se irá al spam):






Comentarios recientes