|
Nov
01
|
->

De acuerdo con el Blog Oficial de Google, el gigante de las búsquedas ya está aplicando tecnologías OCR (optical character recognition, reconocimiento óptico de caracteres) para indexar documentos escaneados en formato PDF. Hasta ahora, Google indexaba documentos de texto en PDF, pero muchos documentos PDF en realidad son páginas escaneadas, es decir, el texto está en formato de imagen. Google se decidió a usar su tecnología de fuente abierta OCRopus, basada en un software llamado Tesseract que fue desarrollado por HP; dicha tecnología pude indexar documentos escaneados que contengan una mezcla de texto, imágenes e incluso manchas de café. ¿Qué tan buenos son los resultados de este motor de OCR? según Ars Technica, cuando lo revisaron en octubre de 2007 obtuvieron resultados mezclados; sin embargo, desde entonces Google puso a varios ingenieros a trabajar en mejorar Tesseract, y quizás lo hayan logrado, pues a fin de cuentas ya activaron el servicio.
Ahora bien, es probable que empiecen los problemas para Google, porque ya en el pasado muchos se han quejado cuando ha puesto en marcha tecnologías similares. Esta vez los que pudieran quejarse son universidades u organizaciones que publicaron en línea documentos en PDF para humanos, y no para máquinas; y también está el lado de la privacidad, pues esta tecnología hará que mucho material con derechos de autor e información personal sean mucho más fáciles de usar.
Para un uso útil de esta tecnología, como por ejemplo de convertidor de PDF en texto, puedes consultar este artículo de LifeHacker que te dice como hacerlo.
Fuente: Ars Technica
Artículos relacionados:
- GMail ya tiene visor de archivos PDF
- GooglePack ahora incluye StarOffice
- Comparte documentos en tu sitio con DocShots
Dejar una respuesta (sé educado y tu post será publicado, pórtate como un idiota y se irá al spam):





Últimos comentarios