C'était une question sans réponse, un véritable mystère sur lequel Google ne laissait rien filtrer : comment le géant américain de l'Internet parvenait-il à numériser et à indexer autant de livres en aussi peu de temps ? Avec son programme Google Recherche de Livres, le moteur de recherche propose en effet des millions de livres indexés, parfois disponibles en téléchargement ou simplement par extraits, dont de très nombreux ouvrages en français susceptibles d'intéresser les généalogistes. Cette offre gratuite pour les usagers n'est d'ailleurs pas sans provoquer l'ire des ayants-droits parfois floués (qui ont obtenus récemment compensation)... Mais la question technique restait : comment font-ils ? La revue américaine Scientist vient de lever un coin du voile. Google utilise l'infrarouge !
Si vous avez déjà utilisé un scanner pour numériser un livre ancien relié (ou même un appareil photo), vous vous êtes aperçu que l'image obtenue est loin d'être plane. Du coup, votre logiciel de reconnaissance optique de caractère (OCR) fait ce qu'il peut, mais il n'arrive à retrouver le sens d'une phrase sur deux. Sans être parfaits, les résultats de Google semblent meilleurs en utilisant une méthode déposée en brevet aux Etats-Unis. Au moment de la numérisation, des capteurs infrarouges calculent les décalages les plus infimes de la page par rapport à un modèle plane et corrigent en direct chaque distorsion de pixel. Si vous n'avez rien compris, un schéma explique tout ici, la démonstration en vidéo, c'est là. Résultat, même scanné en chiffon, un texte paraît complètement plane. Le logiciel d'OCR n'a aucun mérite à lire correctement chaque mot ou presque !
Les commentaires récents