C'était une question sans réponse, un véritable mystère sur lequel Google ne laissait rien filtrer : comment le géant américain de l'Internet parvenait-il à numériser et à indexer autant de livres en aussi peu de temps ? Avec son programme Google Recherche de Livres, le moteur de recherche propose en effet des millions de livres indexés, parfois disponibles en téléchargement ou simplement par extraits, dont de très nombreux ouvrages en français susceptibles d'intéresser les généalogistes. Cette offre gratuite pour les usagers n'est d'ailleurs pas sans provoquer l'ire des ayants-droits parfois floués (qui ont obtenus récemment compensation)... Mais la question technique restait : comment font-ils ? La revue américaine Scientist vient de lever un coin du voile. Google utilise l'infrarouge !
Si vous avez déjà utilisé un scanner pour numériser un livre ancien relié (ou même un appareil photo), vous vous êtes aperçu que l'image obtenue est loin d'être plane. Du coup, votre logiciel de reconnaissance optique de caractère (OCR) fait ce qu'il peut, mais il n'arrive à retrouver le sens d'une phrase sur deux. Sans être parfaits, les résultats de Google semblent meilleurs en utilisant une méthode déposée en brevet aux Etats-Unis. Au moment de la numérisation, des capteurs infrarouges calculent les décalages les plus infimes de la page par rapport à un modèle plane et corrigent en direct chaque distorsion de pixel. Si vous n'avez rien compris, un schéma explique tout ici, la démonstration en vidéo, c'est là. Résultat, même scanné en chiffon, un texte paraît complètement plane. Le logiciel d'OCR n'a aucun mérite à lire correctement chaque mot ou presque !
Visiblement, google a pris une structure du robot américain de numérisation Kirtas, en a ôté les appareils photos numériques (canon eos) pour y adapter une caméra infrarouge.
Celle-ci d'après les publications, permettrait d'ajuster l'image par rapport à un plan et de la rétablir.
En d'autres termes, les courbures de pages dues aux reliures des ouvrages, les papiers chiffonnés, seraient ainsi corrigés.
L'avantage ? : améliorer les performances de la reconnaissance de caractères et augmenter donc la pertinence des recherches sur le corpus de google books.
On connait par ailleurs les contraintes du Kirtas, qui ne sait pas traiter les grands formats (supérieurs au A3) et les petits formats ainsi que les documents trop épais ou trop fin. De même qu'on sait que la cadence maximale de la machine ne peut être que rarement atteinte. La vidéo montre bien la nécessité qu'un opérateur assiste le robot afin de s'assurer que les pages sont correctement plaquées par la machine.
Cette technologie n'explique pas les cadences de production, mais les performances de l'OCR.
Il est donc fort probable que d'autres machines soient également utilisées par google. Avec les mêmes caméra infrarouge ?
Rédigé par : luc | 05 mai 2009 à 12:25