Recherche
Vous êtes ici >> Accueil/Les brèves
Bouton Newsletter Bouton RSS Ces icônes vous permettent de partager des pages articles du site sur les marque-pages sociaux (Social bookmarking).

Google: la numérisation des livres sera un défi technique

Publié le 10/03/2005 - Lu 940 fois - Auteur : Pfff
Le projet de Google de numériser des millions de livres ne devrait pas a priori poser de problèmes techniques majeurs mais représenter un défi quant à la logistique nécessaire pour manipuler les ouvrages.

Le principal moteur de recherche sur internet a annoncé en décembre dernier qu'il comptait scanner et diffuser une quinzaine de millions d'ouvrages (soit 4,5 milliards de pages), via une technique qu'il n'a pas détaillée.

Cette opération qui rendra accessible ces ouvrages gratuitement sur internet pourrait prendre dix ans, pour un coût estimé entre 150 et 200 millions de dollars.

De grandes bibliothèques universitaires américaines comme Harvard, Stanford et Michigan ou britannique comme Oxford vont participer à ce projet qui a suscité des interrogations en Europe et surtout en France où l'on redoute la domination d'une vision américaine du monde.

Pour la société ScanSoft, leader mondial sur le marché des logiciels OCR (Reconnaissance Optique de Caractère), un processus indispensable dans la numérisation des livres, "le défi majeur" pour Google sera la logistique.

"Il faudra compter sur un grand nombre de personnes lorsqu'il s'agira de scanner les livres", a expliqué Robert Weideman, vice-président chargé du marketing de ScanSoft, présente au salon CeBIT à Hanovre. "Il faut du personnel pour installer les ouvrages, tourner les pages, vérifier que chacune a bien été scannée", a cité en exemple M. Weideman, interrogé par l'AFP.

La technologie OCR qui permet à partir de l'image d'un document d'en reconnaître les caractères - donc les mots - "ne posera pas de problèmes insolubles", a ajouté le responsable, d'autant que le projet de Google concerne pour l'essentiel des ouvrages du 20ème siècle dont la typographie n'est pas aussi difficile à interpréter que celle d'oeuvres plus anciennes.

Scanner et interpréter une page d'un livre prend entre une et cinq secondes suivant le traitement que l'on veut lui appliquer.

Plus le temps est long en raison de plusieurs passes sur le document plus on réduit le risque d'erreurs dans l'interprétation de ce document, a encore expliqué M. Weideman. Le taux de réussite dans la conversion adéquate des caractères se situe généralement entre 95% et 99%.

ScanSoft travaille de longue date avec Google. Ce dernier a intégré un logiciel de ScanSoft dans sa nouvelle application Desktop Search qui permet de chercher des informations dans des fichiers texte, photos, vidéo et même courriels ou messages instantanés de l'ordinateur personnel.

La société russe Abbyy, principal concurrent de ScanSoft sur le secteur de la reconnaissance des caractères est du même avis: le défi pour Google ne sera pas technologique.

"La numérisation des livres est une technique connue. En revanche, ce qui est impressionnant dans le projet de Google c'est la quantité d'ouvrages qui va être traitée", a estimé Jupp Stöpetie, directeur pour l'Europe de Abbyy. Cette société fondée à la fin des années 80 par David Yang, un étudiant de l'Université de mathématiques et de physique de Moscou, compte aujourd'hui plus de 500 collaborateurs.

M. Stöpetie s'interroge en revanche sur "la coordination du projet": comment Google va-t-il s'y prendre pour scanner tous ces livres ? qui va en assurer la manutention ? quel sera le taux de réussite dans la lecture des documents, sachant que le 100% n'existe pas ?

Et le dirigeant d'Abbyy de s'interroger également sur le modèle économique qui sous-tend un tel projet, de sa rentabilisation: "Google doit compter maintenant avec des actionnaires or c'est un projet qui va coûter très cher".

Commenter

Pour ajouter un commentaire, vous devez être membre de notre site !
« News suivante
Google Actualité devient personnalisable
News précédente »
TNT: France 2 candidat a une chaine enfantine.