Le projet de Google de numériser des millions de livres ne
devrait pas a priori poser de problèmes techniques majeurs mais
représenter un défi quant à la logistique
nécessaire pour manipuler les ouvrages.
Le principal
moteur de recherche sur
internet a annoncé en décembre
dernier qu'il comptait scanner et diffuser une quinzaine de millions
d'ouvrages (soit 4,5 milliards de pages), via une technique qu'il n'a
pas détaillée.
Cette opération qui rendra
accessible ces ouvrages gratuitement sur internet pourrait prendre dix
ans, pour un coût estimé entre 150 et 200 millions de
dollars.
De grandes bibliothèques universitaires
américaines comme Harvard, Stanford et Michigan ou britannique
comme Oxford vont participer à ce projet qui a suscité
des interrogations en Europe et surtout en France où l'on
redoute la domination d'une vision américaine du monde.
Pour la société ScanSoft, leader mondial sur le
marché des logiciels OCR (Reconnaissance Optique de
Caractère), un processus indispensable dans la
numérisation des livres, "le défi majeur" pour Google
sera la logistique.
"Il faudra compter sur un grand nombre de
personnes lorsqu'il s'agira de scanner les livres", a expliqué
Robert Weideman, vice-président chargé du marketing de
ScanSoft, présente au salon CeBIT à Hanovre. "Il faut du
personnel pour installer les ouvrages, tourner les pages,
vérifier que chacune a bien été scannée", a
cité en exemple M. Weideman, interrogé par l'AFP.
La technologie OCR qui permet à partir de l'image d'un document
d'en reconnaître les caractères - donc les mots - "ne
posera pas de problèmes insolubles", a ajouté le
responsable, d'autant que le projet de Google concerne pour l'essentiel
des ouvrages du 20ème siècle dont la typographie n'est
pas aussi difficile à interpréter que celle d'oeuvres
plus anciennes.
Scanner et interpréter une page d'un
livre prend entre une et cinq secondes suivant le traitement que l'on
veut lui appliquer.
Plus le temps est long en raison de
plusieurs passes sur le document plus on réduit le risque
d'erreurs dans l'interprétation de ce document, a encore
expliqué M. Weideman. Le taux de réussite dans la
conversion adéquate des caractères se situe
généralement entre 95% et 99%.
ScanSoft travaille
de longue date avec Google. Ce dernier a intégré un
logiciel de ScanSoft dans sa nouvelle application Desktop Search qui
permet de chercher des informations dans des fichiers texte, photos,
vidéo et même courriels ou messages instantanés de
l'ordinateur personnel.
La société russe Abbyy,
principal concurrent de ScanSoft sur le secteur de la reconnaissance
des caractères est du même avis: le défi pour
Google ne sera pas technologique.
"La numérisation des
livres est une technique connue. En revanche, ce qui est impressionnant
dans le projet de Google c'est la quantité d'ouvrages qui va
être traitée", a estimé Jupp Stöpetie,
directeur pour l'Europe de Abbyy. Cette société
fondée à la fin des années 80 par David Yang, un
étudiant de l'Université de mathématiques et de
physique de Moscou, compte aujourd'hui plus de 500 collaborateurs.
M. Stöpetie s'interroge en revanche sur "la coordination du
projet": comment Google va-t-il s'y prendre pour scanner tous ces
livres ? qui va en assurer la manutention ? quel sera le taux de
réussite dans la lecture des documents, sachant que le 100%
n'existe pas ?
Et le dirigeant d'Abbyy de s'interroger
également sur le modèle économique qui sous-tend
un tel projet, de sa rentabilisation: "Google doit compter maintenant
avec des actionnaires or c'est un projet qui va coûter
très cher".