Passer au contenu

Photo : comment Google mise sur le logiciel et l’IA pour sublimer le module caméra unique du Pixel 3

Les Pixel 3 et Pixel 3 Plus s’appuient sur le logiciel et l’intelligence artificielle pour sublimer et enrichir en fonctionnalités l’unique module caméra arrière. Mais ce dernier est loin d’être un modèle bas de gamme.

A l’heure où les constructeurs ajoutent des modules caméra arrière à qui mieux-mieux – le futur Galaxy A9 en aurait quatre et le prochain Nokia 10, cinq ! – Google la joue simplicité : les Pixel 3 et Pixel 3 XL sont équipés d’un seul module arrière. Si le géant de la pub en ligne a bien mis deux modules en façade pour les selfies (un ultra grand angle 19 mm et un grand angle 28 mm), le module caméra arrière est un « traditionnel » module de 12 Mpix. Un capteur de « dernière génération » selon les responsables de Google, une mention qui ne veut à peu près rien dire.

À lire : Google Pixel 3 : cinq nouveautés qui le rendent encore plus intelligent

Heureusement, la fiche technique est un peu plus explicite : le capteur d’image du module arrière est un composant de 12,2 Mpix équipé de photosites de 1,4 micron, comme ceux des iPhone XS et XR. Mais une mention technique saute aux yeux : le capteur est basé sur une technologie « dual pixel AD », un type de capteur où chaque photosite est subdivisé en deux avec une moitié de la surface dédiée à la récupération d’une couleur primaire (vert, rouge ou bleu) et l’autre partie à la mise au point par corrélation de phase (phase detection en anglais).

Capteur Dual Pixel : donner du grain à moudre à l’IA

Ce type de capteur n’est disponible à l’heure actuelle que chez deux industriels : Samsung Electronics et Canon, qui sont les seuls à produire de tels composants. Le premier intègre des capteurs Dual-Pixel dans les Galaxy S depuis la génération 7 tandis que le second en équipe ses reflex depuis l’EOS 70D en 2013 (et dans ses hybrides depuis l’EOS M5). Notre pari ? Google est allé se fournir en capteurs chez Samsung, qui est en train de pousser à fond la branche « image » de sa division semi-conducteurs afin d’attaquer Sony sur ses terres. Et nous serions même prêts à parier que ce capteur est conçu sur une technologie « empilée » (stacked CMOS) que Samsung maîtrise désormais et qui offre des vitesses de lecture énormes. Loin d’être un simple détail technique, le fait que le capteur soit Dual Pixel et (à priori) à technologie « empilée » est une condition technique nécessaire à la réalisation des objectifs logiciels de Google.

Et l’objectif du mode « Top Shot » est de réussir le cliché parfait en se basant sur une rafale. Une rafale « invisible » qui commence un peu avant la pression du déclencheur (on parle de pre-buffering) et qui donne des images à mouliner aux algorithmes de l’appareil. Sur la base des centaines de millions d’images analysées pendant des années par Google, l’IA des Pixel 3 détermine la meilleure photo du lot : le moment où tout le monde sourit et a les yeux ouverts par exemple. Heureusement, l’utilisateur a quand même la possibilité de revenir sur la séquence et de faire le choix à la main. Si le pre-buffering n’est pas récent – Panasonic l’intègre dans ses Lumix avec la fonction rafale 4K lancée avec le Lumix G7 – l’analyse automatique de la bonne image est la vraie nouveauté du monde de la photo. La vidéo ci-dessous est assez parlante – mais il faudra attendre le test pour vérifier si elle réaliste.

https://www.youtube.com/watch?v=RceKoQQlf_o

Module caméra unique : l’ADN de HTC

À lire : Avec le rachat de HTC, Google va-t-il concurrencer Apple ?

Côté optique, le module caméra arrière profite d’un grand angle classique équivalent à un 28 mm f/1.8. Rien d’impressionnant sur le papier, mais en optique les chiffres de focale et d’ouverture ne font pas tout : la qualité de la formule optique, impossible à qualifier ou quantifier autrement que par des indices obscurs (nombre de lignes, megapixels perçus, etc.) influe largement plus sur le piqué des images. Et dans ce domaine, Google semble avoir beaucoup hérité de l’entreprise taïwanaise dont il s’est payé la plupart des ingénieurs : HTC.

HTC U11 à gauche, HTC U11+ à droite.

Avant de se faire avaler par le géant Google pour lequel il avait déjà produit des appareils (Nexus, Pixel, etc.), HTC a brillé en photo avec ses HTC U11, U11+ et U12+, des terminaux qui surclassaient en qualité d’image le reste de la compétition avec un unique module caméra. Si le secret industriel est difficile à percer, une des raisons de cette domination en qualité d’image pure que nous avions pu identifier était la grande qualité des blocs optiques. Non seulement le piqué d’image était, à définition égale, largement supérieur aux ténors – Apple et Samsung inclus – mais sur les dernières générations (U11+, U12+) les formules optiques et traitement de surface étaient aussi bien plus performants avec une résistance au flare impressionnante et une grande homogénéité d’image (les clichés étaient propres jusque dans les coins).

Le Pixel Visual Core

Capteur ultra rapide à faire la mise au point, bloc optique ultra solide sans doute hérité de l’expérience de HTC et processeur d’image maison aux commandes (le Pixel Visual Core hérité du Pixel 2) qui lui permet de piloter sa plateforme technique de manière plus performante qu’avec l’ISP intégré au processeur Qualcomm embarqué (Snapdragon 845)… Un cocktail assez détonnant pour que Google juge la plateforme matérielle suffisamment performante et n’ajoute pas de module supplémentaire. Ce qui ne l’empêche pas de proposer des technologies jusqu’ici réservées aux appareils à double module : la rapidité de synchronisation entre le capteur et le processeur d’image Pixel Visual Core (un IPU, Image Processing Unit) permet aux Pixel 3 de générer des flous d’arrière-plan – l’appareil combine cette fois-ci une image instantanée et plusieurs mesures de profondeur réalisées avec quelques centièmes de seconde d’intervalle.

Qualité optique au service du zoom numérique

L’une des fonctionnalités les plus intéressantes introduites par les Pixel 3 et Pixel 3 XL est le zoom numérique logiciel, le « Super Res Zoom ». Un système grâce auquel l’appareil va profiter des légers mouvements du photographe pour capturer plusieurs clichés d’une même scène et améliorer la définition d’image en les combinant en un fichier super haute définition dans lequel on peut ensuite zoomer.

Google affirme, à raison, que cette technique est « une technique de photographie computationnelle traditionnellement utilisée en astronomie et en imagerie scientifique » : des astronomes amateurs en passant par les sondes lancées dans le système solaire, ce système d’amélioration de la qualité d’image est apprécié car il produit des images de bonne définition en partant de capteur très sensibles mais de définition médiocre.

Les Pixel 3 profiteraient ici de l’excellente résolution (on parle aussi du pouvoir séparateur) de l’optique qui permettrait au capteur de « cracher » sa définition maximale. En effet, équipé d’une optique médiocre, un capteur de 12 Mpix ne produirait des clichés que d’une définition « perçue » de 4 à 6 Mpix – il faut une optique d’excellente qualité pour que le « perceptive megapixel » d’un capteur soit à son maximum. Selon toute vraisemblance, l’excellence de l’optique héritée de HTC permettrait aux ingénieurs de Google de récupérer suffisamment de détails pour combiner des clichés en ultra haute définition et ainsi offrir un zoom numérique de qualité.

Attention cependant : un zoom numérique ne peut simuler l’effet de compression des perspectives des longues focales. C’est un simple « crop » (recadrage) d’une image grande-angle et il ne faudra pas en attendre le punch d’une image capturée avec un vrai téléobjectif. Quant à l’utilisation de ce mode « Super Res Zoom », il reste à voir comment les algorithmes vont se comporter sur les sujets un peu mobiles.

Vision nocturne

Dans le domaine des basses lumières, Google compte aussi sur le logiciel. Sa technologie « Night Sight » de vision nocturne ne s’appuie par tant sur la plateforme matérielle que sur le machine learning pour recréer des détails et des couleurs en basses lumières. Le système consiste en une prise de vue qui dure 2 à 3 secondes et qui combine plusieurs images pour en recombiner une qui soit bien exposée, nette et en couleurs, même en basses lumières.

Malheureusement pour l’effet de surprise voulu par Google, ce mode de shoot combinatoire sur plusieurs secondes en basses lumières existe déjà chez… Huawei, dans le P20 Pro notamment. Et ses résultats sont excellents, grâce aux algorithmes mais aussi au capteur secondaire noir & blanc de 20 Mpix qui épaule le module caméra principal de 40 Mpix. Tandis que l’un travaille sur la couleur, le second récupère des détails et élimine le bruit numérique pour obtenir des clichés incroyablement propres.

À lire : Le Huawei P20 Pro peut-il remplacer votre appareil photo en vacances ?

Si nous n’avons aucun doute quant à la qualité du travail des ingénieurs de Google, les Pixel 3 partent ici handicapés car privés de béquille (le second module caméra de Huawei). Et par leur capteur : si le Dual Pixel est un tueur en matière d’autofocus, le fait que la moitié de la surface de chaque photosite ne soit pas dédiée à la collecte de lumière mais à l’AF fait que les clichés sont généralement plus bruités que ceux produits par des capteurs CMOS classiques. Vivement les tests comparatifs.

L’IA et le machine learning au service… des selfies

Google

La fiche technique photo des Pixel 3 et 3 Plus n’est complète que si l’on inclut les deux modules caméra en façade : l’un grand angle l’autre ultra grand-angle comme on l’a vu au début de cet article. Si ces deux modules servent essentiellement pour la prise de selfies, le second module est plus particulièrement dédié aux portraits de groupe, la grande couverture angulaire permettant de faire rentrer plus de gens dans le champ de vision de l’appareil.

Toute l’intelligence de l’appareil – c’est l’intérêt du logiciel – est bien évidemment au service de ces modules en façade et non seulement la simulation d’arrière-plan flou mais aussi le mode Top Shot sont disponibles en mode selfie. Ou comment toutes ces années de recherche en analyse d’image, en apprentissage profond et autre intelligence artificielle réalisés par les ingénieurs de Google sont mises au service des égoportraits… Nous vous laissons en tirer vos propres conclusions…

La nôtre étant que plutôt que de jouer la surenchère des modules caméra, Google a profité du savoir-faire de HTC pour développer, sur une base technique solide mais classique, une suite de logiciels capables d’en tirer le meilleur parti. Les tests diront si les résultats sont au niveau des promesses mais le pari est risqué du point de vue marketing… et technique.

🔴 Pour ne manquer aucune actualité de 01net, suivez-nous sur Google Actualités et WhatsApp.