La prochaine génération d'écrans Ultra HD HDR offrira au spectateur une expérience visuelle très différente si on la compare à ce que la technologie a pu lui offrir jusqu'à aujourd'hui. Et pour le comprendre il faut intégrer un fait : la question centrale de l'expérience audiovisuelle ne relève pas du nombre de pixels, contrairement à ce que pourrait laisser supposer les publicités des constructeurs. Explication…

Différence entre un affichage SDR et HDR en vidéo.Différence de rendu entre un affichage SDR et HDR.

Dans les mois et les années à venir, nous allons basculer dans un nouveau monde vidéo avec l'Ultra Haute Définition. C'est un saut qualitatif tel que nous ne l'avons peut-être pas connu depuis le passage de la télévision en noir et blanc à la télévision en couleur. Pour comprendre la transition en cours, il faut revenir aux fondamentaux de la vidéo et à son ADN d'origine. À la base du système vidéo, il y a un couple mythique sur lequel tout repose : le gamma et le gamut.

Gamma & gamut

À chaque époque, le standard TV en vigueur est une norme globale qui encadre le transport et la diffusion d'images en vidéo jusqu'à l'écran final. Elle repose principalement sur :

→ le contraste de l'image restituée à l'écran, conséquence de la courbe de gamma. L’appellation OETF (Opto-Electrical Transfer Function) est de plus en plus courante pour réunir toutes les courbes de contraste électronique qui s'appliquent au contraste optique capté par la caméra et qui “cuit” le signal à la captation. À la diffusion, une courbe inverse, appelée EOTF (Electro-Optical Transfer Function), peut être appliquée dans l'écran pour passer du signal électronique à l'image optique restituée, en s'approchant de la réaction physiologique de l'œil humain et de l'intention artistique voulue ;

→ le rendu colorimétrique de l'image, conséquence de l'étendue de l'espace colorimétrique offert par la norme en vigueur, est couramment appelé gamut. Plus le gamut est large, plus le système est subtil en nuances et capable de restituer une large palette/étendue de couleurs que l’œil humain peut discerner.

gamut & gamma en vidéo

Le terme de dynamique représente la capacité d'un dispositif de captation, de stockage et de diffusion à encaisser et restituer le plus large contraste d'une scène, depuis les très faibles nuances des basses lumières jusqu'à celles des plus hautes lumières. Plus l'étendue du contraste capté et restitué est grande, plus la dynamique mesurée l'est si le nombre de nuances numériques le permet durant le stockage. L'augmentation de l'étendue dynamique va de pair avec l'augmentation de la quantification du signal, c'est-à-dire le nombre de bits utilisés pour chaque pixel.

On peut quantifier la dynamique avec différentes unités de mesure : par exemple, avec l'écart en nombre de diaphragmes de la scène filmée, ou par l'intensité lumineuse exprimée en LUX, en Candela (cd) ou en Nits – appellation anglo-saxonne qui sonne sans doute bien… Le transport de la vidéo en numérique implique d'augmenter la quantification en bits au fur et à mesure que la dynamique augmente.

Par exemple, pour une dynamique d'environ 6 diaphragmes, une quantification de 8 bits/pixel/composante couleur reste acceptable. Pour une dynamique d'environ 14 diaphragmes, un signal digne de ce nom doit offrir au minimum 15/16 bits en linéaire ou 10/12 bits en LOG pour que chaque diaphragme soit suffisamment représenté à l'écran, et durant toutes les étapes du processus de post-production pour qu'un nombre significatif de nuances soutienne un certain niveau de confort visuel (pas d'effet de banding, d'escaliers à la place des dégradés), ainsi que pour la marge que demande le travail d'étalonnage des images (on va étirer, déplacer ou compresser les nuances entre le noir et le blanc).

Aujourd'hui, certaines caméras peuvent proposer des enregistrements jusqu'à 16 bits/composante (Sony F65, F55, Venice, Panavision DXL, Red, ainsi que le workflow ACES en post-production), mais cela reste cantonné à l'espace de la prise de vue dans une qualité supérieure à n'importe quel dispositif d'écran ou de projecteur actuel.

Le système de diffusion vidéo actuel, appelé ITU Rec709, est contraint par un gamma ancien et limité dont le pic lumineux, à 100 % du signal vidéo, correspond à 100 cd/m2 (100 Nits) à la diffusion, avec un niveau de noir à 0,1 cd/m2. Quant au gamut (le triangle qui définit la carte du territoire colorimétrique) du standard Rec709, il est en capacité de reproduire moins de 35 % de ce que nos yeux nous permettent de discerner (le fameux diagramme de chromacité CIE de 1931 qui représente sous la forme d'un fer à cheval le territoire colorimétrique visible de l'œil humain).

Ce système est désormais appelé SDR (Standard Dynamic Range) par opposition au signal HDR (High Dynamic Range) qui dépasse cette contrainte dynamique à l'affichage.

Le HDR vidéo à la captation

Les caméras vidéo récentes offrent désormais 14/15 diaphragmes de dynamique ainsi qu'un large gamut, alors qu'aucun écran n'est en mesure de restituer la scène captée avec fidélité en matière de contraste, de luminosité et de nuances colorimétriques. C'est une situation particulièrement ubuesque. Mais en vidéo, nous sommes assez coutumiers du fait : certaines de nos émissions TV actuelles sont encore diffusées en HD (1 920 x 1 080 px) dans un mode entrelacé “50i”, comme au bon vieux temps des écrans cathodiques !

La captation vidéo en RAW ou en LOG constitue donc une première étape où il n'est aucunement question d'un dispositif de diffusion en particulier, mais qui permet d'avoir suffisamment de marge, non seulement pour alimenter les progrès à venir du calcul mathématique, obtenir plus ou moins de sensation de piqué, de colorimétrie, de dynamique, etc., mais aussi pour la phase intermédiaire de post-production et d'étalonnage, s'il y a lieu.

À gauche, une image S-LOG3/LOG-C. À droite, l'image après traitement/conversion (EOTF) en Rec709.

Cela implique donc un traitement du signal brut avant tout affichage à l'écran, notamment en terme de contraste que l'on va appeler EOTF (Electro-Optical Transfer Function) et qui va donner à l'image affichée une interprétation visuelle adéquate, adaptée aux capacités dudit dispositif de visualisation et de sa norme.

Au cinéma

Les salles de cinéma numérique offrent un écosystème cible évolué par rapport à nos écrans HDTV Rec709, appelé DCI-P3. Toutefois, le contraste plafonne toujours en salle à 50 cd/m2 en projection, hors solution HDR comme le procédé Éclair Color qui permet des pics à 100 cd/m2. En outre, le monde du cinéma est le seul à pouvoir utiliser le terme 4K. En effet, le 4K est un paramètre d'un écosystème spécifique à destination des salles de cinéma, qui ne se limite pas au simple nombre de pixels en horizontal. C'est un ensemble de paramètres qui s'intègrent dans la norme DCI 4K (Digital Cinéma Initiative de 2005), un espace à part en matière de cadence d'images par seconde, de ratio H/L, d'espace colorimétrique (45,5 % du CIE 1931)…

À la maison

Mais les choses bougent vite pour le grand public, et le prochain écosystème vidéo qui s'approche va changer la donne ! Pour commencer, le HDR vidéo n'a rien à voir avec le HDR photo. Les Arri Alexa, Red Epic ou encore Sony F65 et Venice encaissent des plages de contraste de l'ordre de 14 diaphragmes depuis longtemps. Et toute la génération de caméras qui enregistrent en LOG ou en RAW est apte depuis longtemps à la diffusion en HDR qui s'annonce. Cela fait donc pas mal de temps que le monde de la captation vidéo s'est affranchi de l'écosystème mesquin de diffusion HDTV qui brûle les hautes lumières et ne respecte pas les noirs profonds.

Pour une même exposition extrême, résultats en Rec709/SLOG3/RAW.

Comment un nouvel écosystème pourrait s'y prendre pour balayer l'ancien monde et offrir une toute nouvelle expérience dans l'univers de l'image ? La révolution vidéo en HDR qui s'annonce fait partie du monde UHD et la transition vers le nouveau monde se déroule selon différentes phases et normes.

La première norme prend le nom de Rec2020 et propose, en plus du doublement de la définition horizontale et verticale vis-à-vis de la HD, de modifier la cadence et le balayage de l'image en passant de 50i à 50P ou 100P en Europe ; de passer la quantification de 8 à 10 bits et de changer d'espace colorimétrique (75,8 % du CIE 1931) pour dépasser le DCI-P3 (cinéma).

Durant la phase de transition entre la HD et l'UHD, certains écrans vendus dans l'intervalle peuvent ne proposer qu'une dalle à la définition upscalée (mise à l'échelle) de HDTV à UHD, sans être compatibles avec aucun autre paramètre de la norme.

En route vers le Rec2100

Pour transformer réellement l'expérience du spectateur, il faut attendre l'étape suivante, celle qui ajoute un étage à la fusée Rec2020 et qui se nomme Rec2100. En plus de l'utilisation d'un gamut beaucoup plus large que le Rec709, il faut offrir au spectateur l'expérience d'un contraste large et réaliste, c'est-à-dire avec des noirs profonds (aucune lumière émise par les LED, donc privilégiant la technologie OLED) et avec une puissance lumineuse à la mesure du contraste de la scène filmée !

Le HDR vidéo ajoute ainsi à la fusée Rec2020 deux nouveaux étages :

un étage avec des noirs absolus (inférieur à 0,05 cd/m2) et plus de nuances dans les basses lumières ;
→ un étage avec plus de nuances dans les hautes lumières (brillances) et des pics lumineux à 1 000 cd/m2, voire à 4 000 ou 10 000 cd/m2 !

Les écrans grand public proposeront des pics lumineux autour de 1 000 cd/m2, noté 1 000 Nits. Quant aux écrans professionnels, Dolby cible des pics lumineux sur ses téléviseurs jusqu'à 10 000 Nits, sous l'appellation Dolby Vision !

Ergo, les écrans à dynamique standard (SDR) ont vécu, vive le HDR vidéo !

Le HDR vidéo

Nous voici donc avec un nouvel écosystème et de nouveaux écrans Rec2100 offrant une expérience améliorée, en rupture dans les domaines suivants :

→ définition en 3 840 x 2 160 px (8 Mpx) ;
→ cadence à 50P ou 100P (nombre d'images en mode progressif et non entrelacé) ;
→ espace colorimétrique couvrant 75 % du CIE1931 ;
→ noirs absolus (extinction des pixels indépendamment) ;
→ plus de nuances dans les basses et hautes lumières (10 ou 12 bits) ;
→ pic lumineux à 1 000 cd/m2 ;
→ et donc une nouvelle courbe de gamma offrant plus de dynamique.

Mais comment imaginer une transition avec autant de nouveautés, et quid de la problématique de la compatibilité avec l'ancien monde HD et ses tuyaux de diffusion ? Trois solutions sont aujourd'hui possibles :

→ une solution haut de gamme en rupture avec l'ancien monde (sur 12 bits), développée par Dolby et appelée Dolby Vision, qui utilise une courbe LOG (ST2084-PQ) à la diffusion, le signal reçu devant être traité (comme une LUT inverse-Log) par le téléviseur pour adapter le contraste étendu aux capacités de l'écran ;
→ une solution moyen de gamme, toujours en rupture avec l'ancien monde, appelée HDR 10, qui utilise la même courbe LOG que Dolby Vision, mais cette fois sur 10 bits ;
→ et enfin une solution d'entrée de gamme offrant un certain niveau de comptabilité avec les écrans non HDR (SDR pour Standard Dynamique Range), appelée HLG et développée par la BBC et NHK pour la diffusion en direct, qui cible à la fois les écrans SDR et HDR via le même signal, les écrans HDR détectant le signal homonyme et l'interprétant en utilisant le potentiel HDR.

HLG ou Hybride Log Gamma

Pour une captation en direct (enregistrement et live) sans passer par la case étalonnage, c'est l'option HLG qui sera utilisée, comme avec la nouvelle Z90 de Sony. Les solutions Dolby Vision et HDR 10 utilisent une courbe de gamma qui ressemble à la courbe LOG utilisée dans les caméras haut de gamme (voir ci-dessous la différence entre la courbe HDR ST-2084 de Dolby Vision et HDR 10, et une courbe S-LOG3/LogC).

La courbe de gamma HLG est une courbe hybride (Hybride Log Gamma) qui reprend dans les basses et moyennes lumières le profil de la courbe Rec709, puis s'arrondit en montant dans les hautes lumières pour ressembler à une courbe LOG. Cette partie haute de la courbe sera mise à profit par les écrans HDR qui utiliseront leur pic lumineux supplémentaire pour la restitution des brillances de l'image, en fonction de la puissance du dispositif (oui, il y aura des différences de puissance lumineuse d'un appareil HDR à un autre…).

Les constructeurs de caméras peuvent implémenter dans les menus des courbes HLG adaptées, soit à des conditions de faible contraste, soit à des conditions de haut contraste, d'où la présence parfois de plusieurs courbes HLG, en plus de la courbe principale.

Pour la partie production, le workflow continue comme avant en LOG ou en RAW, sauf qu'à la fabrication du PAD (Support du fichier Prêt à Diffuser), l'image est convertie avec la bonne courbe de conversion (appelée EETF pour Electrical-Electrical Transfer Function) en LOG HDR version PQ ST2084 (Dolby Vision et HDR 10).

Pour que le téléviseur détecte le type de courbe et déclenche automatiquement le traitement de l'image pour l'afficher correctement, il faut normaliser le transport du signal avec des metadatas qui décrivent celui-ci à l'intérieur de la norme HDMI qui servira de tuyau final jusqu'au téléviseur. Cela nécessite donc d'intégrer dans les écrans HDR une détection et une identification du signal (PQ ou HLG), ainsi qu'un traitement de la courbe de contraste adapté (une courbe inverse OETF, appelée EOTF pour Electro Optical Transfer Function).

Aujourd'hui, seuls les périphériques compatibles HDMI 2.0a et 2.0b permettent de visualiser correctement une image HDR, soit en provenance d'un caméscope compatible HLG, soit d'un Blu-ray UHD compatible HDR 10, soit d'une vidéo en streaming compatible Dolby Vision, à condition que l'ensemble du matériel soit compatible HDR.

UHD Premium

Le label Ultra HD Premium certifie les dispositifs UHD qui sont a minima compatibles dans le grand public avec les points suivants :

→ définition d'affichage en 3 840 x 2 160 px ;
→ profondeur de couleurs : 10 bits ;
→ espace colorimétrique : entrée HDMI 2.0a compatible Rec2020 et capacité à afficher 90 % ou plus de l'espace colorimétrique DCI-P3 (espace colorimétrique utilisé pour le cinéma numérique, couvrant environ 85 % du spectre visible par l’œil humain) ;
→ compatibilité HDR : luminosité maximale d'au moins 1 000 cd/m2 avec un niveau de noir inférieur ou égal à 0,05 cd/m2 pour les téléviseurs LED, ou luminosité maximale d'au moins 540 cd/m2 avec un niveau de noir inférieur ou égal à 0,0005 cd/m2 pour les téléviseurs OLED (norme SMTPE ST2084 EOTF). La norme retenue est le standard ouvert connu sous l'appellation HDR 10.

Au final, l'Ultra Haute Définition (UHD) doit désormais être appréhendée comme un écosystème complet amélioré à plusieurs niveaux :

→ UHD (nombre de pixels multiplié par 4) ;
→ HFR (High Framerate, cadence rapide à 50 ou 100 i/s) ;
→ HDR (High Dynamic Range, augmentation de la gamme de contraste dans les noirs et les blancs) ;
→ WCG (Wide Color Gamut, ou espace colorimétrique large).

Le marché HDR est déjà présent avec Netflix, Amazon, Youtube et le Chromecast UHD HDR, ainsi que les premiers titres Blu-ray UHD comme The Revenant ou Billy Lynn.

La peinture est encore fraîche, mais les quelques ratés en matière de compatibilité entre les différents périphériques devraient vite faire partie du passé. Après avoir traversé l'expérience d'un Blu-ray en HDR ou d'une série sur Netflix en HDR (mais pas forcément en UHD au vu des débits moyens autour de 4 Mbps), il est difficile de revenir par la suite sur son ancien écran SDR.

À la prise de vue

Les fabricants sortent déjà les premiers caméscopes en entrée et milieu de gamme compatibles HDR avec des modes HLG, tels la FS5/FS7 Mark II et le nouveau petit caméscope Z90 de Sony. Côté production vidéo HDR, c'est maintenant qu'il faut s'y mettre !

En résumé

L'avenir de la télévision n'est pas centré autour de l'unique nombril marketing de la quantité de pixels (UHD), mais aussi autour des nouveautés suivantes :

diminution du niveau de noir des écrans : extinction de chacun des pixels pour un noir absolu (de 0,1 cd/m2 en HDTV à moins de 0,05 cd/m2 en UHD, jusqu'à 0,0005 cd/m2) ;
augmentation du niveau de blanc maximum : de 10 fois à 100 fois la puissance lumineuse actuelle (100 Nits pour un téléviseur HDTV) ;
augmentation de la cadence d'images de 2 fois à 4 fois la cadence actuelle (25 i/s en HDTV, à 50 i/s ou 100 i/s en UHD) ;
amélioration de la palette des couleurs : une colorimétrie moins saturée et plus nuancée (Wide Gamut) ;
taille d'écran plus importante pour bénéficier de la définition x4 ;
une connectique mise à jour en HDMI 2.0a minimum pour afficher à l'écran une image HDR digne de ce nom (correctement corrigée et interprétée).

Jean-Charles Fouché
Jean-Charles Fouché

Formateur chargé de professionnaliser les équipes techniques en France et à l'étranger, il a passé près de vingt ans à traverser les frontières avec sa caméra et son banc de montage. Ses publications