mardi 1 janvier 2013

Le codec XAVC : développement et implémentation par Sony

Ce texte est une traduction du document XAVC Specification Overview publié par Sony

1) Introduction
Le codec H.264/MPEG-4 Part-10 AVC (pour Advanced Video Coding) est une technologie utilisée principalement pour l'exploitation de la TVHD, c'est à dire pour le Blu-Ray, la diffusion des programmes de télévision (TNT, câble et satellite)et la vidéo sur Internet. Les premières standardisations remontent à 2003, et son développement s'est poursuivi jusqu'en 2009 de façon à inclure d'autres normes de distribution HD. Aujourd'hui, cette famille de niveaux opérationnels couvre un spectre très étendu en matière de compressions d'image animée, qui commence avec des débits de quelques kilobits par seconde pour culminer à 1,2 Gbps, avec des paramètres incluant - entre autres - des résolutions jusqu'au 4K, la 3D stéréoscopique, la quantification sur 14 bits, et jusqu'à plus de 100 images par seconde. Sony a été un des membres actifs du JVT (Joint Video Team) qui a procédé à l'implémentation de cette norme, et a réalisé des efforts significatifs dans le développement du format AVCHD et des niveaux/profils H.264.

L'extension du format H.264 a coïncidé avec le développement rapide des technologies d'imagerie en haute résolution et avec des fréquences d'image rapides (capteurs et écrans principalement) et des technologies de stockage. Une technologie de compression aux performances élevées telle que H.264 joue un rôle central dans l'encodage des données image générées par les capteurs actuels et leur sauvegarde dans des fichiers de dimension relativement peu importantes, sur des cartes mémoires aux dimensions restreintes et d'un coût abordable.
La Figure 1 montre les progrès des technologies des capteurs CMOS, avec en particulier des capteurs développés par Sony et ayant des taux de transfert de l'ordre de 30 Gbps. C'est le développement de ces technologies permettant de hautes résolutions et des débits importants qui jouera un rôle central dans l'imagerie numérique des prochaines années.
La Figure 2 montre les progrès des technologies utilisées par les cartes SxS. Celles-ci permettent actuellement des enregistrement temps réel à 1 Gbps et plus, et leur capacité n'a cessé d'augmenter au fil des années.
Ce document montre le développement du format XAVC et explique comment celui-ci est appelé à prendre place dans le workflow de production aux côtés des autres formats de compression tels que MPEG2, MPEG 4 SStP et les différents formats RAW des constructeurs.

 Fig.1 - Progrès des technologies CMOS
Fig.2 - Progrès de la capacité des cartes SxS

2) Le format XAVC
Développé par Sony, ce format est conforme à la norme H.264 level 5.2, avec la vidéo encapsulée dans un fichier MXF Op-1A, avec les éléments audio et les métadonnées. L'objectif des développeurs était de concevoir une famille d'outils capables de gérer des cadences d'image élévées (HFR, ou High Frame Rate) et des résolutions jusqu'au 4K. La Figure 3 montre les possibilités du format XAVC, bien qu'à l'heure actuelle, les caméras disponibles ou à venir ne permettent pas forcément la mise en œuvre de l'ensemble des caractéristiques offertes.

Fig.3 - Le format XAVC

3) XAVC et 4K
L'utilisation de la résolution 4K est actuellement restreinte  au cinéma numérique, avec la norme DCI (Digital Cinema Initiative)  dont le standard est 4096 x 2160 @24Fps avec une compression JPEG2000 et des fichiers MXF. Cependant, l'histoire se répète et plusieurs constructeurs de téléviseurs ont commencé la commercialisation d'écrans plats et de systèmes de projection ayant une résolution 4K. Bien que la diffusion en 4K ne soit pas pour un avenir proche, certains opérateurs et producteurs la considèrent déjà comme une opportunité pour le développement de nouveaux contenus. Les écrans 4K pourraient s'avérer bénéfiques pour les contenus TVHD actuels, car le processus interne d'up-conversion permettrait de réduire les effets de la structure ligne et pixel sur les très grands écrans et, par ailleurs, on pourrait voir diffuser plusieurs flux HD simultanément et en pleine résolution. Alors qu'aujourd'hui même la plupart des appareils photo numériques et même les smartphones offrent des résolutions natives au-delà de la HD, la télé en 4K pourrait servir d'écran idéal pour ces appareils.

Le format XAVC permet différentes configurations, et la bande passante pour le 4K peut être réduite à moins de 100 Mbps, en fonction de la structure de GOP, de la fréquence d'image et de l'échantillonnage. Ceci aurait certainement un intérêt pour certaines applications B2B consommatrices d'imagerie à très haute résolution.

La plupart des écrans 4K commerciaux auront une résolution réelle réduite à 3840 x 2160, un quadruple de 1920 x 1080 (Quad HD ou QFHD), qui est différent de la résolution pour le cinéma, laquelle implique 4096 pixels horizontalement. Le format XAVC couvre les deux formats d'échantillonnage, 4096 et 3840, ce qui lui permettra de produire aussi bien pour de utilisations cinématographiques que télévisuelles.

La caméra Sony PMW-F55 enregistre en 4K XAVC Intra, avec des débits allant de 240 Mbps @24P à 600 Mbps @60P, à l'aide de nouvelles cartes SxS Pro+. Ces nouvelles cartes SxS Pro+ sont compatibles avec tous les lecteurs actuels de cartes SxS et peuvent enregistrer avec un débit allant jusqu'à 1,3 Gbps. Sur une carte SxS Pro+ de 128 GB, la F55 peut enregistrer 50 minutes en 4K@24P ou 20 minutes environ en 4K@60P.

4) Les flux de travail en XAVC, RAW et ACES
La question qui agite actuellement la communauté de la production cinématographique en numérique concerne la standardisation d'un ensemble comprenant les images générées sur film, en numérique et celle crées par ordinateur. Le standard ACES (Academy Color Encoding System) devra permettre la création d'un cadre opérationnel commun pour l'intégration d'images de différentes origines, la manipulation des rushes en post-production (l'étalonnage en particulier), et permettre l'intégration dans différents outils de développements et de distribution. Sony participe à l'initiative ACES et a développé différentes IDT (Input Device Transforms) pour permettre à ses caméras estampillées D-Cinéma de s'intégrer dans les flux ACES. Les fichiers en 16-bit à virgule semi-flottante de ACES apporterontt beaucoup de flexibilité au processus d'étalonnage en DI (Digital Intermediate). C'est pourquoi les caméras Sony à grand capteur les plus récentes (F65+SR-R4, PMW-F55+AXS-R5, PMW-F5+AXS-R5) peuvent enregistrer des fichiers RAW sur 16-bit linéaires à l'aide des enregistreurs adaptables SR-R4 et AXS-R5.

On notera aussi que pendant qu'une caméra PMW-F5/F55 enregistre en RAW sur l'enregistreur numérique AXS-R5, les cartes SxS peuvent simultanément enregistrer des fichiers XAVC en HD, avec une synchronisation parfaite des points in et out, de l'audio et du time code, et d'autres métadonnées avec les fichiers RAW. Les fichiers XAVC sont donc en quelque sorte des fichiers de montage complémentaires du RAW et permettent à la post-production de démarrer immédiatement après le tournage.

L'étalonnage à partir des fichiers RAW nécessite une phase supplémentaire de traitement des images qui est la Dé-Bayérisation ou Dé-mosaïcage (si on peut se permettre ce néologisme). Bien que les fichiers RAW offrent un maximum de possibilités à l'étalonnage, il peut y avoir des contraintes budgétaires ou de calendrier qui obligent l'équipe de post-production à utiliser un processus plus léger et moins coûteux. L'alternative consisterait alors à effectuer le montage en 4K XAVC. La Figure 4 montre le "poids" des fichiers 4K XAVC par rapport au RAW et à la HD.

 Fig. 4 Comparaison des tailles d'image. GByte/Image

5) XAVC et TVHD
Il est souvent écrit que de nouveaux algorithmes de compression sont plus efficaces que les précédents. Bien que ce soit vrai en termes de qualité d'image obtenue avec moins de données image (ou bit rate), la complexité des schémas de codage actuels nécessite des capacités de traitement accrues de la part des unités de calcul, ce qui pourra devenir un problème lorsqu'il s'agira d'opérer la migration d'une infrastructure, avec le workflow associé, d'une génération à la suivante. Les capacités de traitement requises pour décoder un flux compressé deviennent un enjeu important lorsque plusieurs fichiers sont utilisés simultanément dans une même session.

Aujourd'hui, la plus grande partie de la production broadcast utilise le format MPEG2 HD Long GOP (50Mbps ou 35Mbps) en raison des tailles de fichiers réduites, de la qualité des images, et des économies réalisées en termes de capacités de calcul. Qu'il s'agisse d'émissions d'information ou de télé-réalité, de diffusions sportives en direct ou de shows télévisés, le débit à 35 ou 50Mbps est la norme dans l'infrastructure TVHD basée sur l'enregistrement et la diffusion à partir de fichiers.

La Figure 5 montre les performances comparées du décodage des flux vidéo compressés avec différents codecs, sur une même plateforme, et sans recourir à des accélérateurs en hardware ou à des GPU. L'échelle horizontale représente des Images par seconde, et il apparait de manière évidente que le MPEG2 HD à 50Mbps est le plus efficace parmi tous les concurrents.

Fig.5 Décodage en software-only. Images par seconde

Dernièrement, plusieurs diffuseurs se sont montrés intéressés par l'adoption du format H.264 Intra-image pour plusieurs raisons :
-  Consolidation de tous les fichiers de programme, du prime time au news, dans un seul codec encapsulé dans un conteneur parfaitement reconnu dans l'industrie
- Echantillonnage sur 10 bits, contre 8 bits seulement pour le MPEG-2
- La qualité de l'image à 50 Mbps est perçue comme étant insuffisante pour remplacer les formats sur bande tels que le HDCAM
- Capacités de stockage, bande passante et puissance de calcul sont devenus plus accessibles et à même de traiter simultanément plusieurs flux à haut débit

En TVHD, le codec XAVC peut être considéré comme un niveau intermédiaire, susceptible de représenter une alternative au format de "mastering" (MPEG4 SStP ou HDCAM-SR) et le MPEG2, voir Figure 6.

Fig.6 Les formats de compression en TVHD 

Le codec XAVC permettra aussi l'enregistrement à une fréquence d'image élevée sur un caméscope, en full HD. La caméra PMW-F55 enregistre en full HD, 1920x1080 sur 10 bits en 4:2:2 et avec avec une fréquence allant jusqu'à 180 images/seconde, sur une carte mémoire SxS Pro+. Avec deux cartes de 128 GB, la capacité d'enregistrement en continu s'élève à 40 minutes environ, à 180 images/sec.

6) La structure du codec XAVC
Le format XAVC est conforme aux spécifications du H.264, et Sony s'est attaché à produire une grande qualité d'image tout en conservant l'interopérabilité avec les produits des autres constructeurs. La Figure 7 montre un flux XAVC basé sur une structure traditionnelle KLV. L'élément clé est ici l'intégration image par image de SPS (Sequence Parameter Set) et de PPS (Picture Parameter Set) dans le flux général. Ceci permet une optimisation dynamique de la qualité de l'image pendant l'enregistrement, et les valeurs ayant servi à cette optimisation resteront attachées au fichier image après le montage. Ceci permet aussi d'optimiser la qualité de l'image en playback - avec accès aléatoire. En cas de traitement en Long-GOP, SPS et PPS apparaitront au début de chaque GOP.

  Fig.7 Structure du byte stream XAVC

L'encodeur XAVC dispose d'un mécanisme de pré-encodage qui permet d'optimiser l'utilisation des données relatives à la compression de chaque image ou flux de données. Ce mécanisme de pré-encodage est intégré dans les encodeurs software et hardware, tout à la fois. Ce processus d'encodage à deux passes a lieu pendant les enregistrements en HFR et 4K.

Fig.8 Mécanisme de pré-codage
Fig.9 Le chipset du codec XAVC/MPEG2

Sony a développé un chipset qui réalise les processus d'encodage et de décodage du XAVC, ceci afin de rendre possible la production de caméscopes portables et disposant d'une consommation électrique relativement modeste. Ce chipset réalise tout autant l'encodage et le décodage du MPEG2. Cette capacité multi-codec est censée accroitre la durée de vie du produit. Elle permettra aussi aux exploitants de réaliser facilement la conversion entre MPEG2 et XAVC. Les premiers produits à exploiter cette capacité sont les caméras PMW-F5 et PMW-F55, qui ajoutent aussi le MPEG4 SStP et le RAW à XAVC et MPEG2.

Beaucoup de possibilités sur le papier. Attendons d'en voir la mise en œuvre et les images produites en production ET en post-production pour juger de l'avenir du concept.

Aucun commentaire:

Enregistrer un commentaire