La compression audio

De Wiki info-lab.fr
Aller à : Navigation, rechercher

Les fichiers audio sont omniprésents en informatique mais ils posent un problème de taille (sans jeu de mots). Les débuts de la numérisation audio à la fin des années 70 et l'arrivée du CDA (Compact Disc Audio) n'ont pas assez pris en compte la taille des fichiers obtenus. Un enregistrement d'une minute au format CDA (défini par la norme Red Book) PCM ou WAV occupe une dizaine de Mo environ.
La compression des fichiers audio est donc devenue indispensable ; elle associe deux techniques :

  • Une compression destructive spécialement adaptée aux fichiers audio. C'est celle qui sera abordée dans cet article.
  • Une compression non destructive comme sur n'importe quel type de fichier, thème abordé dans l'article sur La compression de fichiers.

Sommaire

Différentes techniques de compression audio destructive

Contrairement à la compression standard de fichiers dite non destructive, la compression audio modifie les données de manière non réversible : Une fois décompressé il n'est plus possible de revenir exactement au fichier original.
La numérisation d'un signal audio consiste en :

  • Son échantillonnage : Découpage d'un signal en petites périodes de temps, la fréquence d'échantillonnage. En général fixée à 44,1 KHz (44100 fois par seconde) depuis l'avènement du CDA, ou 96 KHz pour les enregistrements audio de qualité.
  • Sa quantification : Attribution d'une valeur à chaque échantillon, en général une valeur sur 16 bits (65536 valeurs possibles), parfois 24 bits (16777216 valeurs possibles) pour les enregistrements audio de qualité.
  • Sa codification : Manière de représenter la valeur quantifiée à chaque échantillon. Le codage choisi aura une influence directe sur l'efficacité de la compression non destructive appliquée à l'issue.

Une fois le son numérisé, les différentes compresseurs (quelque soit leur efficacité) utilisent presque toujours les mêmes techniques :

  • Retrait des fréquences non audibles ou peu audibles par l'oreille humaine.
  • Retrait des transitions trop fines et compression des silences.
  • Lissage de la dynamique du son : Au delà d'un certain volume, le son est atténué. Cela a pour défaut de réduire la différence de volume entre les sons les plus forts et les plus faibles et c'est presque inaudible à l'oreille. De nombreuses techniques type "Boost" atténuent ce défaut en augmentant en sortie les volumes les plus haut de manière à recréer une dynamique du son artificielle.
  • Suppression de la redondance stéréo : La différence à un instant t est souvent faible entre le signal véhiculé par le canal droit et celui véhiculé par le gauche. Le fait de mémoriser une seule fois les données communes aux deux canaux génère un gain de place important.
  • Le codage entropique : Il consiste à prédire la valeur d'un échantillon à partir des échantillons précédents, puis à coder la différence entre la prédiction et la réalité.

Principaux formats audio

Sans compression destructive

Les compresseurs non destructeurs sont en général plus efficaces que les compresseurs généralistes type ZIP grâce aux techniques de prédiction linéaires.

  • La version "lossless" de WMA est comme son nom l'indique non destructive.
  • FLAC (Free Lossless Audio Codec) : Libre, format de fichier native Flac, encodeur libFLAC. Soutenu par la fondation xiph.org, le CODEC libFLAC peut être intégré au format OGG (OGG FLAC).
  • ATRAC Lossless : Evolution du Adaptive Transform Acoustic Coding (ATRAC) développé par Sony pour son MiniDisc. Progressivement abandonné depuis 2007 au profit des standards du marché.
  • Apple Lossless (ALAC) : crée en 2004 et rendu libre (licence Apache) en 2011, développé principalement pour écouter de la musique sur de petits équipements peu puissants (baladeurs).

Avec compression destructive

  • Le format OGG développé et promu par la fondation xiph.org. Il utilise les CODECS de la famille vorbis tel oggenc. Le fichier son codé par Vorbis est au final encapsulé avec d'autres fichiers (métadonnées ID3, paroles Karaoké, images et miniatures associées...) pour former une archive OGG vue comme un fichier unique.
  • Le format MP3 développé conjointement par Thomson et l'institut Fraunhofer pour le projet MPEG-1/2 Audio Layer3 en 1992. Très courant, possédant de nombreux CODECS dont mp3lame, et le premier format à intégrer des métadonnées ID3. Initialement compressé en mode CBR, des nouveaux codecs ont permis la compression en mode VBR.
  • Le format WMA : Lancé par Microsoft en 1999, très semblable au MP3 mais plus performant que lui dans le choix du retrait des fréquences et informations inaudibles par l'oreille humaine. Premier format sonore avec compression destructive à intégrer des protections de type DRM. 4 versions : standard, pro, lossless et voice. les 2 premiers sont capables d'encoder en CBR et VBR.
  • Le format AAC : Issus des travaux de Sony, Dolby et Fraunhofer pour la partie audio du projet MPEG-4. Plus performant que MP3 (environ 25 % de compression en plus pour la même qualité audio). Choisi par Apple comme format de fichier audio par défaut car capable d'intégrer des DRM.

Principaux CODECS

Un CODEC, COmpresseur/DECompresseur ou CODeur/DECodeur est l'algorithme qui réalise la compression et la décompression d'un format.
Certaines bibliothèques telles que mp3lame ou oggenc, n'intègrent que le compresseur d'un CODEC ; lire un fichier audio crée par ces compresseurs nécessitera de posséder aussi le décompresseur du CODEC, en général intégré au sein d'un framewok multimédia tel que Xine ou GStreamer.

  • Vorbis : Algorithme choisi pour les fichiers OGG, mis en oeuvre par oggenc par exemple. Encodage en mode Variable Bit Rate (débit variable, par opposition à CBR). De part l'utilisation de techniques de compression et d'encodage inhabituelles il restitue une qualité sonore sans égal sur des bitrate assez faibles (entre 64 et 128 Kb/s), son avantage qualité s'amenuisant progressivement à partir de 160 kb/s. Il est par contre plus lent à l'encodage que ses concurents.
  • FAAC : codec libre pour encoder au format AAC. Très efficace, excellent compromis qualité/taux de compression/temps de compression.
  • La bibliothèque libmp3lame principal encodeur libre pour MP3, pouvant encoder en VBR contrairement aux premiers formats MP3 ; A qualité audio égale, le taux de compression obtenu avec le codec mp3 sur un bitrate faible (entre 32 et 96 kb/s) est inférieur à la plupart de ses concurents (vorbis, wma...). Le codec MP3PRO corrige ce petit défaut.
  • libFLAC le principal encodeur FLAC, sous licence BSD.
  • La qualité audio des fichiers mp3, mp3pro, wma, vorbis, aac d'un bitrate egal ou supérieur à 160 Kb/s est sensiblement la même. La différence d'efficacité entre CODECS est plus marquée sur les fichiers au bitrate faible (128 kb/s et en deça), sur le taux de compression obtenu ou le temps d'encodage nécessaire.
  • WAVE_FORMAT_WMAUDIO2 (wma), WAVE_FORMAT_WMAUDIO3 (wma pro) et WAVE_FORMAT_WMAUDIO_LOSSLESS (wma lossless) sont les principales fonctions de compression/décompression propriétaires intégrées dans le lecteur Windows Media Player et fournies par Microsoft aux équipementiers voulant supporter WMA.
Outils personnels
Espaces de noms

Variantes
Actions
Navigation
Outils