Petit lexique du son immersif : comment s’y retrouver entre les différents formats, les technologies et types de perception sonores ?

11 avr. 20237 Min read
Petit lexique du son immersif : comment s’y retrouver entre les différents formats, les technologies et types de perception sonores ?

Bien parler du son immersif – Le lexique

Comment en sommes-nous arrivés au son immersif d’aujourd’hui ? Comment avons-nous créé cette spatialisation sonore qui nous immerge dans un univers toujours plus travaillé et convaincant ? C’est le résultat de plusieurs technologies de pointe, développées au fil des années.

Pour bien comprendre l’audio immersif et ses enjeux, il faut d’abord en comprendre les termes, parfois complexes.

Les formats, au cœur de la conception de l’immersion

Avant toute chose, le son immersif se travaille dans les formats. Plusieurs techniques permettent de moduler et transformer le son, le rendant toujours plus adapté à l’humain. Nous sommes naturellement habitués à entendre des sons provenant de nombreuses directions, constamment. Le son se travaille pour reproduire cette impression.

Quelle est la différence entre mono et stéréo ?

Lorsque l’on parle de son mono, il est question de son et diffusé avec une seule enceinte. La stéréo est une façon d’élargir la scène sonore, grâce à deux enceintes placées en triangle avec l’auditeur. L’objectif est de créer l’illusion de multiples sources virtuelles placées entre les deux enceintes. C’est un début de son spatial.

De manière générale, on privilégie le son en stéréo ; nous percevons le son naturellement depuis plusieurs endroits, en même temps. Il est plus habituel pour nos oreilles et demande tout simplement moins d’efforts à notre cerveau pour l’écoute. Avec une diffusion en stéréo, il est possible de provoquer une illusion proche de la réalité. Mais cette technique reste tout de même en-deçà de la qualité d’un son immersif.

Quadriphonie

La quadriphonie est une technique de captation. Quatre canaux de captation (des micros) sont placés à différents endroits, orientés à 90° les uns par rapport aux autres. C’est également une technique de restitution, avec quatre enceinte placées à quatre coins d’un carré ou un rectangle, entourant le public.

Le son quadriphonique est un type de son multicanal qui a largement dépassé le domaine de la recherche. La quadriphonie est utilisée notamment dans la musique grand public, avec des artistes comme Pink Floyd qui ont été les premiers à l’utiliser pendant leurs concerts au milieu des années 1960.

Son 5.1 et Son 7.1

Pour aller un peu plus loin, il existe plusieurs formats de restitution audio, sur un plan horizontal. Les sons dit 5.1 ou 7.1 sont des configurations multicanales d’écoute. Le son 5.1 présente cinq enceintes disposées autour de l’auditeur, placé bien au centre. Le son 7.1 comporte deux enceintes supplémentaires, sur les côtés de l’auditeur. Ce qui permettra une immersion sonore meilleure, sans avoir à se placer précisément au centre. Dans les deux cas de figure, les enceintes sont placées autour de l’individu, aucun canal de diffusion n’est placé en dessous ou au-dessus.

Le Wave Field Synthesis (WFS)

Dans la continuité du travail d’un son plus naturel pour les êtres humains, le format WFS est créé au milieu des années 2000. Christiaan Huygens, physicien et mathématicien, a su synthétiser le son pour optimiser sa reproduction en s’appuyant sur des principes physiques plutôt que psycho-acoustiques. Le son WFS permet donc de créer des sources de son virtuelles, que l’auditeur perçoit au même endroit. Le son WFS est un hologramme sonore.

Le son 3D (ou son 360)

Le son 3D est une question de perception. Le son est diffusé dans une configuration particulière, avec des sources sonores disposées autour de l’auditeur (à côté, au-dessus, derrière…) pour créer une sensation d’un environnement totalement immersif. La seule condition étant que les sources de son soient correctement placées autour de l’audience pour créer une sphère sonore.

L’avantage du son 3D est le fait de permettre à une personne de percevoir des sons venant de toutes directions. Naturellement, nous entendons des sons provenant de toutes directions, tout le temps. C’est donc un système qui permet de reproduire notre écoute naturelle.

Le son ambisonique

Arrivée un peu après le son WFS, l’ambisonie est une technique qui permet de capturer, synthétiser et reproduire un environnement sonore en 3D. Le son ambisonique se pense comme une sphère qui enveloppe l’auditeur.

Le son ambisonique peut être de plusieurs ordres ; un ordre supérieur permet d’améliorer la précision de la provenance de chaque son émis dans l’espace. Pour des ordres supérieurs à 2, on parle du son HOA (High Order Ambisonic). La direction que prend chaque son peut être étudiée et encodée grâce à des calculs mathématiques précis. Cette technique permet l’utilisation d’un grand nombre de canaux sonores, aussi bien en captation que restitution, pour une immersion plus totale. Aujourd’hui ces technologies sont utilisées notamment dans le jeu vidéo et la réalité virtuelle.

Dolby Atmos

Le son Dolby Atmos est une technique spécifique développée par le Dolby Lab pour la recréation d’un son 3D. Dolby Atmos permet tout de même d’utiliser des techniques de mixage et d’écoute compatibles avec des systèmes grand public. La technologie repose à la fois sur des haut-parleurs positionnés de façon prédéfinie et des objets sonores pouvant être reproduits depuis toutes directions.

Les technologies, pour créer l’immersion toujours plus poussée

Profondément liées à l’évolution des formats audio, les technologies sont toujours plus poussées pour permettre des captations et diffusions les plus convaincantes possibles.

HTRF

La HTRF (head related transfer function) est une réponse naturelle des êtres humains à la provenance des sons. Le terme fait référence à notre capacité à combiner les échos des sons à l’intérieur de nos oreilles pour permettre à notre cerveau d’interpréter ces modifications et déterminer la provenance du son.

Dans le domaine de l’audio, des moteurs de synthèse HTRF recréent ces modifications sonores, pour rendre possible des conditions sonores adaptées à notre cerveau. Cette technique est utilisée pour permettre une expérience adaptée à chaque utilisateur, au casque. C’est notamment une technique utilisée dans les jeux vidéo pour améliorer l’expérience immersive.

Le son binaural

Le son binaural est le plus souvent utilisé pour décrire une écoute au casque. De manière très concrète, le terme binaural signifie : “qui se rapporte à l’audition par les deux oreilles”. Le terme fait référence aux techniques d’enregistrement et de mixage pour l’écoute via un système de diffusion capable d’envoyer un son séparé à chaque oreille de l’auditeur. La majorité du temps, l’écoute se fait au casque, donnant la sensation de percevoir les sons de différentes sources.

Les moteurs de synthèse HTRF sont notamment utilisés dans ces cas, pour recréer l’illusion de sons provenant de n’importe quelle direction.

La perception et l’émotion, rendre le son immersif encore plus accessible

Au cœur des technologies sonores demeure la perception profondément humaine des individus. Le son immersif est en conséquence profondément lié à nos émotions et à son impact cognitif.

Anéchoïque (ou chambre sourde)

Le terme s’utilise en relation avec un lieu, il est fréquent d’entendre parler de chambre anéchoïque. Un tel espace est construit de manière à ce que les parois des murs, sols, plafonds absorbent le son et les échos. Ces lieux sont également appelés “chambres sourdes” ; elles produisent le silence le plus complet et permettent d’étudier le son lui-même en observant son chemin dans l’espace et l’impact sur notre perception.

L’immersion sonore

A l’origine, l’immersion fait référence à un environnement liquide. C’est bien l’image d’être plongé dans un environnement sonore à laquelle on fait référence lorsque l’on parle d’immersion sonore.

Ces expériences sont pensées pour avoir un impact sur l’état émotionnel des individus, provoquer des sensations en apportant le son au cerveau de la manière la plus naturelle possible.

Projection phonographique

Sous le même modèle de la projection cinématographique, la projection phonographique est la diffusion d’enregistrements dans un cadre adapté, pour une expérience collective. Des salles comme l’EsPro, ouverte par l’Ircam, permettent de participer à des projections sonores, dans des espaces modulables et adaptables pour influencer le son diffusé.

Son spatialisé

Le terme fait référence à de nombreuses techniques informatiques, technologiques et mathématiques que nous vous avons évoqué dans ce lexique, pour la création d’un son provenant de plusieurs sources (ou du moins, que notre cerveau entend comme provenant de plusieurs sources).

L’audio spatial diffère du son 3D : le premier s’adapte à l’auditeur (si la personne tourne la tête, le son s’adapte pour donner la sensation de se rapprocher d’une partie du son en particulier), le second se positionne autour de l’auditeur (peu importe le positionnement des objets, mais l’auditeur doit être au centre). Le son spatial n’a pas besoin d’objet pour fonctionner, l’audio 3D est très lié à de la diffusion via des enceintes.

Le son spatialisé est le terme employé pour désigner les sons pensés pour un impact cognitif différent, agissant sur la perception et l’émotion des auditeurs.

La perception humaine est au cœur du travail des technologies liées au son. Notre capacité à reproduire des sons artificiels n’est viable uniquement si ces derniers sont adaptés à notre expérience d’écoute.

Mathilde Neu & Antoine Petroff

Think we're on the same wavelenght?

Nunc sit mauris augue eget rhoncus blandit quis elementum.

Get in touch