Ouvert aux commentaires.
Bien sûr Thomas, mais nous sommes toujours dans un rapport de domination par rapport à la nature. Physiologiquement, l’être humain…
*Le seul Blog optimiste du monde occidental*
Oui, bon, pas trop étonné :
La bouche est un résonateur, il faut en dire un peu plus :
On a tous une cavité avec une fréquence de résonance, et les cordes vocales qui la font vibrer.
Le contenu harmonique est modulé par les cordes vocales d’une part et l’ensemble langue + nez d’autre part, et enfin par des choses intrinsèques (les os de la boite crânienne, les masses musculaires des joues, etc. Les bons imitateurs arrivent néanmoins déjà à quelque chose d’assez bon, la part intrinsèque est max 20%, disons, de ce que je dis ci-dessous).
Il s’agit donc d’identifier « seulement » quelques caractéristiques d’un résonateur principal et d’éléments « annexes » (les muscles des cordes vocales qui agissent d’une façon X ou Y ou Z).
Ca ne fait pas énormément de paramètres, je dirais dans la dizaine ou la vingtaine en tout. Ca suffit à faire l’énorme variété que nous connaissons, et comme ces caractéristiques sont peu ou prou accessibles à partir d’un ensemble de sons « sparse » (parcimonieux, dans le langage des maths pour ces choses là), l’exploit me semble relativement naturel.
Pour donner une analogie, on vous donne dix sons d’un trombones, pris avec 3 ou 4 hauteurs et deux ou trois jeux de lèvres (ou de sourdine), je ne suis pas trop étonné qu’on puisse extrapoler à l’ensemble de la tessiture de l’instrument, car les résonances qui font les harmoniques viennent des mêmes aspects du systèmes (mécanique du tube, rôle des réflections dans les deux sens du tube, fuitouilles, …) pour tous les sons, qu’ils soient dans le jeu initial ou pas.
Un test un peu plus fin, du coup, serait liés aux efforts musculaires « non naturels » que nous faisons en parlant (mal) une langue étrangère. Là, les caractéristiques d’un son deviennent « gondolées » par le mauvais apprentissage (je viens d’apprendre que les accents du vietnamien correspondent à 6 tons des voyelles, 3 montants, 3 descendants, etc. ce qui correspond à une logique musculaire de la glotte et des cordes qui est peu accessible à un français lambda, donc si on me met à annôner 5 secondes de vietnamien, même bien répété, ça sera moins prédictif, parce que je gondole chaque son suivant un schéma qui n’est pas celui général des locuteurs de langue maternelle.
oui c’est un magnetophone à K7 un peu plus sophistiqué , vois pas bien ce que le terme IA vient encore faire là dedans ?
Euh, si quand même, deviner 20 paramètres à partir de 5 secondes de signaux où ils sont assez bien « mélangés », ça se passerait assez mal dans un système d’inversion classique « brute force ».
L’algo doit d’abord subsumer les bonnes caractéristiques dans l’espace temps-fréquence, c’est ce qu’explique un peu la vidéo.
Disons que ce n’est pas surprenant qu’une IA puisse faire cela sachant que les codages « parcimonieux » sont un sujet d’étude depuis au moins 2 décennies, bien avant le boom de l’IA
(un peu comme le décodage des caractères pour la poste avait été fait du temps des Yann Le Cun, pour l’acoustique, voir par exemple ce que fait un scientifique français qui s’appelle Laurent Daudet, https://www.institut-langevin.espci.fr/laurent_daudet, bien que son institut l’ait exflitré vers des affaires optiques (Light On) dans une start-up, si je lis correctement en diagonale…
Oui tout à fait 25 paramètres à la seconde avec modulation de fréquence et tout le bazar , traités par l’ALGO , pourquoi ne pas appeler un chat un chat ?
Bonjour,
Je suis curieux de voir les performances, ça doit moins bien marcher dans une autre lange que l’anglais. Peut-être que l’aspect IA est justement de savoir s’adapter à une autre langue : modifier l’importance, la pondération, des différents paramètres.
Bien sûr Thomas, mais nous sommes toujours dans un rapport de domination par rapport à la nature. Physiologiquement, l’être humain…
La question qui me tarabuste est pourquoi l’être humain a-t-il besoin de cathédrales ? Jamais une génération humaine n’a eu,…
Je viens d’écrire ça en résumé : Trois exemples pour illustrer un fait, et une question : Mon ami Dominique…
Eh oui, Thomas, mais cela demande de redevenir humble devant la nature et descendre l’être humain de son piédestal de…
Vous voulez dire que Paul Jorion fait du prosélytisme ? 😉
Si vous êtes centriste Mango, vous pouvez certainement envisager qu’entre le progressisme dogmatique qui rejoint le technosolutionnisme aveugle et le…
C’est vibrant. L’interviewer lui-même semble à plusieurs reprises comme atterré par les perspectives de ce futur proche que dévoilent les…
Ça va ressembler à ça ! https://www.rtl.be/actu/monde/international/623deg-degres-ressentis-au-bresil-qui-vit-une-vague-de-chaleur-sans-precedent/2024-03-18/article/649245 Mais tu es un peu hors sujet, non ? Si c’est pour nous…
Désolé cher Basic Rabbit, je ne suis plus croyant en la mathématique explicative, pour ce qui est du vivant. Pour…
@PJ (16 mars 2024 20h09) Dans http://www.pauljorion.com/blog/2012/04/08/le-fait-que-nous-parlions/ vous écrivez : « Le fait que nous parlions. Le fait que nous parlions…
Allemagne Aristote bancor BCE Bourse Brexit capitalisme centrale nucléaire de Fukushima ChatGPT Chine Confinement Coronavirus Covid-19 dette dette publique Donald Trump Emmanuel Macron Espagne Etats-Unis Europe extinction du genre humain FMI France Grèce intelligence artificielle interdiction des paris sur les fluctuations de prix Italie Japon John Maynard Keynes Karl Marx pandémie Portugal psychanalyse robotisation Royaume-Uni Russie réchauffement climatique Réfugiés spéculation Thomas Piketty Ukraine ultralibéralisme Vladimir Poutine zone euro « Le dernier qui s'en va éteint la lumière »
Laisser un commentaire