30 réflexions sur « Vidéo – Tout comprendre »

  1. Je précise à l’intention de ceux qui découvriraient son travail, que Stephen Wolfram lui-même ne pense pas avoir « tout compris ». Il dit être sur la bonne piste pour décrire de quelle nature est le « microcode » de l’univers, c’est à dire ce qui sous-tend les catégories fondamentales comme le temps, l’espace, l’énergie, les mathématiques, l’expérience de l’existence, etc… Le microcode « exact », « unique » ou « vrai » n’est pas révélé, ce qui est montré, c’est que l’on peut reproduire toute théorie mathématique ou physique par une approche computationnelle, cad un calcul sur des relations entre éléments abstraits discrets, comme, par exemple, les cellules d’un automate cellulaire, ou, plus généralement, les nœuds et arcs d’un hypergraphe. Wolfram a mis en évidence, depuis plus de 30 ans, que des structures arbitrairement complexes (comme l’univers, ou les mathématiques), peuvent résulter de règles relationnelles abstraites, d’une simplicité extrême, voire ultime.

    Parmi les concepts essentiels émergents de son approche, il y a l’irréductibilité computationnelle. L’univers déroule son calcul d’une façon qui est parfois prévisible, cad que l’on peut simplifier, résumer ou prévoir l’issue du calcul : ce qui correspond aux lois physiques identifiées, et à la science vue comme « poche de compréhensible ». Mais le plus souvent, il n’y a pas d’autre moyen de connaitre l’issue que de faire le calcul. C’est un concept majeur qui éclaire beaucoup de vieilles apories, comme, par exemple, le libre arbitre.

    Il y a aussi l’invariance causale : dans un réseau de dépendances relationnelles, Wolfram montre que la causalité peut être décrite indépendamment des détails des chemins relationnels, qui peuvent être multiples pour une même description causale. Ce constat très puissant lui permet ensuite de décrire, ou plutôt d’ « éclairer », dans un formalisme semblable, à la fois la Relativité Générale, et la Mécanique quantique.

    J’écris ces quelques lignes pour donner envie, en écho à la vidéo de P.J., d’explorer ce travail magnifique, en cours. Il faut s’accrocher, mais ce résumé est accessible à toute personne assez concentrée et tenace :
    https://writings.stephenwolfram.com/2020/04/finally-we-may-have-a-path-to-the-fundamental-theory-of-physics-and-its-beautiful/

    3
    1. Stephen Wolfram lui-même ne pense pas avoir « tout compris »

      Il ne le sait pas encore (j’ai un peu d’avance sur lui 😉 ). On ne peut pas « tout comprendre » bien entendu, avec les limitations d’un être humain, mais j’ai le sentiment qu’il a capturé en une théorie unique, le cadre général de l’ensemble du connaissable.

      P.S. Merci Marc, de nous avoir tenu au courant ici, au fil des années, des progrès qu’accomplissait Wolfram.

      1. il a capturé en une théorie unique, le cadre général de l’ensemble du connaissable. D’accord avec cette formulation.
        J’en profite pour diffuser le lien vers sa dernière avancée, le quatrième paradigme de toute construction scientifique, la multicomputation (sous réserve, en attente de l’avis de l’Académie Française ! ) ;-).
        Wolfram reliait nos différentes variantes de « temps » au déroulement du calcul relationnel sous-jacent. En bon mathématicien, il généralise désormais : il n’y a aucune raison qu’il n’y ait qu’un seul calcul portant sur une seule règle relationnelle, « la bonne ». Il y a donc un nombre indéfini de calculs relationnels simultanés, tissés en parallèle, qui induisent chacun un lien particulier avec le temps que nous pourrions expérimenter, et c’est notre situation singulière, en tant que sous-ensemble du « grand hypergraphe abstrait », qui fait émerger notre univers connaissable, sa part computationnellement irréductible, nos lois physiques, et notre temps. Du lourd, comme d’hab !
        https://writings.stephenwolfram.com/2021/09/even-beyond-physics-introducing-multicomputation-as-a-fourth-general-paradigm-for-theoretical-science/

        1
  2. Bonjour à tous, 😉

    Une chose est absolument certaine dès que l’on aborde cette question, c’est que l’on finit toujours par converger vers les mêmes sources de réflexion, et ceci génération après génération !

    Mais sommes-nous certains d’avoir « tout compris » ?

    Excellente vidéo Paul !

    Amitiés,

    Philippe

  3. Medellín, le 6 décembre 2021

    Probablement important de lire une critique du et une alternative au modèle proposé par le prof. Tishby.

    Ici ce qu’a trouvé et ce que dit Mikhail Belkin, dans un article récent (octobre 2021) écrit par Anil Ananthaswamy:

    https://www.quantamagazine.org/a-new-link-to-an-old-model-could-crack-the-mystery-of-deep-learning-20211011/

    (Apprentissage par un système de machine à noyaux).

    ¿Une variation sur l’ancien dictum ¨Warum einfach, wenn’s kompliziert auch geht¨ ….. ?

    1. si cela vous intéresse, un papier avec un lien très élémentaire entre machines à noyaux et descente de gradient dans le modèle « full batch / gradient flow » (pas de gradient infinitésimaux sur la totalité des motifs d’apprentissage). Nota, ce n’est pas du tout ce qu’on fait « en pratique » dans le cadre des DNN mais le papier est néanmoins bien utile.

      Every Model Learned by Gradient Descent Is Approximately a Kernel Machine
      Pedro Domingos
      https://arxiv.org/pdf/2012.00152.pdf

      Comme souvent avec Domingos, le truc est à moitié cuit : la forme intéressante est celle trop brièvement commentée dans la remarque 2 (c’est effectivement une machine à noyau), la forme normalisée qui amuse tant Domingos (commentée en remarque 1) n’est simplement pas une machine à noyau (comme il le remarque lui-même) et on pourrait normaliser de la même façon par l’âge du capitaine et en conclure que « tout modèle appris par descente de gradient est approximativement une machine à âge du capitaine » …

      1. @slowXtal

        1. Merci beaucoup pour votre message et la référence au papier de Pedro Domingos.

        2. C’est dommage qu’on ne peut plus demander son opinion sur le thème posé au prof Tishby même. Probablement vous en savez plus.

        3. Et probablement c’est plus simple, probablement ce n’est qu’une ¨forme¨ comme vous dîtes. Mais probablement, là ce trouve un petit diable, limitatif en ce qui concerne l’imagination.

        Lisant le papier de Domingos, et me rappellant une vidéo (Tishby donnant une lecon a Jérusalem) citée par Paul Jorion il y a beaucoup d’années ici au blog, je n’étais pas surpris de retrouver plus tard des fonctions comme le ¨tamissage¨ (géologie, géochimie) et les ¨membranes¨ (biologie, biochimie) dans les publications plus récentes sur ¨machine learning¨.

        D’ailleurs, une membrane pourrait être considérée comme un tamis vivant, ayant la capacité d’apprendre.

        Cela me paraît un pas en avant, comparé avec la ¨forme¨ (statique) de la machine à noyau.

        https://comptes-rendus.academie-sciences.fr/chimie/articles/10.5802/crchim.76/

        https://www.youtube.com/watch?v=g4fGalYrvAI

        1. @slowXtal

          petit addendum.

          J’oubliais de mentionner que la connection entre la vidéo ¨Tishby¨ présentée par Paul Jorion et les ¨formes¨ tamis et membrane est probablement surtout la ¨forme¨ du goulot d’étranglement (¨bottle-neck¨) tellement important dans la vision Tishby.

          Alors, un goulot d’étranglement vivant, ayant la capacité d’apprentissage.

          (pensez aussi aux explications du prof Peter Westbroek, Université Leiden (Pays-Bas) et Collège de France au fonctionnement et l’évolution des huitres et autres ¨formes marines¨ regulatrices du chaux, ¨per se¨ menant à la thèse de la terre comme ¨être vivante¨, avec une mémoire, avec une ¨conscience¨ et avec un vecteur de développement. Westbroek ainsi s’est développé comme un des très grands adversaires du fracking.)

          1. @slowXtal

            addendum 2:

            J’aimerais ajouter que l’emploi du terme ¨simple¨ dans mon commentaire n’exclut pas du tout mon profond respect, ma crainte, devant la majesté de la vie comme force émergente majeure dans l’univers.

            Pour cette même raison, dans cette époque des observations et remarques sombres, pessimistes, effondristes, j’aimerais faire l’éloge de ce grand citoyen de la Chine, de Paris et d’Amsterdam, qui nous a quitté en février passé et qui nous laisse ce message d’espoir et de réflexion argumentée d’un meilleur monde, créant des membranes de la vie d’une facon ¨active – non-active¨:

            https://www.youtube.com/watch?v=fySUlPG2v-4

            b.à.v. jl

            1. « information bottleneck », c’est un principe assez intuitif; pour modéliser des données Y à partir de données X, on introduit une étape intermédiaire, Z, une « représentation » des données X qui doit être maximalement utile pour reproduire Y mais pas plus que nécessaire.
              X –> Z –> X
              Donc on cherche à maximiser l’information mutuelle entre Z et X (il faut bien reconstruire X avec Z) tout en minimisant l’information mutuelle entre X et Z (il y a sans doute tout un fatras d’information dans X qui ne sert à rien pour reconstruire Y et qu’on ne voudrait pas importer dans Z).
              C’est un principe plutôt naturel : pour distinguer des photos de chiens de photos de loup, ce n’est pas bien malin de s’appuyer quasi-exclusivement sur la présence d’un fond blanc donc notre représentation Z devrait plutôt se concentrer sur des particularités de l’animal (Z vs Y) et éviter de trop coller aux données (Z vs X). Plutôt naturel mais pas trop évident à implémenter …

              Après, Tishby a promené ce principe un peu partout au cours de sa carrière avec plus ou moins de succès et pour les DNN, il a lié la notion de représentation aux sorties des couches successives, ce qui en soi n’a rien d’évident (après tout, la « représentation » est distribuée dans l’ensemble du réseau et n’a pas de raison de s’organiser selon les couches; et il y a des réseaux qui ne fonctionnent pas avec des couches successives …) .
              Ses résultats sont intéressants mais les conclusions très générales qu’il en tire semblent assez exagérées, voir par exemple
              ON THE INFORMATION BOTTLENECK THEORY OF DEEP LEARNING
              Andrew M. Saxe et al
              https://openreview.net/pdf?id=ry_WPG-A-

    1. Vous devez reproduire tous les succès de la théorie actuellement en vigueur ; votre nouvelle idée doit réussir dans tous les endroits où la précédente réussit.

      À ceci près que la supposée « théorie actuellement en vigueur » est en réalité une mosaïque d’approches pas nécessairement traduisibles les unes dans les autres (relativité et mécanique quantique) et abordant le monde soit au niveau de la particule (mécanique quantique) ou de manière purement statistique (thermodynamique), alors que le modèle de Wolfram rend compte de manière unifiée des phénomènes à toutes les échelles.

      1
          1. Effectivement, les fractales sont les symptômes et en même temps une porte entrouverte qui, ensemble, nous conduiront vers une théorie unificatrice; voir plus.

  4. Une « théorie » peut elle « comprendre  » le tout ? Par quel mystère ( s’il ne restait que ça d’incompréhensible ) un élément du système peut il  » comprendre » tout le système ? Comment l’observateur qui perturbe et  » fausse » toujours l’élément observé peut il s’assurer de la validité d’une théorie quand elle aspire à  » tout » comprendre ? ( même si Blaise pascal énonçait déjà  » par l’espace l’univers me comprend et m’engloutit comme un point , par la pensée je le comprends » ) .

    Je reste avec quelques mystères , mais j’ai appris à vivre et certainement à mourir , avec .

    PS : entre bouquin cité , vidéo de Wolfram et vidéo avec Stéphanie , ça fait beaucoup de Steph dans le décor ces temps ci , mais , en tant que stéphanois d’origine , je m’en réjouis .( je ne sais pas ce que Wolfram fait avec l’humour dans le tout compris ) .

    1
  5. Je me fais l’avocat du diable: c’est bien joli tout ça mais ce n’est pas accessible à tout le monde qui plus est dans un anglais certes irréprochable mais difficile d’accès . Alors je vous laisse entre vous en discuter.

    1
      1. Oui Paul j’en fais parti.
        Quand le français a été difficile à assimiler, une autre langue devient du coup compliquée
        En plus depuis mes 17 ans et la découverte que bientôt nous pourrions communiquer grâce aux traducteurs instantanés, je l’ai énoncé à mon prof d’anglais sorte de fachiste ambulant en lui disant que je ne parlerais jamais sa langue et voilà l’histoire !
        Bon Deepl m’aide beaucoup et parfois les traductions sous titrée de vidéo lorsqu’elle existent

  6. « … J’arrive en fin de vie, et malheureusement au même moment c’est notre espèce toute entière qui arrive en fin de vie … » Comme j’ai le même âge que l’orateur, à quelques mois près, je veux avoir un avis. D’abord, arriver en fin de vie, c’est prétentieux. Je l’avais annoncé à ma famille il y a 20 ans, tout l’indiquait, et puis j’ai reçu une nouvelle vie. Mes belles-soeurs me le rappellent à chaque occasion, ma femme aussi. Ensuite, croire que le monde finira avec vous, c’est l’illusion des bâtisseurs d’empire pour l’éternité (les plus récents cas documentés sont Hitler et Staline, pour Mao on ne sait pas), et plus modestement de beaucoup de ceux qui sont sûrs qu’il n’y a pas d’avenir après leur mort. C’est d’ailleurs plutôt une idée masculine, les femmes ne l’ont jamais, leur souci est de créer le génération suivante.
    Quant au réchauffement climatique, c’est comme la bombe atomique en 1962 (j’avais 15 ans) et/ou la famine générale (à peu près au même âge). En 1981, Fred Hoyle (le big-bang) écrivait dans « Ice. How the next ice age will com and how we can prevent it. » que l’espoir de voir l’espèce humaine toute entière mourir de froid était vain, tant elle est résiliente et inventive. Ma lecture actuelle « The Dawn of Everything » (« Au commencement était », la traduction vient de paraître), de David Graeber et David Wengrow, promène le lecteur dans quelques unes des solutions infiniment variées que les hommes ont trouvé pour vivre en collectif, comme l’archéologie et l’ethnologie nous le racontent.
    « … rassurez-vous, un jour je ne manquerai pas de mourir. » (de Gaulle, février 1965).

    2
  7. C est curieux parce que cette sensation que vous decrivez d’avoir tout compris, c est un peu celle que l on peut ressentir dans une experience sous LSD ou pendant les premieres annees de certaines pratiques spirituelles. Ne confonderiez vous pas le fait d avoir tout compris avec celui d avoir a tout accepter ?
    Sur l organisation du vivant, j avais, plus jeune, beaucoup apprecie les travaux (universitaires) de Humberto Maturana et Francisco Varela qui devaient m amener par la suite a rencontrer divers auteurs du champ de la spiritualite comme AH Almaas dont le « Facets of Unity: The Enneagram of Holy Ideas » qui reste un ami fidele dans ma bibliotheque.

    Bonne continuation
    Amicalement

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée.

Ce site utilise Akismet pour réduire les indésirables. En savoir plus sur comment les données de vos commentaires sont utilisées.