Trois modes de chargement des modèles Architecture v200

mercredi 24 juin 2026, par Bertrand Degoy

Dans l’architecture v200, les modèles peuvent être chargés de trois manières : via une API distante (comme Mistral), en local sans persistance (chargement HuggingFace classique dans le process), ou en mémoire persistante grâce à un service Pyro5.

Les deux premiers modes sont simples mais limités : l’API impose une latence réseau et des coûts, tandis que le chargement local disparaît dès que le process se termine.

Pyro5 apporte une troisième voie : un daemon Python indépendant, capable de conserver des objets lourds (embedding, index, SLM) en RAM de manière durable, et de les exposer via RPC à tous les composants du runtime.

Dans ce modèle, models.json décrit les modèles à charger, ModelsConfigurator les instancie une seule fois au démarrage, puis AppSettings les expose à l’ensemble du système.

Les services Pyro5, déclarés dans services.json, ne chargent jamais de modèles eux‑mêmes : ils se contentent d’exposer des capacités (embedding, SLM, indexation, mémoire) en s’appuyant sur les objets déjà initialisés, garantissant ainsi cohérence, performance et séparation stricte des responsabilités.

Les services IA de DnC L’intelligence de vos données

Trois modes de chargement des modèles Architecture v200

Accès réservé : connectez vous pour en savoir plus.

Derniers articles

Dans la même rubrique