Dans l’architecture v200, les modèles peuvent être chargés de trois manières : via une API distante (comme Mistral), en local sans persistance (chargement HuggingFace classique dans le process), ou en mémoire persistante grâce à un service Pyro5.
Les deux premiers modes sont simples mais limités : (...)
lire la suite