<?xml
version="1.0" encoding="utf-8"?>
<rss version="2.0" 
	xmlns:dc="http://purl.org/dc/elements/1.1/"
	xmlns:content="http://purl.org/rss/1.0/modules/content/"
	xmlns:atom="http://www.w3.org/2005/Atom"
>

<channel xml:lang="fr">
	<title>Les services IA de DnC</title>
	<link>https://ia.dnc.global/</link>
	<description>En mati&#232;re d'intelligence artificielle (IA), DnC met l'accent sur la s&#233;curit&#233; en offrant aux entreprises le moyen de conserver leurs donn&#233;es et les traitements &#224; l'int&#233;rieur de leur r&#233;seau d'entreprise plut&#244;t que dans le Cloud.</description>
	<language>fr</language>
	<generator>SPIP - www.spip.net</generator>
	<atom:link href="https://ia.dnc.global/spip.php?page=backend" rel="self" type="application/rss+xml" />




<item xml:lang="fr">
		<title>IndexServer, client Pyro5</title>
		<link>https://ia.dnc.global/IndexServer-client-Pyro5.html</link>
		<guid isPermaLink="true">https://ia.dnc.global/IndexServer-client-Pyro5.html</guid>
		<dc:date>2026-07-04T15:06:18Z</dc:date>
		<dc:format>text/html</dc:format>
		<dc:language>fr</dc:language>
		<dc:creator>Bertrand Degoy</dc:creator>



		<description>
&lt;p&gt;IndexServer occupe une position centrale dans l'architecture v200 en assurant un acc&#232;s rapide et s&#233;curis&#233; &#224; l'index RAG. &lt;br class='autobr' /&gt; # **Les deux r&#244;les d'IndexServer** &lt;br class='autobr' /&gt;
IndexServer occupe une position centrale dans l'architecture v200 et assume deux responsabilit&#233;s compl&#233;mentaires : un **r&#244;le statique** en tant que fa&#231;ade RPC du daemon, et un **r&#244;le dynamique** en tant que chef d'orchestre du chargement et de la gestion des index en m&#233;moire. &lt;br class='autobr' /&gt;
## **1. R&#244;le statique : fa&#231;ade RPC du daemon** &lt;br class='autobr' /&gt;
Lors de l'initialisation (...)&lt;/p&gt;


-
&lt;a href="https://ia.dnc.global/-Architecture-v200-.html" rel="directory"&gt;Architecture v200&lt;/a&gt;


		</description>


 <content:encoded>&lt;div class='rss_chapo'&gt;&lt;p&gt;IndexServer occupe une position centrale dans l'architecture v200 en assurant un acc&#232;s rapide et s&#233;curis&#233; &#224; l'index RAG.&lt;/p&gt;&lt;/div&gt;
		&lt;div class='rss_texte'&gt;&lt;hr /&gt;
&lt;h1&gt;&lt;strong&gt;Les deux r&#244;les d'IndexServer&lt;/strong&gt;&lt;/h1&gt;
&lt;p&gt;IndexServer occupe une position centrale dans l'architecture v200 et assume deux responsabilit&#233;s compl&#233;mentaires : un &lt;strong&gt;r&#244;le statique&lt;/strong&gt; en tant que fa&#231;ade RPC du daemon, et un &lt;strong&gt;r&#244;le dynamique&lt;/strong&gt; en tant que chef d'orchestre du chargement et de la gestion des index en m&#233;moire.&lt;/p&gt;
&lt;h2&gt;&lt;strong&gt;1. R&#244;le statique : fa&#231;ade RPC du daemon&lt;/strong&gt;&lt;/h2&gt;
&lt;p&gt;Lors de l'initialisation du syst&#232;me, le daemon instancie IndexServer et l'enregistre aupr&#232;s de Pyro5.&lt;br /&gt;
Dans cette phase, IndexServer devient &lt;strong&gt;l'interface publique du daemon&lt;/strong&gt;, c'est&#8209;&#224;&#8209;dire :&lt;/p&gt;
&lt;ul class=&#034;spip&#034;&gt;
&lt;li&gt;
&lt;p&gt;le point d'entr&#233;e pour toutes les requ&#234;tes externes li&#233;es aux index,&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;le service expos&#233; via RPC,&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;l'unique API m&#233;tier accessible aux clients distants.&lt;/p&gt;
&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;Le daemon ne fournit aucune logique m&#233;tier : il se contente d'h&#233;berger IndexServer et de maintenir l'infrastructure RPC.&lt;br /&gt;
Dans cette perspective, IndexServer est bien &lt;strong&gt;la fa&#231;ade du daemon&lt;/strong&gt;.&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;IndexServer&lt;/strong&gt; est le &lt;strong&gt;service ma&#238;tre&lt;/strong&gt; du syst&#232;me d'indexation dans l'architecture v200.&lt;br /&gt;
Il est initialis&#233; par le daemon et constitue le point central de gestion des index en RAM.&lt;/p&gt;
&lt;h3&gt;&lt;strong&gt;R&#244;le structurel&lt;/strong&gt;&lt;/h3&gt;
&lt;ul class=&#034;spip&#034;&gt;
&lt;li&gt;
&lt;p&gt;Coordonne le chargement des index (via ThemeIndexLoaderManager).&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;G&#232;re la pr&#233;sence des index en RAM (via MemoryManager).&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;Cr&#233;e et expose les &lt;strong&gt;RemoteIndexService&lt;/strong&gt; (un par th&#232;me).&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;Fournit une API Pyro5 permettant aux clients d'acc&#233;der aux index.&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;Garantit qu'un index n'est charg&#233; qu'une seule fois dans le processus du daemon.&lt;/p&gt;
&lt;/li&gt;
&lt;/ul&gt;
&lt;h3&gt;&lt;strong&gt;Position dans l'architecture&lt;/strong&gt;&lt;/h3&gt;
&lt;pre&gt;&lt;code&gt;daemon.py &#8595; initialise
MemoryManager
IndexServer &#8595; cr&#233;e &#224; la demande
RemoteIndexService (un par th&#232;me) &#8595; utilise
Index en RAM &#8593; fourni par
ThemeIndexLoaderManager&lt;/code&gt;&lt;/pre&gt;
&lt;p&gt;IndexServer est donc &lt;strong&gt;le chef d'orchestre&lt;/strong&gt; :&lt;br /&gt;
il ne charge jamais directement depuis le disque, mais d&#233;l&#232;gue au loader, puis stocke le backend dans MemoryManager.&lt;/p&gt;
&lt;h2&gt;&lt;strong&gt;2. R&#244;le dynamique : chargement et gestion des index&lt;/strong&gt;&lt;/h2&gt;
&lt;p&gt;Une fois initialis&#233;, IndexServer prend en charge l'ensemble des op&#233;rations internes li&#233;es aux index :&lt;/p&gt;
&lt;ul class=&#034;spip&#034;&gt;
&lt;li&gt;
&lt;p&gt;interrogation de MemoryManager pour v&#233;rifier la pr&#233;sence d'un backend en RAM,&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;d&#233;clenchement du chargement depuis le disque via ThemeIndexLoaderManager lorsque n&#233;cessaire,&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;instanciation des loaders concrets (FAISS, LlamaIndex, Dummy),&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;construction du backend unifi&#233;,&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;stockage du backend en RAM,&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;cr&#233;ation et gestion des RemoteIndexService pour chaque th&#232;me.&lt;/p&gt;
&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;Dans cette phase, IndexServer agit comme &lt;strong&gt;le coordinateur op&#233;rationnel&lt;/strong&gt; du syst&#232;me d'indexation.&lt;br /&gt;
Le daemon n'intervient plus : il n'est pas consult&#233;, ne participe &#224; aucune d&#233;cision, et ne poss&#232;de aucune m&#233;thode m&#233;tier.&lt;/p&gt;
&lt;dl class='spip_document_54 spip_documents'&gt; &lt;dt&gt; &lt;a href='https://ia.dnc.global/IMG/png/dynamique_chargement_index.png' class=&#034;mediabox&#034; title=&#034;PNG - 1.5 Mo&#034; &gt; &lt;img src='https://ia.dnc.global/local/cache-vignettes/L500xH216/dynamique_chargement_index-db90f.png?1783167417' width='500' height='216' alt=&#034;PNG - 1.5&#160;Mo&#034; /&gt; &lt;/a&gt; &lt;/dt&gt; &lt;/dl&gt;
&lt;p&gt;Voici ce que fait IndexServer lorsqu'un client demande un index pour un th&#232;me donn&#233;.&lt;/p&gt;
&lt;h3&gt;&lt;strong&gt;1. Le client appelle IndexServer :&lt;/strong&gt;&lt;/h3&gt;
&lt;pre&gt;&lt;code&gt;get(theme)&lt;/code&gt;&lt;/pre&gt;
&lt;h3&gt;&lt;strong&gt;2. IndexServer interroge MemoryManager :&lt;/strong&gt;&lt;/h3&gt;
&lt;pre&gt;&lt;code&gt;MemoryManager.get(theme)&lt;/code&gt;&lt;/pre&gt;
&lt;ul class=&#034;spip&#034;&gt;
&lt;li&gt;
&lt;p&gt;Si l'index est &lt;strong&gt;d&#233;j&#224; en RAM&lt;/strong&gt;, IndexServer le retourne imm&#233;diatement.&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;Sinon, il d&#233;clenche la cha&#238;ne de chargement.&lt;/p&gt;
&lt;/li&gt;
&lt;/ul&gt;
&lt;h3&gt;&lt;strong&gt;3. Index absent &#8594; IndexServer appelle ThemeIndexLoaderManager :&lt;/strong&gt;&lt;/h3&gt;
&lt;pre&gt;&lt;code&gt;ThemeIndexLoaderManager.load(theme)&lt;/code&gt;&lt;/pre&gt;
&lt;h3&gt;&lt;strong&gt;4. Le loader manager instancie le loader concret :&lt;/strong&gt;&lt;/h3&gt;
&lt;ul class=&#034;spip&#034;&gt;
&lt;li&gt;
&lt;p&gt;LlamaIndexLoader&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;FAISSLoader&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;DummyLoader&lt;br /&gt;
(selon la configuration du th&#232;me)&lt;/p&gt;
&lt;/li&gt;
&lt;/ul&gt;
&lt;h3&gt;&lt;strong&gt;5. Le loader concret charge les donn&#233;es depuis le disque :&lt;/strong&gt;&lt;/h3&gt;
&lt;ul class=&#034;spip&#034;&gt;
&lt;li&gt;
&lt;p&gt;fichiers FAISS&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;fichiers LlamaIndex (docstore, vector_store, index_store)&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;ou backend factice&lt;/p&gt;
&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;Il retourne un &lt;strong&gt;index brut&lt;/strong&gt;.&lt;/p&gt;
&lt;h3&gt;&lt;strong&gt;6. ThemeIndexLoaderManager encapsule l'index brut dans un backend unifi&#233; :&lt;/strong&gt;&lt;/h3&gt;
&lt;ul class=&#034;spip&#034;&gt;
&lt;li&gt;
&lt;p&gt;&lt;code&gt;LlamaIndexBackend&lt;/code&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;&lt;code&gt;FaissBackend&lt;/code&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;&lt;code&gt;DummyBackend&lt;/code&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;/ul&gt;
&lt;h3&gt;&lt;strong&gt;7. IndexServer stocke le backend unifi&#233; dans MemoryManager :&lt;/strong&gt;&lt;/h3&gt;
&lt;pre&gt;&lt;code&gt;MemoryManager.set(theme, backend)&lt;/code&gt;&lt;/pre&gt;
&lt;h3&gt;&lt;strong&gt;8. IndexServer retourne le backend au client ou au RemoteIndexService&lt;/strong&gt;&lt;/h3&gt;
&lt;p&gt;L'index est maintenant &lt;strong&gt;en RAM&lt;/strong&gt;, pr&#234;t &#224; &#234;tre utilis&#233; pour :&lt;/p&gt;
&lt;ul class=&#034;spip&#034;&gt;
&lt;li&gt;
&lt;p&gt;&lt;code&gt;retrieve()&lt;/code&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;&lt;code&gt;query()&lt;/code&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;&lt;code&gt;astream()&lt;/code&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;/ul&gt;
&lt;h1&gt;&lt;strong&gt;3. API d'IndexServer (v200)&lt;/strong&gt;&lt;/h1&gt;
&lt;p&gt;IndexServer expose une API Pyro5 orient&#233;e service.&lt;/p&gt;
&lt;h3&gt;&lt;strong&gt;3.1. &lt;code&gt;get(theme_name)&lt;/code&gt;&lt;/strong&gt;&lt;/h3&gt;
&lt;p&gt;Retourne un backend unifi&#233; pour le th&#232;me demand&#233;.&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;Comportement :&lt;/strong&gt;&lt;/p&gt;
&lt;ul class=&#034;spip&#034;&gt;
&lt;li&gt;
&lt;p&gt;V&#233;rifie si l'index est en RAM via MemoryManager.&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;Si absent &#8594; d&#233;clenche le chargement via ThemeIndexLoaderManager.&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;Retourne le backend unifi&#233; (FAISS, LlamaIndex, Dummy).&lt;/p&gt;
&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;&lt;strong&gt;Signature :&lt;/strong&gt;&lt;/p&gt;
&lt;pre&gt;&lt;code class=&#034;language-python&#034;&gt;def get(self, theme_name: str): ...&lt;/code&gt;&lt;/pre&gt;
&lt;h3&gt;&lt;strong&gt;3.2. &lt;code&gt;list()&lt;/code&gt;&lt;/strong&gt;&lt;/h3&gt;
&lt;p&gt;Retourne la liste des th&#232;mes disponibles ou d&#233;j&#224; charg&#233;s.&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;Signature :&lt;/strong&gt;&lt;/p&gt;
&lt;pre&gt;&lt;code class=&#034;language-python&#034;&gt;def list(self) -&gt; List[str]: ...&lt;/code&gt;&lt;/pre&gt;
&lt;h3&gt;&lt;strong&gt;3.3. &lt;code&gt;ping()&lt;/code&gt;&lt;/strong&gt;&lt;/h3&gt;
&lt;p&gt;Permet de v&#233;rifier que le service IndexServer est op&#233;rationnel.&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;Signature :&lt;/strong&gt;&lt;/p&gt;
&lt;pre&gt;&lt;code class=&#034;language-python&#034;&gt;def ping(self) -&gt; str: return &#034;index.server.pong&#034;&lt;/code&gt;&lt;/pre&gt;
&lt;h3&gt;&lt;strong&gt;3.4. &lt;code&gt;create_remote_service(theme_name)&lt;/code&gt;&lt;/strong&gt;&lt;/h3&gt;
&lt;p&gt;Cr&#233;e un RemoteIndexService pour un th&#232;me donn&#233; si n&#233;cessaire.&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;Signature :&lt;/strong&gt;&lt;/p&gt;
&lt;pre&gt;&lt;code class=&#034;language-python&#034;&gt;def create_remote_service(self, theme_name: str): ...&lt;/code&gt;&lt;/pre&gt;
&lt;h3&gt;&lt;strong&gt;3.5. &lt;code&gt;has(theme_name)&lt;/code&gt;&lt;/strong&gt;&lt;/h3&gt;
&lt;p&gt;Indique si un backend est d&#233;j&#224; charg&#233; en RAM.&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;Signature :&lt;/strong&gt;&lt;/p&gt;
&lt;pre&gt;&lt;code class=&#034;language-python&#034;&gt;def has(self, theme_name: str) -&gt; bool: ...&lt;/code&gt;&lt;/pre&gt;&lt;/div&gt;
		
		</content:encoded>


		

	</item>
<item xml:lang="fr">
		<title>v200 : Introduction</title>
		<link>https://ia.dnc.global/v200-Introduction.html</link>
		<guid isPermaLink="true">https://ia.dnc.global/v200-Introduction.html</guid>
		<dc:date>2026-07-04T08:16:29Z</dc:date>
		<dc:format>text/html</dc:format>
		<dc:language>fr</dc:language>
		<dc:creator>Bertrand Degoy</dc:creator>



		<description>
&lt;p&gt;La v200 introduit une architecture RAG enti&#232;rement refondue, centr&#233;e sur la modularit&#233;, la performance et la robustesse. Elle s'appuie sur l'&#233;criture de services d&#233;di&#233;s pour les mod&#232;les et les index, un daemon Pyro5 pour l'acc&#232;s rapide aux index en m&#233;moire, et une API interne unifi&#233;e permettant d'abstraire totalement les backends. L'ensemble garantit un moteur RAG totalement ind&#233;pendant de toute biblioth&#232;que (LlamaIndex, LangChain ...) . Cette version fournit ainsi une base industrielle, stable et (...)&lt;/p&gt;


-
&lt;a href="https://ia.dnc.global/-Architecture-v200-.html" rel="directory"&gt;Architecture v200&lt;/a&gt;


		</description>


 <content:encoded>&lt;div class='rss_chapo'&gt;&lt;p&gt;La v200 introduit une architecture RAG enti&#232;rement refondue, centr&#233;e sur la modularit&#233;, la performance et la robustesse. Elle s'appuie sur l'&#233;criture de services d&#233;di&#233;s pour les mod&#232;les et les index, un daemon Pyro5 pour l'acc&#232;s rapide aux index en m&#233;moire, et une API interne unifi&#233;e permettant d'abstraire totalement les backends. &lt;br class='autobr' /&gt;
L'ensemble garantit un moteur RAG totalement ind&#233;pendant de toute biblioth&#232;que (LlamaIndex, LangChain ...) . &lt;br class='autobr' /&gt;
Cette version fournit ainsi une base industrielle, stable et extensible pour un pipeline RAG totalement propri&#233;taire.&lt;/p&gt;&lt;/div&gt;
		&lt;div class='rss_texte'&gt;&lt;hr /&gt;
&lt;p&gt;La &lt;strong&gt;v200&lt;/strong&gt; constitue une r&#233;architecture compl&#232;te du pipeline RAG, con&#231;ue pour offrir une modularit&#233; stricte, une ind&#233;pendance vis&#8209;&#224;&#8209;vis de LlamaIndex ou de toute autre biblioth&#232;que, et une performance accrue gr&#226;ce &#224; un daemon g&#233;rant les index en m&#233;moire persistante. Elle introduit une s&#233;paration nette des responsabilit&#233;s, une normalisation des API internes, et un mod&#232;le d'ex&#233;cution coh&#233;rent pour tous les types d'index et de mod&#232;les.&lt;/p&gt;
&lt;h2&gt;&lt;strong&gt;1. Objectif : Modularit&#233; syst&#233;mique&lt;/strong&gt;&lt;/h2&gt;
&lt;h3&gt;&lt;strong&gt;1.1. Modularit&#233; des mod&#232;les&lt;/strong&gt;&lt;/h3&gt;
&lt;p&gt;La v200 d&#233;finit des services d&#233;di&#233;s pour les mod&#232;les :&lt;/p&gt;
&lt;ul class=&#034;spip&#034;&gt;
&lt;li&gt;
&lt;p&gt;&lt;code&gt;services/llm/&lt;/code&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;&lt;code&gt;services/embeddings/&lt;/code&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;Chaque service expose une API normalis&#233;e :&lt;/p&gt;
&lt;ul class=&#034;spip&#034;&gt;
&lt;li&gt;
&lt;p&gt;&lt;code&gt;generate()&lt;/code&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;&lt;code&gt;astream()&lt;/code&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;&lt;code&gt;embed()&lt;/code&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;Cette abstraction permet de remplacer un mod&#232;le (OpenAI, Ollama, HF, local) sans impact sur le reste du pipeline.&lt;/p&gt;
&lt;h3&gt;&lt;strong&gt;1.2. Modularit&#233; des index&lt;/strong&gt;&lt;/h3&gt;
&lt;p&gt;Les index sont encapsul&#233;s dans des backends interchangeables :&lt;/p&gt;
&lt;ul class=&#034;spip&#034;&gt;
&lt;li&gt;
&lt;p&gt;&lt;code&gt;FaissBackend&lt;/code&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;&lt;code&gt;LlamaIndexBackend&lt;/code&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;&lt;code&gt;DummyBackend&lt;/code&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;Tous impl&#233;mentent une &lt;strong&gt;API unifi&#233;e&lt;/strong&gt; :&lt;/p&gt;
&lt;ul class=&#034;spip&#034;&gt;
&lt;li&gt;
&lt;p&gt;&lt;code&gt;retrieve(query, top_k)&lt;/code&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;&lt;code&gt;query(query)&lt;/code&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;&lt;code&gt;astream(query)&lt;/code&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;&lt;code&gt;ping()&lt;/code&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;Cette normalisation garantit que le RAG ne d&#233;pend plus du type d'index sous&#8209;jacent.&lt;/p&gt;
&lt;dl class='spip_document_51 spip_documents'&gt; &lt;dt&gt; &lt;a href='https://ia.dnc.global/IMG/png/ragruntime_retrieve-2026-07-04-105144.png' class=&#034;mediabox&#034; title=&#034;PNG - 2.1 Mo&#034; &gt; &lt;img src='https://ia.dnc.global/local/cache-vignettes/L500xH320/ragruntime_retrieve-2026-07-04-105144-63cf4.png?1783163163' width='500' height='320' alt=&#034;PNG - 2.1&#160;Mo&#034; /&gt; &lt;/a&gt; &lt;/dt&gt; &lt;/dl&gt;
&lt;h3&gt;&lt;strong&gt;1.3. Rapidit&#233; via daemon Pyro5&lt;/strong&gt;&lt;/h3&gt;
&lt;p&gt;La v200 introduit un daemon Pyro5 :&lt;/p&gt;
&lt;ul class=&#034;spip&#034;&gt;
&lt;li&gt;
&lt;p&gt;charg&#233; de maintenir les index en m&#233;moire,&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;exposant une API RPC homog&#232;ne,&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;permettant un acc&#232;s rapide depuis n'importe quel worker.&lt;/p&gt;
&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;Le client est minimal :&lt;/p&gt;
&lt;p&gt;IndexesManager &#8594; IndexService &#8594; RemoteIndexBackend&lt;/p&gt;
&lt;pre&gt;&lt;code&gt;
Un m&#233;canisme de **fallback local** assure la continuit&#233; de service en cas d'indisponibilit&#233; du daemon. &lt;p&gt;### **1.4. Couche interne de normalisation**
Une couche interne (`internal/`) garantit :&lt;/p&gt;
&lt;p&gt;- la normalisation des r&#233;sultats des backends,
- la conversion des formats h&#233;t&#233;rog&#232;nes en structures standardis&#233;es,
- la coh&#233;rence des donn&#233;es consomm&#233;es par RagRuntime.&lt;/p&gt;
&lt;p&gt;Tous les r&#233;sultats sont convertis en dictionnaires homog&#232;nes :&lt;/p&gt;
&lt;p&gt;```python
{ &#034;text&#034;: &#034;...&#034;, &#034;score&#034;: None, &#034;metadata&#034;: {}
}&lt;/code&gt;&lt;/p&gt;
&lt;/pre&gt;
&lt;h2&gt;&lt;strong&gt;2. Objectif : RAGEngine ind&#233;pendant d'API externes&lt;/strong&gt;&lt;/h2&gt;
&lt;h3&gt;&lt;strong&gt;2.1. Suppression des d&#233;pendances structurelles&lt;/strong&gt;&lt;/h3&gt;
&lt;p&gt;La v200 &#233;limine toute d&#233;pendance directe &#224; LlamaIndex ( ou autre) dans le moteur RAG :&lt;/p&gt;
&lt;ul class=&#034;spip&#034;&gt;
&lt;li&gt;
&lt;p&gt;plus de &lt;code&gt;QueryEngine&lt;/code&gt;,&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;plus de &lt;code&gt;Node&lt;/code&gt;, &lt;code&gt;Document&lt;/code&gt;, &lt;code&gt;Response&lt;/code&gt;,&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;plus de formats &#233;trangers.&lt;/p&gt;
&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;Par exemple, LlamaIndex est encapsul&#233; dans &lt;code&gt;LlamaIndexBackend&lt;/code&gt;, qui expose l'API unifi&#233;e.
Dans l'&#233;tat actuel du d&#233;veloppement, il existe une adaptation &#224; FAISS.&lt;/p&gt;
&lt;h3&gt;&lt;strong&gt;2.2. RAGEngine bas&#233; sur une API interne stable&lt;/strong&gt;&lt;/h3&gt;
&lt;p&gt;Le moteur RAG (RagRuntime) ne d&#233;pend plus :&lt;/p&gt;
&lt;ul class=&#034;spip&#034;&gt;
&lt;li&gt;
&lt;p&gt;du type d'index,&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;du type de mod&#232;le,&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;de LlamaIndex ou FAISS.&lt;/p&gt;
&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;Il consomme uniquement l'API unifi&#233;e :&lt;/p&gt;
&lt;ul class=&#034;spip&#034;&gt;
&lt;li&gt;
&lt;p&gt;&lt;code&gt;retrieve()&lt;/code&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;&lt;code&gt;query()&lt;/code&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;&lt;code&gt;astream()&lt;/code&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;/ul&gt;
&lt;h3&gt;&lt;strong&gt;2.3. Normalisation syst&#233;matique des r&#233;sultats&lt;/strong&gt;&lt;/h3&gt;
&lt;p&gt;Les r&#233;sultats bruts des backends (souvent des cha&#238;nes de caract&#232;res) sont syst&#233;matiquement convertis en objets structur&#233;s avant traitement par RagRuntime.&lt;/p&gt;
&lt;p&gt;Cela garantit :&lt;/p&gt;
&lt;ul class=&#034;spip&#034;&gt;
&lt;li&gt;
&lt;p&gt;la stabilit&#233; du pipeline,&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;la compatibilit&#233; avec les hooks,&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;l'absence d'erreurs li&#233;es &#224; des formats h&#233;t&#233;rog&#232;nes.&lt;/p&gt;
&lt;/li&gt;
&lt;/ul&gt;
&lt;h3&gt;&lt;strong&gt;2.4. Fallback local coh&#233;rent&lt;/strong&gt;&lt;/h3&gt;
&lt;p&gt;En cas d'indisponibilit&#233; du daemon :&lt;/p&gt;
&lt;pre&gt;&lt;code&gt;IndexService.connect() &#8594; RemoteIndexBackend (si daemon disponible) &#8594; LocalIndexBackend (si daemon indisponible)&lt;/code&gt;&lt;/pre&gt;
&lt;p&gt;&lt;code&gt;LocalIndexBackend&lt;/code&gt; est un proxy thread&#8209;safe, totalement ind&#233;pendant du type d'index.&lt;/p&gt;
&lt;h2&gt;&lt;strong&gt;Synth&#232;se&lt;/strong&gt;&lt;/h2&gt;
&lt;p&gt;La &lt;strong&gt;v200&lt;/strong&gt; est une architecture RAG :&lt;/p&gt;
&lt;ul class=&#034;spip&#034;&gt;
&lt;li&gt;
&lt;p&gt;&lt;strong&gt;modulaire&lt;/strong&gt;, gr&#226;ce &#224; des services d&#233;di&#233;s pour les mod&#232;les et les index,&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;&lt;strong&gt;performante&lt;/strong&gt;, via un daemon Pyro5 servant les index en m&#233;moire,&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;&lt;strong&gt;normalis&#233;e&lt;/strong&gt;, gr&#226;ce &#224; une API interne unifi&#233;e pour tous les backends,&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;&lt;strong&gt;r&#233;siliente&lt;/strong&gt;, via un fallback local automatique,&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;&lt;strong&gt;ind&#233;pendante de LlamaIndex&lt;/strong&gt;, gr&#226;ce &#224; l'encapsulation compl&#232;te dans &lt;code&gt;LlamaIndexBackend&lt;/code&gt;,&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;&lt;strong&gt;stable&lt;/strong&gt;, gr&#226;ce &#224; une couche de normalisation syst&#233;matique pour RagRuntime.&lt;/p&gt;
&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;Elle constitue une base industrielle, coh&#233;rente, et extensible pour un pipeline RAG moderne.&lt;/p&gt;&lt;/div&gt;
		
		</content:encoded>


		

	</item>
<item xml:lang="fr">
		<title>Politique LRU/MRU</title>
		<link>https://ia.dnc.global/Politique-LRU-MRU.html</link>
		<guid isPermaLink="true">https://ia.dnc.global/Politique-LRU-MRU.html</guid>
		<dc:date>2026-06-29T09:04:20Z</dc:date>
		<dc:format>text/html</dc:format>
		<dc:language>fr</dc:language>
		<dc:creator>Bertrand Degoy</dc:creator>



		<description>
&lt;p&gt;Dans l'architecture Pyro5, les index ( et certains mod&#232;les ) sont charg&#233;s depuis le disque puis conserv&#233;s en RAM pour &#234;tre accessibles rapidement par les services distants. Le daemon joue le r&#244;le de processus ma&#238;tre. &lt;br class='autobr' /&gt;
Pour les index par exemple, il les expose via IndexServer, et sert de point d'acc&#232;s unique pour tous les RemoteIndexService. Comme ces index peuvent &#234;tre volumineux et que le daemon est con&#231;u pour rester actif longtemps, il doit g&#233;rer sa m&#233;moire de mani&#232;re autonome et efficace. C'est (...)&lt;/p&gt;


-
&lt;a href="https://ia.dnc.global/-Architecture-v200-.html" rel="directory"&gt;Architecture v200&lt;/a&gt;


		</description>


 <content:encoded>&lt;div class='rss_chapo'&gt;&lt;p&gt;Dans l'architecture Pyro5, les index ( et certains mod&#232;les ) sont charg&#233;s depuis le disque puis conserv&#233;s en RAM pour &#234;tre accessibles rapidement par les services distants. Le daemon joue le r&#244;le de processus ma&#238;tre.&lt;/p&gt;
&lt;p&gt;Pour les index par exemple, il les expose via IndexServer, et sert de point d'acc&#232;s unique pour tous les RemoteIndexService.&lt;/p&gt;
&lt;p&gt;Comme ces index peuvent &#234;tre volumineux et que le daemon est con&#231;u pour rester actif longtemps, il doit g&#233;rer sa m&#233;moire de mani&#232;re autonome et efficace. C'est pr&#233;cis&#233;ment pour cela qu'une politique LRU/MRU est indispensable : elle permet de conserver en RAM les index les plus r&#233;cemment utilis&#233;s (MRU), tout en &#233;vin&#231;ant automatiquement ceux qui ne sont plus sollicit&#233;s (LRU).&lt;/p&gt;
&lt;p&gt;Cette strat&#233;gie garantit que le flowchart Pyro5 fonctionne de mani&#232;re fluide, sans surcharge m&#233;moire, et que les services distants acc&#232;dent toujours aux index pertinents sans rechargement inutile depuis le disque.&lt;/p&gt;&lt;/div&gt;
		&lt;div class='rss_texte'&gt;&lt;hr /&gt;
&lt;h1&gt;Politique LRU/MRU&lt;/h1&gt;
&lt;p&gt;La politique &lt;strong&gt;LRU/MRU&lt;/strong&gt; (Least Recently Used / Most Recently Used) est un m&#233;canisme de gestion de la m&#233;moire qui permet de d&#233;cider &lt;strong&gt;quel objet doit &#234;tre &#233;vinc&#233;&lt;/strong&gt; lorsque la RAM atteint sa capacit&#233; maximale. Elle repose sur un principe simple : &lt;/p&gt;
&lt;ul class=&#034;spip&#034;&gt;
&lt;li&gt;&lt;strong&gt;MRU&lt;/strong&gt; = objets r&#233;cemment utilis&#233;s &#8594; &#224; conserver &lt;/li&gt;
&lt;li&gt;&lt;strong&gt;LRU&lt;/strong&gt; = objets peu utilis&#233;s r&#233;cemment &#8594; candidats &#224; l'&#233;viction &lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;Dans notre syst&#232;me, cette politique est appliqu&#233;e par le &lt;strong&gt;MemoryManager&lt;/strong&gt;, qui maintient un ordre strict des objets en RAM gr&#226;ce &#224; un &lt;code&gt;OrderedDict&lt;/code&gt;.&lt;/p&gt;
&lt;hr /&gt;
&lt;h2&gt;MRU &#8212; Most Recently Used&lt;/h2&gt;
&lt;p&gt;Un objet devient &lt;strong&gt;MRU&lt;/strong&gt; lorsqu'il est :&lt;/p&gt;
&lt;ul class=&#034;spip&#034;&gt;
&lt;li&gt;charg&#233; en RAM,&lt;/li&gt;
&lt;li&gt;acc&#233;d&#233; via &lt;code&gt;get()&lt;/code&gt;,&lt;/li&gt;
&lt;li&gt;marqu&#233; via &lt;code&gt;touch()&lt;/code&gt;.&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;Le MemoryManager d&#233;place alors la cl&#233; &lt;strong&gt;&#224; la fin&lt;/strong&gt; de l'OrderedDict :&lt;/p&gt;
&lt;pre&gt;&lt;code&gt;[ LRU ... &#8594; ... MRU ]&lt;/code&gt;&lt;/pre&gt;
&lt;p&gt;Cela signifie :&lt;/p&gt;
&lt;ul class=&#034;spip&#034;&gt;
&lt;li&gt;cet index est actif,&lt;/li&gt;
&lt;li&gt;il doit &#234;tre conserv&#233; en priorit&#233;,&lt;/li&gt;
&lt;li&gt;il ne doit pas &#234;tre &#233;vinc&#233; tant que d'autres objets moins utilis&#233;s existent.&lt;/li&gt;
&lt;/ul&gt;
&lt;h2&gt;LRU &#8212; Least Recently Used&lt;/h2&gt;
&lt;p&gt;L'objet &lt;strong&gt;LRU&lt;/strong&gt; est celui qui :&lt;/p&gt;
&lt;ul class=&#034;spip&#034;&gt;
&lt;li&gt;n'a pas &#233;t&#233; utilis&#233; depuis le plus longtemps,&lt;/li&gt;
&lt;li&gt;n'a pas &#233;t&#233; touch&#233; r&#233;cemment,&lt;/li&gt;
&lt;li&gt;se trouve &lt;strong&gt;au d&#233;but&lt;/strong&gt; de l'OrderedDict.&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;Lorsqu'une &#233;viction est n&#233;cessaire (ex : &lt;code&gt;len(store) &gt; max_items&lt;/code&gt;), le MemoryManager fait :&lt;/p&gt;
&lt;pre&gt;&lt;code class=&#034;language-python&#034;&gt;key, _ = self._store.popitem(last=False)&lt;/code&gt;&lt;/pre&gt;
&lt;p&gt;Ce qui retire &lt;strong&gt;le premier &#233;l&#233;ment&lt;/strong&gt;, donc le LRU.&lt;/p&gt;
&lt;h2&gt;Pourquoi LRU/MRU est id&#233;al dans ton architecture&lt;/h2&gt;
&lt;h3&gt;1. &lt;strong&gt;Les index sont lourds&lt;/strong&gt;&lt;/h3&gt;
&lt;p&gt;Ils peuvent peser plusieurs centaines de Mo.&lt;br /&gt;
Il est donc crucial d'&#233;viter de recharger inutilement depuis le disque.&lt;/p&gt;
&lt;h3&gt;2. &lt;strong&gt;Les RemoteIndexService sont stateless&lt;/strong&gt;&lt;/h3&gt;
&lt;p&gt;Ils ne conservent rien : tout repose sur la RAM du daemon.&lt;br /&gt;
LRU/MRU garantit que les index r&#233;ellement utilis&#233;s restent disponibles.&lt;/p&gt;
&lt;h3&gt;3. &lt;strong&gt;Le daemon est long-lived&lt;/strong&gt;&lt;/h3&gt;
&lt;p&gt;Il doit s'auto-r&#233;guler sans intervention humaine.&lt;br /&gt;
LRU/MRU fournit une politique simple, d&#233;terministe et efficace.&lt;/p&gt;
&lt;h3&gt;4. &lt;strong&gt;Les th&#232;mes ont des patterns d'acc&#232;s naturels&lt;/strong&gt;&lt;/h3&gt;
&lt;p&gt;Certains th&#232;mes sont consult&#233;s souvent (MRU), d'autres rarement (LRU).&lt;br /&gt;
La politique s'adapte automatiquement &#224; ces usages.&lt;/p&gt;
&lt;h2&gt;R&#233;sultat : une m&#233;moire auto-optimis&#233;e&lt;/h2&gt;
&lt;p&gt;Gr&#226;ce &#224; LRU/MRU :&lt;/p&gt;
&lt;ul class=&#034;spip&#034;&gt;
&lt;li&gt;Les index actifs restent en RAM &#8594; &lt;strong&gt;latence minimale&lt;/strong&gt; &lt;/li&gt;
&lt;li&gt;Les index inactifs sont &#233;vinc&#233;s &#8594; &lt;strong&gt;RAM ma&#238;tris&#233;e&lt;/strong&gt; &lt;/li&gt;
&lt;li&gt;Le daemon ne recharge que si n&#233;cessaire &#8594; &lt;strong&gt;I/O minimis&#233;es&lt;/strong&gt; &lt;/li&gt;
&lt;li&gt;Le syst&#232;me reste stable m&#234;me sous forte charge &#8594; &lt;strong&gt;robustesse&lt;/strong&gt; &lt;/li&gt;
&lt;/ul&gt;&lt;/div&gt;
		
		</content:encoded>


		

	</item>
<item xml:lang="fr">
		<title>Chargement des index</title>
		<link>https://ia.dnc.global/Chargement-des-index.html</link>
		<guid isPermaLink="true">https://ia.dnc.global/Chargement-des-index.html</guid>
		<dc:date>2026-06-25T06:58:00Z</dc:date>
		<dc:format>text/html</dc:format>
		<dc:language>fr</dc:language>
		<dc:creator>Bertrand Degoy</dc:creator>



		<description>
&lt;p&gt;Le chargement des index repose sur une architecture modulaire o&#249; chaque composant joue un r&#244;le pr&#233;cis, depuis le daemon initial jusqu'aux services distants qui exploitent les donn&#233;es en RAM.
&lt;br class='autobr' /&gt;
L'objectif est de garantir un chargement efficace, unifi&#233; et non redondant des index, tout en permettant une mise en m&#233;moire centralis&#233;e et partag&#233;e.
&lt;br class='autobr' /&gt;
Gr&#226;ce au ThemeIndexLoaderManager, les index sont reconstruits depuis le disque via des loaders sp&#233;cialis&#233;s, normalis&#233;s en backends homog&#232;nes, puis mis &#224; disposition (...)&lt;/p&gt;


-
&lt;a href="https://ia.dnc.global/-Architecture-v200-.html" rel="directory"&gt;Architecture v200&lt;/a&gt;


		</description>


 <content:encoded>&lt;div class='rss_chapo'&gt;&lt;p&gt;Le chargement des index repose sur une architecture modulaire o&#249; chaque composant joue un r&#244;le pr&#233;cis, depuis le daemon initial jusqu'aux services distants qui exploitent les donn&#233;es en RAM.&lt;br class='autobr' /&gt;
L'objectif est de garantir un chargement efficace, unifi&#233; et non redondant des index, tout en permettant une mise en m&#233;moire centralis&#233;e et partag&#233;e.&lt;br class='autobr' /&gt;
Gr&#226;ce au ThemeIndexLoaderManager, les index sont reconstruits depuis le disque via des loaders sp&#233;cialis&#233;s, normalis&#233;s en backends homog&#232;nes, puis mis &#224; disposition des services Pyro5 pour r&#233;pondre aux requ&#234;tes des clients. L'ensemble forme une cha&#238;ne coh&#233;rente, optimis&#233;e pour la performance et la r&#233;utilisation.&lt;/p&gt;&lt;/div&gt;
		&lt;hr /&gt;
		&lt;div &lt;div class='rss_ps'&gt;&lt;hr /&gt;
&lt;h1&gt;&lt;strong&gt;Chargement des index &lt;/strong&gt;&lt;/h1&gt;
&lt;h2&gt;&lt;strong&gt;Architecture g&#233;n&#233;rale&lt;/strong&gt;&lt;/h2&gt;
&lt;pre&gt;&lt;code&gt;daemon.py &#8595; initialise
MemoryManager
IndexServer &#8595; cr&#233;e &#224; la demande
RemoteIndexService (un par th&#232;me) &#8595; utilise
Index en RAM &#8593; fourni par
ThemeIndexLoaderManager (chargement disque &#8594; backend unifi&#233;)&lt;/code&gt;&lt;/pre&gt;
&lt;p&gt;Interpr&#233;tation :
daemon.py initialise les services (MemoryManager, IndexServer).&lt;/p&gt;
&lt;p&gt;IndexServer est le ma&#238;tre : il g&#232;re les index et cr&#233;e les RemoteIndexService.&lt;/p&gt;
&lt;p&gt;RemoteIndexService ex&#233;cute les requ&#234;tes RAG sur les index en RAM.&lt;/p&gt;
&lt;p&gt;MemoryManager stocke les backends unifi&#233;s en RAM.&lt;/p&gt;
&lt;p&gt;ThemeIndexLoaderManager est un composant externe appel&#233; par IndexServer uniquement quand un index n'est pas en RAM&lt;/p&gt;
&lt;p&gt; &lt;/p&gt;
&lt;h2&gt;&lt;strong&gt;Dynamique du chargement&lt;/strong&gt;&lt;/h2&gt;
&lt;p&gt;&lt;strong&gt;Vue depuis le daemon :&lt;/strong&gt;&lt;/p&gt;
&lt;dl class='spip_document_55 spip_documents'&gt; &lt;dt&gt; &lt;a href='https://ia.dnc.global/IMG/png/dynamique_chargement_index_daemon-2026-07-04-120046.png' class=&#034;mediabox&#034; title=&#034;PNG - 1.5 Mo&#034; &gt; &lt;img src='https://ia.dnc.global/IMG/png/dynamique_chargement_index_daemon-2026-07-04-120046.png' width=&#034;8192&#034; height=&#034;3574&#034; alt=&#034;PNG - 1.5&#160;Mo&#034; /&gt; &lt;/a&gt; &lt;/dt&gt; &lt;/dl&gt;
&lt;h1&gt;&lt;strong&gt;Description des composants&lt;/strong&gt;&lt;/h1&gt;
&lt;h2&gt;&lt;strong&gt;daemon.py&lt;/strong&gt;&lt;/h2&gt;
&lt;p&gt;Point d'entr&#233;e du syst&#232;me.&lt;br /&gt;
Responsable de l'initialisation :&lt;/p&gt;
&lt;ul class=&#034;spip&#034;&gt;
&lt;li&gt;
&lt;p&gt;&lt;strong&gt;MemoryManager&lt;/strong&gt; (gestion centralis&#233;e des backends en RAM)&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;&lt;strong&gt;IndexServer&lt;/strong&gt; (service ma&#238;tre Pyro5)&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;&lt;strong&gt;enregistrement des services Pyro5&lt;/strong&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;Le daemon &lt;strong&gt;n'interagit jamais avec le disque&lt;/strong&gt; : il d&#233;l&#232;gue tout chargement &#224; IndexServer, qui lui-m&#234;me d&#233;l&#232;gue aux loaders.&lt;/p&gt;
&lt;h2&gt;&lt;strong&gt;MemoryManager&lt;/strong&gt;&lt;/h2&gt;
&lt;p&gt;Gestionnaire RAM partag&#233;.&lt;/p&gt;
&lt;ul class=&#034;spip&#034;&gt;
&lt;li&gt;
&lt;p&gt;Stocke les &lt;strong&gt;backends unifi&#233;s&lt;/strong&gt; (FAISS, LlamaIndex, Dummy)&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;Applique une politique &lt;strong&gt;LRU/MRU&lt;/strong&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;Fournit :&lt;/p&gt;
&lt;ul class=&#034;spip&#034;&gt;
&lt;li&gt;
&lt;p&gt;&lt;code&gt;get(theme)&lt;/code&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;&lt;code&gt;set(theme, backend)&lt;/code&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;&lt;code&gt;touch(theme)&lt;/code&gt; pour la mise &#224; jour de l'ordre d'utilisation&lt;/p&gt;
&lt;/li&gt;
&lt;/ul&gt;
&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;MemoryManager garantit qu'un index n'est charg&#233; &lt;strong&gt;qu'une seule fois&lt;/strong&gt;.&lt;/p&gt;
&lt;h2&gt;&lt;strong&gt;IndexServer&lt;/strong&gt;&lt;/h2&gt;
&lt;p&gt;Service ma&#238;tre Pyro5.&lt;/p&gt;
&lt;ul class=&#034;spip&#034;&gt;
&lt;li&gt;
&lt;p&gt;Centralise le chargement des index&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;Un backend par th&#232;me&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;Cr&#233;e les &lt;strong&gt;RemoteIndexService&lt;/strong&gt; &#224; la demande&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;R&#233;utilise les services existants&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;Ne charge jamais depuis le disque&lt;/p&gt;
&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;Lorsqu'un index est absent de la RAM :&lt;/p&gt;
&lt;ol class=&#034;spip&#034;&gt;
&lt;li&gt;
&lt;p&gt;IndexServer appelle &lt;strong&gt;ThemeIndexLoaderManager&lt;/strong&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;Le loader charge depuis le disque&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;Le loader construit un &lt;strong&gt;backend unifi&#233;&lt;/strong&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;IndexServer stocke ce backend dans MemoryManager&lt;/p&gt;
&lt;/li&gt;
&lt;/ol&gt;
&lt;h2&gt;&lt;strong&gt;RemoteIndexService&lt;/strong&gt;&lt;/h2&gt;
&lt;p&gt;Service Pyro5 par th&#232;me.&lt;/p&gt;
&lt;ul class=&#034;spip&#034;&gt;
&lt;li&gt;
&lt;p&gt;Ex&#233;cute les op&#233;rations sur l'index en RAM :&lt;/p&gt;
&lt;ul class=&#034;spip&#034;&gt;
&lt;li&gt;
&lt;p&gt;&lt;code&gt;retrieve()&lt;/code&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;&lt;code&gt;query()&lt;/code&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;&lt;code&gt;astream()&lt;/code&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;/ul&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;Ne charge jamais depuis le disque&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;Ne conna&#238;t pas les loaders&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;Ne manipule que des &lt;strong&gt;backends unifi&#233;s&lt;/strong&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;/ul&gt;
&lt;h2&gt;&lt;strong&gt;ThemeIndexLoaderManager (IndexLoaderFactory)&lt;/strong&gt;&lt;/h2&gt;
&lt;p&gt;Factory de loaders.&lt;br /&gt;
Responsable de &lt;strong&gt;toute la cha&#238;ne de chargement depuis le disque&lt;/strong&gt;.&lt;/p&gt;
&lt;p&gt;Fonctions :&lt;/p&gt;
&lt;ol class=&#034;spip&#034;&gt;
&lt;li&gt;
&lt;p&gt;Lire la configuration du th&#232;me&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;D&#233;terminer le type d'index :&lt;/p&gt;
&lt;ul class=&#034;spip&#034;&gt;
&lt;li&gt;
&lt;p&gt;&lt;code&gt;llama_index&lt;/code&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;&lt;code&gt;faiss&lt;/code&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;&lt;code&gt;dummy&lt;/code&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;/ul&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;Instancier le loader concret&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;Charger les donn&#233;es persist&#233;es&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;Construire un &lt;strong&gt;backend unifi&#233;&lt;/strong&gt; :&lt;/p&gt;
&lt;ul class=&#034;spip&#034;&gt;
&lt;li&gt;
&lt;p&gt;&lt;code&gt;LlamaIndexBackend&lt;/code&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;&lt;code&gt;FaissBackend&lt;/code&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;&lt;code&gt;DummyBackend&lt;/code&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;/ul&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;Retourner ce backend &#224; IndexServer&lt;/p&gt;
&lt;/li&gt;
&lt;/ol&gt;
&lt;p&gt;IndexServer ne manipule jamais les loaders concrets.&lt;/p&gt;
&lt;h1&gt;&lt;strong&gt;Cha&#238;ne de chargement des index depuis le disque&lt;/strong&gt;&lt;/h1&gt;
&lt;h2&gt;&lt;strong&gt;Vue d'ensemble&lt;/strong&gt;&lt;/h2&gt;
&lt;pre&gt;&lt;code&gt;ThemeIndexLoaderManager &#8595;
S&#233;lection du loader concret &#8595;
Chargement depuis le disque &#8595;
Construction du backend unifi&#233; &#8595;
Retour &#224; IndexServer &#8595;
Stockage dans MemoryManager (RAM) &#8595;
RemoteIndexService utilise l'index&lt;/code&gt;&lt;/pre&gt;
&lt;h2&gt;&lt;strong&gt;S&#233;lection du loader&lt;/strong&gt;&lt;/h2&gt;
&lt;pre&gt;&lt;code class=&#034;language-python&#034;&gt;index_type = theme_config.get(&#034;index_type&#034;, &#034;llama_index&#034;) &lt;p&gt;if index_type == &#034;llama_index&#034;: loader = LlamaIndexLoader(theme_name, theme_config)
elif index_type == &#034;faiss&#034;: loader = FAISSLoader(theme_name, theme_config)
else: loader = DummyLoader(theme_name)&lt;/code&gt;&lt;/p&gt;
&lt;/pre&gt;
&lt;p&gt;Chaque loader conna&#238;t :&lt;/p&gt;
&lt;ul class=&#034;spip&#034;&gt;
&lt;li&gt;
&lt;p&gt;son r&#233;pertoire de stockage,&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;son format de donn&#233;es,&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;la mani&#232;re de reconstruire un backend utilisable.&lt;/p&gt;
&lt;/li&gt;
&lt;/ul&gt;
&lt;h2&gt;&lt;strong&gt;Chargement depuis le disque&lt;/strong&gt;&lt;/h2&gt;
&lt;h3&gt;&lt;strong&gt;LlamaIndexLoader&lt;/strong&gt;&lt;/h3&gt;
&lt;ul class=&#034;spip&#034;&gt;
&lt;li&gt;
&lt;p&gt;Construit un &lt;code&gt;StorageContext&lt;/code&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;Charge les fichiers persist&#233;s :&lt;/p&gt;
&lt;ul class=&#034;spip&#034;&gt;
&lt;li&gt;
&lt;p&gt;&lt;code&gt;docstore.json&lt;/code&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;&lt;code&gt;vector_store.json&lt;/code&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;&lt;code&gt;index_store.json&lt;/code&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;/ul&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;Reconstruit un &lt;code&gt;VectorStoreIndex&lt;/code&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;Retourne un backend unifi&#233; :&lt;/p&gt;
&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;LlamaIndexBackend(index)&lt;/p&gt;
&lt;pre&gt;&lt;code&gt;
### **FAISSLoader**
- Charge le fichier `.faiss`
- Charge les m&#233;tadonn&#233;es associ&#233;es
- Reconstruit l'index FAISS en RAM
- Retourne :
&lt;/code&gt;&lt;/pre&gt;
&lt;p&gt;FaissBackend(faiss_index, embeddings, documents)&lt;/p&gt;
&lt;pre&gt;&lt;code&gt;
### **DummyLoader**
Retourne un backend minimal :
&lt;/code&gt;&lt;/pre&gt;
&lt;p&gt;DummyBackend()&lt;/p&gt;
&lt;pre&gt;&lt;code&gt;
&lt;p&gt;## **Construction du backend unifi&#233;**&lt;/p&gt;
&lt;p&gt;Chaque loader retourne un objet brut :&lt;/p&gt;
&lt;p&gt;- LlamaIndex &#8594; `VectorStoreIndex`
- FAISS &#8594; `faiss_index`
- Dummy &#8594; rien (backend direct)&lt;/p&gt;
&lt;p&gt;ThemeIndexLoaderManager encapsule cet objet dans un backend unifi&#233; :&lt;/p&gt;
&lt;p&gt;- `LlamaIndexBackend`
- `FaissBackend`
- `DummyBackend`&lt;/p&gt;
&lt;p&gt;Tous exposent la m&#234;me API :&lt;/p&gt;
&lt;p&gt;- `retrieve()`
- `query()`
- `astream()`
- `ping()`&lt;/p&gt;
&lt;p&gt;
## **Retour &#224; IndexServer**&lt;/p&gt;
&lt;p&gt;IndexServer re&#231;oit le backend unifi&#233; :&lt;/p&gt;
&lt;p&gt;```python
backend = loader_manager.load(theme_name)&lt;/code&gt;&lt;/p&gt;
&lt;/pre&gt;
&lt;p&gt;Puis :&lt;/p&gt;
&lt;ul class=&#034;spip&#034;&gt;
&lt;li&gt;
&lt;p&gt;le stocke dans MemoryManager&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;cr&#233;e un RemoteIndexService si n&#233;cessaire&lt;/p&gt;
&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;IndexServer ne recharge jamais un index d&#233;j&#224; en RAM.&lt;/p&gt;
&lt;h2&gt;&lt;strong&gt;Stockage dans MemoryManager&lt;/strong&gt;&lt;/h2&gt;
&lt;p&gt;MemoryManager stocke :&lt;/p&gt;
&lt;pre&gt;&lt;code&gt;memory.set(theme_name, backend)&lt;/code&gt;&lt;/pre&gt;
&lt;p&gt;et applique une politique &lt;strong&gt;LRU/MRU&lt;/strong&gt; :&lt;/p&gt;
&lt;ul class=&#034;spip&#034;&gt;
&lt;li&gt;
&lt;p&gt;MRU : objets r&#233;cemment utilis&#233;s &#8594; conserv&#233;s&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;LRU : objets peu utilis&#233;s &#8594; candidats &#224; l'&#233;viction&lt;/p&gt;
&lt;/li&gt;
&lt;/ul&gt;
&lt;h2&gt;&lt;strong&gt;Utilisation par RemoteIndexService&lt;/strong&gt;&lt;/h2&gt;
&lt;p&gt;RemoteIndexService :&lt;/p&gt;
&lt;ul class=&#034;spip&#034;&gt;
&lt;li&gt;
&lt;p&gt;r&#233;cup&#232;re le backend via MemoryManager&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;ex&#233;cute les requ&#234;tes :&lt;/p&gt;
&lt;ul class=&#034;spip&#034;&gt;
&lt;li&gt;
&lt;p&gt;&lt;code&gt;retrieve()&lt;/code&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;&lt;code&gt;query()&lt;/code&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;&lt;code&gt;astream()&lt;/code&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;/ul&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;ne charge jamais depuis le disque&lt;/p&gt;
&lt;/li&gt;
&lt;/ul&gt;
&lt;h1&gt;&lt;strong&gt;R&#233;sum&#233; du chargement depuis le disque&lt;/strong&gt;&lt;/h1&gt;
&lt;table&gt;
&lt;thead&gt;
&lt;tr&gt;
&lt;th&gt;&#201;tape&lt;/th&gt;
&lt;th&gt;Composant&lt;/th&gt;
&lt;th&gt;R&#244;le&lt;/th&gt;
&lt;/tr&gt;
&lt;/thead&gt;
&lt;tbody&gt;
&lt;tr&gt;
&lt;td&gt;1&lt;/td&gt;
&lt;td&gt;ThemeIndexLoaderManager&lt;/td&gt;
&lt;td&gt;S&#233;lection du loader + orchestration&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;2&lt;/td&gt;
&lt;td&gt;Loader concret&lt;/td&gt;
&lt;td&gt;Lecture disque + reconstruction&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;3&lt;/td&gt;
&lt;td&gt;LoaderManager&lt;/td&gt;
&lt;td&gt;Construction du backend unifi&#233;&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;4&lt;/td&gt;
&lt;td&gt;IndexServer&lt;/td&gt;
&lt;td&gt;Stockage + exposition Pyro&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;5&lt;/td&gt;
&lt;td&gt;MemoryManager&lt;/td&gt;
&lt;td&gt;Mise en RAM + LRU&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;6&lt;/td&gt;
&lt;td&gt;RemoteIndexService&lt;/td&gt;
&lt;td&gt;Utilisation de l'index&lt;/td&gt;
&lt;/tr&gt;
&lt;/tbody&gt;
&lt;/table&gt;&lt;/div&gt;
		
		</content:encoded>


		

	</item>
<item xml:lang="fr">
		<title>Trois modes de chargement des mod&#232;les</title>
		<link>https://ia.dnc.global/Trois-modes-de-chargement-des-modeles.html</link>
		<guid isPermaLink="true">https://ia.dnc.global/Trois-modes-de-chargement-des-modeles.html</guid>
		<dc:date>2026-06-24T09:23:00Z</dc:date>
		<dc:format>text/html</dc:format>
		<dc:language>fr</dc:language>
		<dc:creator>Bertrand Degoy</dc:creator>



		<description>
&lt;p&gt;Dans l'architecture v200, les mod&#232;les peuvent &#234;tre charg&#233;s de trois mani&#232;res : via une API distante (comme Mistral), en local sans persistance (chargement HuggingFace classique dans le process), ou en m&#233;moire persistante gr&#226;ce &#224; un service Pyro5. &lt;br class='autobr' /&gt;
Les deux premiers modes sont simples mais limit&#233;s : l'API impose une latence r&#233;seau et des co&#251;ts, tandis que le chargement local dispara&#238;t d&#232;s que le process se termine. &lt;br class='autobr' /&gt;
Pyro5 apporte une troisi&#232;me voie : un daemon Python ind&#233;pendant, capable de conserver des (...)&lt;/p&gt;


-
&lt;a href="https://ia.dnc.global/-Architecture-v200-.html" rel="directory"&gt;Architecture v200&lt;/a&gt;


		</description>


 <content:encoded>&lt;div class='rss_chapo'&gt;&lt;p&gt;Dans l'architecture v200, les mod&#232;les peuvent &#234;tre charg&#233;s de trois mani&#232;res : via une API distante (comme Mistral), en local sans persistance (chargement HuggingFace classique dans le process), ou en m&#233;moire persistante gr&#226;ce &#224; un service Pyro5.&lt;/p&gt;
&lt;p&gt;Les deux premiers modes sont simples mais limit&#233;s : l'API impose une latence r&#233;seau et des co&#251;ts, tandis que le chargement local dispara&#238;t d&#232;s que le process se termine.&lt;/p&gt;
&lt;p&gt;Pyro5 apporte une troisi&#232;me voie : un daemon Python ind&#233;pendant, capable de conserver des objets lourds (embedding, index, SLM) en RAM de mani&#232;re durable, et de les exposer via RPC &#224; tous les composants du runtime.&lt;/p&gt;
&lt;p&gt;Dans ce mod&#232;le, models.json d&#233;crit les mod&#232;les &#224; charger, ModelsConfigurator les instancie une seule fois au d&#233;marrage, puis AppSettings les expose &#224; l'ensemble du syst&#232;me.&lt;/p&gt;
&lt;p&gt;Les services Pyro5, d&#233;clar&#233;s dans services.json, ne chargent jamais de mod&#232;les eux&#8209;m&#234;mes : ils se contentent d'exposer des capacit&#233;s (embedding, SLM, indexation, m&#233;moire) en s'appuyant sur les objets d&#233;j&#224; initialis&#233;s, garantissant ainsi coh&#233;rence, performance et s&#233;paration stricte des responsabilit&#233;s.&lt;/p&gt;&lt;/div&gt;
		&lt;hr /&gt;
		&lt;div &lt;div class='rss_ps'&gt;&lt;hr /&gt;
&lt;h1&gt;Introduction&lt;/h1&gt;
&lt;p&gt;Dans l'architecture v200, la gestion des mod&#232;les repose sur une s&#233;paration stricte entre trois modes de chargement : &lt;/p&gt;
&lt;ol class=&#034;spip&#034;&gt;
&lt;li&gt;&lt;strong&gt;API distante&lt;/strong&gt; (ex. Mistral) &#8212; aucun co&#251;t m&#233;moire local, mais latence r&#233;seau et d&#233;pendance externe. &lt;/li&gt;
&lt;li&gt;&lt;strong&gt;Chargement local non persistant&lt;/strong&gt; &#8212; les mod&#232;les HF sont charg&#233;s dans le process courant, mais disparaissent d&#232;s que le process se termine. &lt;/li&gt;
&lt;li&gt;&lt;strong&gt;Chargement persistant via Pyro5&lt;/strong&gt; &#8212; un daemon Python ind&#233;pendant conserve les mod&#232;les lourds en RAM et expose leurs capacit&#233;s via RPC, permettant une mutualisation entre plusieurs composants du runtime.&lt;/li&gt;
&lt;/ol&gt;
&lt;p&gt;Cette architecture permet d'adapter le chargement des mod&#232;les aux contraintes mat&#233;rielles (CPU, GPU, RAM), tout en garantissant une coh&#233;rence stricte : &lt;/p&gt;
&lt;ul class=&#034;spip&#034;&gt;
&lt;li&gt;&lt;code&gt;models.json&lt;/code&gt; d&#233;crit les mod&#232;les &#224; charger. &lt;/li&gt;
&lt;li&gt;&lt;code&gt;ModelsConfigurator&lt;/code&gt; les instancie une seule fois. &lt;/li&gt;
&lt;li&gt;&lt;code&gt;AppSettings&lt;/code&gt; les stocke en m&#233;moire. &lt;/li&gt;
&lt;li&gt;Les services Pyro5 les consomment via RPC sans jamais les recharger.&lt;/li&gt;
&lt;/ul&gt;
&lt;h1&gt;Vue d'ensemble du pipeline v200&lt;/h1&gt;
&lt;p&gt;&lt;span class='spip_document_50 spip_documents spip_documents_center'&gt;
&lt;img src='https://ia.dnc.global/IMG/png/modelsconfigurator_workflow-2026-06-28-090730.png' width=&#034;1783&#034; height=&#034;6185&#034; alt=&#034;&#034; /&gt;&lt;/span&gt;&lt;/p&gt;
&lt;h1&gt;1. Les trois modes de chargement des mod&#232;les&lt;/h1&gt;
&lt;h2&gt;1.1 Mod&#232;les API (ex. Mistral)&lt;/h2&gt;
&lt;p&gt;&lt;strong&gt;Caract&#233;ristiques :&lt;/strong&gt;&lt;/p&gt;
&lt;ul class=&#034;spip&#034;&gt;
&lt;li&gt;Aucun co&#251;t m&#233;moire local &lt;/li&gt;
&lt;li&gt;Latence r&#233;seau &lt;/li&gt;
&lt;li&gt;D&#233;pendance &#224; un fournisseur &lt;/li&gt;
&lt;li&gt;Co&#251;t financier potentiel &lt;/li&gt;
&lt;li&gt;Pas de GPU requis &lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;&lt;strong&gt;Exemple dans &lt;code&gt;models.json&lt;/code&gt; :&lt;/strong&gt;&lt;/p&gt;
&lt;pre&gt;&lt;code class=&#034;language-json&#034;&gt;&#034;llm&#034;: { &#034;model_name&#034;: &#034;mistral-medium-latest&#034;, &#034;backend&#034;: &#034;mistral_api&#034;, &#034;api_key&#034;: &#034;env:MISTRAL_API_KEY&#034;
}&lt;/code&gt;&lt;/pre&gt;
&lt;p&gt;&lt;strong&gt;Quand utiliser ?&lt;/strong&gt;&lt;/p&gt;
&lt;ul class=&#034;spip&#034;&gt;
&lt;li&gt;Pas de GPU disponible &lt;/li&gt;
&lt;li&gt;RAM limit&#233;e &lt;/li&gt;
&lt;li&gt;Besoin d'un mod&#232;le puissant (Mixtral, Mistral Large) &lt;/li&gt;
&lt;li&gt;D&#233;ploiement cloud ou edge l&#233;ger &lt;/li&gt;
&lt;/ul&gt;
&lt;h2&gt;1.2 Mod&#232;les locaux non persistants (HF dans le process)&lt;/h2&gt;
&lt;p&gt;&lt;strong&gt;Caract&#233;ristiques :&lt;/strong&gt;&lt;/p&gt;
&lt;ul class=&#034;spip&#034;&gt;
&lt;li&gt;Charg&#233;s par HuggingFace dans le process courant &lt;/li&gt;
&lt;li&gt;Disparaissent &#224; la fin du process &lt;/li&gt;
&lt;li&gt;Temps de chargement non n&#233;gligeable &lt;/li&gt;
&lt;li&gt;N&#233;cessitent RAM + CPU/GPU &lt;/li&gt;
&lt;li&gt;Id&#233;al pour tests, scripts, outils CLI &lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;&lt;strong&gt;Exemple :&lt;/strong&gt;&lt;/p&gt;
&lt;pre&gt;&lt;code class=&#034;language-json&#034;&gt;&#034;slm&#034;: { &#034;model_name&#034;: &#034;TinyLlama/TinyLlama-1.1B-Chat-v1.0&#034;, &#034;model_path&#034;: &#034;/home/user/.models/TinyLlama&#034;, &#034;backend&#034;: &#034;hf&#034;, &#034;device&#034;: &#034;cpu&#034;
}&lt;/code&gt;&lt;/pre&gt;
&lt;p&gt;&lt;strong&gt;Quand utiliser ?&lt;/strong&gt;&lt;/p&gt;
&lt;ul class=&#034;spip&#034;&gt;
&lt;li&gt;D&#233;veloppement local &lt;/li&gt;
&lt;li&gt;Tests unitaires &lt;/li&gt;
&lt;li&gt;Mod&#232;les l&#233;gers (&lt;2&#8239;GB) &lt;/li&gt;
&lt;li&gt;Pas besoin de persistance &lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;Sur ce dernier point, notons qu'un service HTTP Rest ne chargera les mod&#232;les qu'une fois &#224; son lancement ; dans cette configuration, on pourra s'accommoder de la non-persistance, au prix d'un d&#233;lai au re-lancement du service.&lt;/p&gt;
&lt;h2&gt;1.3 Mod&#232;les persistants via Pyro5 (daemon)&lt;/h2&gt;
&lt;p&gt;&lt;strong&gt;Caract&#233;ristiques :&lt;/strong&gt;&lt;/p&gt;
&lt;ul class=&#034;spip&#034;&gt;
&lt;li&gt;Mod&#232;les charg&#233;s une seule fois dans un daemon &lt;/li&gt;
&lt;li&gt;Persistants en RAM &lt;/li&gt;
&lt;li&gt;Accessibles via RPC &lt;/li&gt;
&lt;li&gt;Mutualis&#233;s entre plusieurs composants &lt;/li&gt;
&lt;li&gt;Id&#233;al pour embeddings, index, SLM &lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;&lt;strong&gt;Exemple dans &lt;code&gt;services.json&lt;/code&gt; :&lt;/strong&gt;&lt;/p&gt;
&lt;pre&gt;&lt;code class=&#034;language-json&#034;&gt;{ &#034;name&#034;: &#034;embedding.server&#034;, &#034;class&#034;: &#034;runtime_v2.services.embedding.embedding_server.EmbeddingServer&#034;, &#034;params&#034;: {}
}&lt;/code&gt;&lt;/pre&gt;
&lt;p&gt;&lt;strong&gt;Quand utiliser ?&lt;/strong&gt;&lt;/p&gt;
&lt;ul class=&#034;spip&#034;&gt;
&lt;li&gt;Mod&#232;les lourds (embedding, SLM) &lt;/li&gt;
&lt;li&gt;Besoin de persistance &lt;/li&gt;
&lt;li&gt;Plusieurs clients doivent acc&#233;der au m&#234;me mod&#232;le &lt;/li&gt;
&lt;li&gt;RAM suffisante (8&#8211;32&#8239;GB selon mod&#232;les) &lt;/li&gt;
&lt;/ul&gt;
&lt;h1&gt;2. Quelle solution pour quel mod&#232;le ? (selon contraintes mat&#233;rielles)&lt;/h1&gt;
&lt;h2&gt;2.1 Embedding (BGE-small, BGE-large, E5, etc.)&lt;/h2&gt;
&lt;table&gt;
&lt;thead&gt;
&lt;tr&gt;
&lt;th&gt;Contrainte&lt;/th&gt;
&lt;th&gt;Recommandation&lt;/th&gt;
&lt;/tr&gt;
&lt;/thead&gt;
&lt;tbody&gt;
&lt;tr&gt;
&lt;td&gt;&lt; 4&#8239;GB RAM&lt;/td&gt;
&lt;td&gt;API ou mod&#232;le tr&#232;s l&#233;ger (BGE-small)&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;4&#8211;8&#8239;GB RAM&lt;/td&gt;
&lt;td&gt;HF local non persistant&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;&gt; 8&#8239;GB RAM&lt;/td&gt;
&lt;td&gt;Pyro5 persistant (recommand&#233;)&lt;/td&gt;
&lt;/tr&gt;
&lt;/tbody&gt;
&lt;/table&gt;
&lt;p&gt;&lt;strong&gt;Pourquoi Pyro5 ?&lt;/strong&gt;&lt;br /&gt;
Les embeddings sont appel&#233;s tr&#232;s souvent &#8594; &#233;viter les rechargements &#8594; gain x10 en latence.&lt;/p&gt;
&lt;h2&gt;2.2 SLM (TinyLlama, Phi-2, Gemma 2B)&lt;/h2&gt;
&lt;table&gt;
&lt;thead&gt;
&lt;tr&gt;
&lt;th&gt;Contrainte&lt;/th&gt;
&lt;th&gt;Recommandation&lt;/th&gt;
&lt;/tr&gt;
&lt;/thead&gt;
&lt;tbody&gt;
&lt;tr&gt;
&lt;td&gt;CPU only&lt;/td&gt;
&lt;td&gt;TinyLlama / Phi-2 via Pyro5&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;GPU 4&#8211;8&#8239;GB&lt;/td&gt;
&lt;td&gt;Gemma 2B local&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;GPU 16&#8239;GB&lt;/td&gt;
&lt;td&gt;Mixtral 8x7B local (rare)&lt;/td&gt;
&lt;/tr&gt;
&lt;/tbody&gt;
&lt;/table&gt;
&lt;p&gt;&lt;strong&gt;Pourquoi Pyro5 ?&lt;/strong&gt;&lt;br /&gt;
Les SLM sont lourds &#224; charger &#8594; persistance indispensable.&lt;/p&gt;
&lt;h2&gt;2.3 Tokenizer&lt;/h2&gt;
&lt;table&gt;
&lt;thead&gt;
&lt;tr&gt;
&lt;th&gt;Contrainte&lt;/th&gt;
&lt;th&gt;Recommandation&lt;/th&gt;
&lt;/tr&gt;
&lt;/thead&gt;
&lt;tbody&gt;
&lt;tr&gt;
&lt;td&gt;Toujours&lt;/td&gt;
&lt;td&gt;HF local non persistant&lt;/td&gt;
&lt;/tr&gt;
&lt;/tbody&gt;
&lt;/table&gt;
&lt;p&gt;&lt;strong&gt;Pourquoi ?&lt;/strong&gt;&lt;br /&gt;
Le tokenizer est l&#233;ger (&lt;200&#8239;MB) &#8594; inutile de le mettre dans Pyro5.&lt;/p&gt;
&lt;h2&gt;2.4 LLM principal (Mistral, Mixtral, Claude, GPT)&lt;/h2&gt;
&lt;table&gt;
&lt;thead&gt;
&lt;tr&gt;
&lt;th&gt;Contrainte&lt;/th&gt;
&lt;th&gt;Recommandation&lt;/th&gt;
&lt;/tr&gt;
&lt;/thead&gt;
&lt;tbody&gt;
&lt;tr&gt;
&lt;td&gt;Pas de GPU&lt;/td&gt;
&lt;td&gt;API obligatoire&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;GPU 24&#8211;48&#8239;GB&lt;/td&gt;
&lt;td&gt;Mixtral local possible&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;GPU &gt; 80&#8239;GB&lt;/td&gt;
&lt;td&gt;Mod&#232;les 70B locaux&lt;/td&gt;
&lt;/tr&gt;
&lt;/tbody&gt;
&lt;/table&gt;
&lt;p&gt;&lt;strong&gt;Conclusion :&lt;/strong&gt;&lt;br /&gt;
Dans 99&#8239;% des cas &#8594; &lt;strong&gt;API&lt;/strong&gt;.&lt;/p&gt;
&lt;h1&gt;3. Exemples complets&lt;/h1&gt;
&lt;h2&gt;3.1 Exemple &lt;code&gt;models.json&lt;/code&gt; optimis&#233; pour machine CPU 16&#8239;GB&lt;/h2&gt;
&lt;ul class=&#034;spip&#034;&gt;
&lt;li&gt;Embedding en Pyro5 &lt;/li&gt;
&lt;li&gt;SLM en Pyro5 &lt;/li&gt;
&lt;li&gt;Tokenizer local &lt;/li&gt;
&lt;li&gt;LLM via API &lt;/li&gt;
&lt;/ul&gt;
&lt;pre&gt;&lt;code class=&#034;language-json&#034;&gt;{ &#034;embedding&#034;: { &#034;model_name&#034;: &#034;BAAI/bge-small-en-v1.5&#034;, &#034;model_path&#034;: &#034;/models/bge-small&#034;, &#034;backend&#034;: &#034;hf&#034;, &#034;device&#034;: &#034;cpu&#034; }, &#034;slm&#034;: { &#034;model_name&#034;: &#034;TinyLlama/TinyLlama-1.1B-Chat-v1.0&#034;, &#034;model_path&#034;: &#034;/models/tinyllama&#034;, &#034;backend&#034;: &#034;hf&#034;, &#034;device&#034;: &#034;cpu&#034; }, &#034;tokenizer&#034;: { &#034;model_name&#034;: &#034;mistralai/Mixtral-8x7B-Instruct-v0.1&#034;, &#034;backend&#034;: &#034;hf&#034; }, &#034;llm&#034;: { &#034;model_name&#034;: &#034;mistral-medium-latest&#034;, &#034;backend&#034;: &#034;mistral_api&#034;, &#034;api_key&#034;: &#034;env:MISTRAL_API_KEY&#034; }
}&lt;/code&gt;&lt;/pre&gt;
&lt;h2&gt;3.2 Exemple &lt;code&gt;services.json&lt;/code&gt; correspondant&lt;/h2&gt;
&lt;p&gt;Voir &lt;a href='https://ia.dnc.global/Construction-des-modeles-models-json-et-services-json.html' class='spip_in'&gt;Construction des mod&#232;les : &lt;code class='spip_code' dir='ltr'&gt;models.json&lt;/code&gt; et &lt;code class='spip_code' dir='ltr'&gt;services.json&lt;/code&gt;&lt;/a&gt;&lt;/p&gt;
&lt;pre&gt;&lt;code class=&#034;language-json&#034;&gt;{ &#034;daemon&#034;: { &#034;host&#034;: &#034;127.0.0.1&#034;, &#034;port&#034;: 50050 }, &#034;services&#034;: [ { &#034;name&#034;: &#034;embedding.server&#034;, &#034;class&#034;: &#034;runtime_v2.services.embedding.embedding_server.EmbeddingServer&#034;, &#034;params&#034;: {} }, { &#034;name&#034;: &#034;slm.server&#034;, &#034;class&#034;: &#034;runtime_v2.services.llm.slm_server.SLMServer&#034;, &#034;params&#034;: {} }, { &#034;name&#034;: &#034;index.server&#034;, &#034;class&#034;: &#034;runtime_v2.services.index.index_server.IndexServer&#034;, &#034;params&#034;: { &#034;embedding_service&#034;: &#034;embedding.server&#034; } }, { &#034;name&#034;: &#034;memory.server&#034;, &#034;class&#034;: &#034;runtime_v2.services.memory_manager.MemoryManager&#034;, &#034;params&#034;: { &#034;embedding_service&#034;: &#034;embedding.server&#034;, &#034;index_service&#034;: &#034;index.server&#034; } } ]
}&lt;/code&gt;&lt;/pre&gt;&lt;/div&gt;
		
		</content:encoded>


		

	</item>
<item xml:lang="fr">
		<title>Construction des mod&#232;les : models.json et services.json</title>
		<link>https://ia.dnc.global/Construction-des-modeles-models-json-et-services-json.html</link>
		<guid isPermaLink="true">https://ia.dnc.global/Construction-des-modeles-models-json-et-services-json.html</guid>
		<dc:date>2026-06-23T08:51:00Z</dc:date>
		<dc:format>text/html</dc:format>
		<dc:language>fr</dc:language>
		<dc:creator>Bertrand Degoy</dc:creator>



		<description>
&lt;p&gt;L'architecture v200 repose sur une s&#233;paration stricte entre la d&#233;finition des mod&#232;les, leur construction centralis&#233;e, et la d&#233;claration des services qui les consomment. &lt;br class='autobr' /&gt;
Les mod&#232;les sont d&#233;crits dans un fichier unique (`models.json`), puis construits une seule fois au d&#233;marrage par le `ModelsConfigurator`, avant d'&#234;tre stock&#233;s dans `AppSettings` pour &#234;tre partag&#233;s par l'ensemble du runtime. &lt;br class='autobr' /&gt;
Les services Pyro5, d&#233;clar&#233;s dans `services.json`, ne chargent jamais de mod&#232;les eux&#8209;m&#234;mes : ils se contentent (...)&lt;/p&gt;


-
&lt;a href="https://ia.dnc.global/-Architecture-v200-.html" rel="directory"&gt;Architecture v200&lt;/a&gt;


		</description>


 <content:encoded>&lt;div class='rss_chapo'&gt;&lt;p&gt;L'architecture v200 repose sur une s&#233;paration stricte entre la d&#233;finition des mod&#232;les, leur &lt;a href='https://ia.dnc.global/Trois-modes-de-chargement-des-modeles.html' class='spip_in'&gt;construction centralis&#233;e&lt;/a&gt;, et la d&#233;claration des services qui les consomment. &lt;br class='autobr' /&gt;
Les mod&#232;les sont d&#233;crits dans un fichier unique (`models.json`), puis construits une seule fois au d&#233;marrage par le `ModelsConfigurator`, avant d'&#234;tre stock&#233;s dans `AppSettings` pour &#234;tre partag&#233;s par l'ensemble du runtime. &lt;br class='autobr' /&gt;
Les services Pyro5, d&#233;clar&#233;s dans `services.json`, ne chargent jamais de mod&#232;les eux&#8209;m&#234;mes : ils se contentent d'exposer des capacit&#233;s en s'appuyant sur les objets d&#233;j&#224; initialis&#233;s, garantissant ainsi coh&#233;rence, performance et isolation des responsabilit&#233;s.&lt;/p&gt;&lt;/div&gt;
		&lt;hr /&gt;
		&lt;div &lt;div class='rss_ps'&gt;&lt;hr /&gt;
&lt;h1&gt;Construction des mod&#232;les : &lt;code&gt;models.json&lt;/code&gt; et &lt;code&gt;services.json&lt;/code&gt;&lt;/h1&gt;
&lt;h2&gt;1. Pr&#233;sentation g&#233;n&#233;rale : comment les mod&#232;les sont construits dans v200&lt;/h2&gt;
&lt;p&gt;L'architecture v200 repose sur une s&#233;paration stricte des responsabilit&#233;s :&lt;/p&gt;
&lt;h3&gt;&lt;strong&gt;1. &lt;code&gt;models.json&lt;/code&gt; d&#233;crit les mod&#232;les&lt;/strong&gt;&lt;/h3&gt;
&lt;p&gt;Ce fichier d&#233;clare &lt;em&gt;uniquement&lt;/em&gt; les mod&#232;les utilis&#233;s par le runtime :&lt;/p&gt;
&lt;ul class=&#034;spip&#034;&gt;
&lt;li&gt;embedding &lt;/li&gt;
&lt;li&gt;slm &lt;/li&gt;
&lt;li&gt;tokenizer &lt;/li&gt;
&lt;li&gt;llm &lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;Chaque entr&#233;e d&#233;crit :&lt;/p&gt;
&lt;ul class=&#034;spip&#034;&gt;
&lt;li&gt;&lt;code&gt;model_name&lt;/code&gt; &lt;/li&gt;
&lt;li&gt;&lt;code&gt;model_path&lt;/code&gt; (optionnel) &lt;/li&gt;
&lt;li&gt;&lt;code&gt;backend&lt;/code&gt; &lt;/li&gt;
&lt;li&gt;&lt;code&gt;device&lt;/code&gt; &lt;/li&gt;
&lt;li&gt;&lt;code&gt;api_key&lt;/code&gt; (si backend = API)&lt;/li&gt;
&lt;/ul&gt;
&lt;h3&gt;&lt;strong&gt;2. ModelsConfigurator construit les mod&#232;les&lt;/strong&gt;&lt;/h3&gt;
&lt;p&gt;Le composant &lt;code&gt;ModelsConfigurator&lt;/code&gt; :&lt;/p&gt;
&lt;ul class=&#034;spip&#034;&gt;
&lt;li&gt;lit &lt;code&gt;models.json&lt;/code&gt;&lt;/li&gt;
&lt;li&gt;instancie les mod&#232;les (HF, API, local, etc.)&lt;/li&gt;
&lt;li&gt;cr&#233;e les objets Python correspondants&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;Il ne conna&#238;t pas les services Pyro5.&lt;/p&gt;
&lt;h3&gt;&lt;strong&gt;3. AppSettingsManager stocke les mod&#232;les&lt;/strong&gt;&lt;/h3&gt;
&lt;p&gt;Une fois construits, les mod&#232;les sont transmis &#224; :&lt;/p&gt;
&lt;pre&gt;&lt;code&gt;AppSettingsManager.load_models(...)&lt;/code&gt;&lt;/pre&gt;
&lt;p&gt;Ce composant :&lt;/p&gt;
&lt;ul class=&#034;spip&#034;&gt;
&lt;li&gt;cr&#233;e un objet &lt;code&gt;AppSettings&lt;/code&gt;&lt;/li&gt;
&lt;li&gt;stocke les mod&#232;les dans des attributs statiques&lt;/li&gt;
&lt;li&gt;verrouille la configuration&lt;/li&gt;
&lt;/ul&gt;
&lt;h3&gt;&lt;strong&gt;4. Les services Pyro5 consomment les mod&#232;les&lt;/strong&gt;&lt;/h3&gt;
&lt;p&gt;Les services (EmbeddingServer, SLMServer, IndexServer, MemoryManager) :&lt;/p&gt;
&lt;ul class=&#034;spip&#034;&gt;
&lt;li&gt;&lt;strong&gt;ne chargent pas de mod&#232;les&lt;/strong&gt;&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;ne re&#231;oivent pas de param&#232;tres de mod&#232;le&lt;/strong&gt;&lt;/li&gt;
&lt;li&gt;r&#233;cup&#232;rent les mod&#232;les via :&lt;/li&gt;
&lt;/ul&gt;
&lt;pre&gt;&lt;code class=&#034;language-python&#034;&gt;from runtime_v2.settings.app_settings import AppSettings self.embedding = AppSettings.embedding
self.slm = AppSettings.slm
self.tokenizer = AppSettings.tokenizer
self.llm = AppSettings.llm&lt;/code&gt;&lt;/pre&gt;
&lt;h3&gt;&lt;strong&gt;5. &lt;code&gt;services.json&lt;/code&gt; d&#233;crit uniquement les services&lt;/strong&gt;&lt;/h3&gt;
&lt;p&gt;Ce fichier :&lt;/p&gt;
&lt;ul class=&#034;spip&#034;&gt;
&lt;li&gt;d&#233;clare les services Pyro5&lt;/li&gt;
&lt;li&gt;indique leur classe Python&lt;/li&gt;
&lt;li&gt;fournit uniquement les param&#232;tres n&#233;cessaires aux RPC (ex : nom d'un autre service)&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;Il &lt;strong&gt;ne doit jamais contenir de param&#232;tres de mod&#232;le&lt;/strong&gt;.&lt;/p&gt;
&lt;hr /&gt;
&lt;h2&gt;2. Comment &#233;crire &lt;code&gt;models.json&lt;/code&gt;&lt;/h2&gt;
&lt;p&gt;Voici la structure officielle :&lt;/p&gt;
&lt;pre&gt;&lt;code class=&#034;language-json&#034;&gt;{ &#034;embedding&#034;: { &#034;model_name&#034;: &#034;BAAI/bge-small-en-v1.5&#034;, &#034;model_path&#034;: &#034;/home/iadnc/.models/bge-small&#034;, &#034;backend&#034;: &#034;hf&#034;, &#034;device&#034;: &#034;cpu&#034; }, &#034;slm&#034;: { &#034;model_name&#034;: &#034;TinyLlama/TinyLlama-1.1B-Chat-v1.0&#034;, &#034;model_path&#034;: &#034;/home/iadnc/.models/TinyLlama-1.1B-Chat-v1.0&#034;, &#034;backend&#034;: &#034;hf&#034;, &#034;device&#034;: &#034;cpu&#034; }, &#034;tokenizer&#034;: { &#034;model_name&#034;: &#034;mistralai/Mixtral-8x7B-Instruct-v0.1&#034;, &#034;model_path&#034;: null, &#034;backend&#034;: &#034;hf&#034;, &#034;device&#034;: null }, &#034;llm&#034;: { &#034;model_name&#034;: &#034;mistral-medium-latest&#034;, &#034;backend&#034;: &#034;mistral_api&#034;, &#034;api_key&#034;: &#034;env:MISTRAL_API_KEY&#034;, &#034;model_path&#034;: null, &#034;device&#034;: null }
}&lt;/code&gt;&lt;/pre&gt;
&lt;h3&gt;R&#232;gles :&lt;/h3&gt;
&lt;ul class=&#034;spip&#034;&gt;
&lt;li&gt;&lt;strong&gt;Chaque mod&#232;le doit avoir un &lt;code&gt;model_name&lt;/code&gt;&lt;/strong&gt; &lt;/li&gt;
&lt;li&gt;&lt;code&gt;model_path&lt;/code&gt; peut &#234;tre &lt;code&gt;null&lt;/code&gt; si HF doit t&#233;l&#233;charger automatiquement &lt;/li&gt;
&lt;li&gt;&lt;code&gt;backend&lt;/code&gt; d&#233;termine le loader (hf, hf_local, mistral_api, etc.) &lt;/li&gt;
&lt;li&gt;&lt;code&gt;device&lt;/code&gt; peut &#234;tre &lt;code&gt;cpu&lt;/code&gt;, &lt;code&gt;cuda&lt;/code&gt;, ou &lt;code&gt;null&lt;/code&gt; &lt;/li&gt;
&lt;li&gt;&lt;code&gt;api_key&lt;/code&gt; est utilis&#233; uniquement pour les backends API &lt;/li&gt;
&lt;/ul&gt;
&lt;hr /&gt;
&lt;h2&gt;3. Comment &#233;crire &lt;code&gt;services.json&lt;/code&gt;&lt;/h2&gt;
&lt;p&gt;Voici la version correcte, conforme &#224; v200 :&lt;/p&gt;
&lt;pre&gt;&lt;code class=&#034;language-json&#034;&gt;{ &#034;daemon&#034;: { &#034;host&#034;: &#034;127.0.0.1&#034;, &#034;port&#034;: 50050 }, &#034;services&#034;: [ { &#034;name&#034;: &#034;embedding.server&#034;, &#034;class&#034;: &#034;runtime_v2.services.embedding.embedding_server.EmbeddingServer&#034;, &#034;params&#034;: {} }, { &#034;name&#034;: &#034;slm.server&#034;, &#034;class&#034;: &#034;runtime_v2.services.llm.slm_server.SLMServer&#034;, &#034;params&#034;: {} }, { &#034;name&#034;: &#034;index.server&#034;, &#034;class&#034;: &#034;runtime_v2.services.index.index_server.IndexServer&#034;, &#034;params&#034;: { &#034;embedding_service&#034;: &#034;embedding.server&#034; } }, { &#034;name&#034;: &#034;memory.server&#034;, &#034;class&#034;: &#034;runtime_v2.services.memory_manager.MemoryManager&#034;, &#034;params&#034;: { &#034;embedding_service&#034;: &#034;embedding.server&#034;, &#034;index_service&#034;: &#034;index.server&#034; } } ]
}&lt;/code&gt;&lt;/pre&gt;
&lt;h3&gt;R&#232;gles :&lt;/h3&gt;
&lt;ul class=&#034;spip&#034;&gt;
&lt;li&gt;
&lt;p&gt;&lt;strong&gt;Aucun service ne doit recevoir de mod&#232;le&lt;/strong&gt;&lt;br /&gt;
&#8594; pas de &lt;code&gt;model&lt;/code&gt;, &lt;code&gt;model_name&lt;/code&gt;, &lt;code&gt;backend&lt;/code&gt;, &lt;code&gt;device&lt;/code&gt;, etc.&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;Les services doivent recevoir uniquement :&lt;/p&gt;
&lt;ul class=&#034;spip&#034;&gt;
&lt;li&gt;des noms de services Pyro5 (pour RPC)&lt;/li&gt;
&lt;li&gt;des param&#232;tres m&#233;tier (rare)&lt;/li&gt;
&lt;/ul&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;Les services doivent r&#233;cup&#233;rer les mod&#232;les via &lt;code&gt;AppSettings&lt;/code&gt;.&lt;/p&gt;
&lt;/li&gt;
&lt;/ul&gt;
&lt;h2&gt;4. R&#233;sum&#233;&lt;/h2&gt;
&lt;table&gt;
&lt;thead&gt;
&lt;tr&gt;
&lt;th&gt;&#201;l&#233;ment&lt;/th&gt;
&lt;th&gt;R&#244;le&lt;/th&gt;
&lt;th&gt;Contenu&lt;/th&gt;
&lt;/tr&gt;
&lt;/thead&gt;
&lt;tbody&gt;
&lt;tr&gt;
&lt;td&gt;&lt;code&gt;models.json&lt;/code&gt;&lt;/td&gt;
&lt;td&gt;D&#233;crit les mod&#232;les&lt;/td&gt;
&lt;td&gt;model_name, backend, device, path&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;&lt;code&gt;ModelsConfigurator&lt;/code&gt;&lt;/td&gt;
&lt;td&gt;Construit les mod&#232;les&lt;/td&gt;
&lt;td&gt;HF, API, local&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;&lt;code&gt;AppSettingsManager&lt;/code&gt;&lt;/td&gt;
&lt;td&gt;Stocke les mod&#232;les&lt;/td&gt;
&lt;td&gt;AppSettings.embedding, etc.&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;&lt;code&gt;services.json&lt;/code&gt;&lt;/td&gt;
&lt;td&gt;D&#233;crit les services&lt;/td&gt;
&lt;td&gt;classes, RPC, d&#233;pendances&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;Services Pyro5&lt;/td&gt;
&lt;td&gt;Consomment les mod&#232;les&lt;/td&gt;
&lt;td&gt;via AppSettings&lt;/td&gt;
&lt;/tr&gt;
&lt;/tbody&gt;
&lt;/table&gt;&lt;/div&gt;
		
		</content:encoded>


		

	</item>
<item xml:lang="fr">
		<title>Protocoles des API LLM </title>
		<link>https://ia.dnc.global/Protocoles-des-API-LLM.html</link>
		<guid isPermaLink="true">https://ia.dnc.global/Protocoles-des-API-LLM.html</guid>
		<dc:date>2026-06-16T08:12:06Z</dc:date>
		<dc:format>text/html</dc:format>
		<dc:language>fr</dc:language>
		<dc:creator>Bertrand Degoy</dc:creator>



		<description>
&lt;p&gt;Ce document d&#233;crit les deux modes d'appel aux API utilis&#233;s par les mod&#232;les LLM dans l'architecture v200 : synchrone et streaming. Protocoles d'appel LLM : synchrone vs streaming &lt;br class='autobr' /&gt;
Ce document d&#233;crit les deux modes d'appel utilis&#233;s par les mod&#232;les LLM dans l'architecture v200 : appel synchrone (generate) appel en streaming (stream_generate) &lt;br class='autobr' /&gt;
Les deux modes utilisent HTTP(S), mais pas le m&#234;me protocole. &lt;br class='autobr' /&gt;
Dans la v200, les InternalLLM sont les seules classes responsables : de la configuration backend (...)&lt;/p&gt;


-
&lt;a href="https://ia.dnc.global/-Architecture-et-traitements-.html" rel="directory"&gt;Architecture et traitements&lt;/a&gt;


		</description>


 <content:encoded>&lt;div class='rss_chapo'&gt;&lt;p&gt;Ce document d&#233;crit les deux modes d'appel aux API utilis&#233;s par les mod&#232;les LLM dans l'architecture v200 : synchrone et streaming.&lt;/p&gt;&lt;/div&gt;
		&lt;div class='rss_texte'&gt;&lt;h1&gt;Protocoles d'appel LLM : synchrone vs streaming&lt;/h1&gt;
&lt;p&gt;Ce document d&#233;crit les deux modes d'appel utilis&#233;s par les mod&#232;les LLM dans l'architecture v200 :&lt;/p&gt;
&lt;ul class=&#034;spip&#034;&gt;
&lt;li&gt;&lt;strong&gt;appel synchrone (&lt;code&gt;generate&lt;/code&gt;)&lt;/strong&gt;&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;appel en streaming (&lt;code&gt;stream_generate&lt;/code&gt;)&lt;/strong&gt;&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;Les deux modes utilisent HTTP(S), mais &lt;strong&gt;pas le m&#234;me protocole&lt;/strong&gt;.&lt;/p&gt;
&lt;p&gt;Dans la v200, &lt;strong&gt;les InternalLLM sont les seules classes responsables&lt;/strong&gt; :&lt;/p&gt;
&lt;ul class=&#034;spip&#034;&gt;
&lt;li&gt;de la configuration backend (client, mod&#232;le, URL si HTTP)&lt;/li&gt;
&lt;li&gt;de l'appel synchrone&lt;/li&gt;
&lt;li&gt;de l'appel streaming&lt;/li&gt;
&lt;li&gt;de la normalisation des r&#233;ponses&lt;/li&gt;
&lt;/ul&gt;
&lt;h2&gt;1. Appel synchrone : HTTP POST classique&lt;/h2&gt;
&lt;p&gt;L'appel synchrone (&lt;code&gt;generate&lt;/code&gt;) utilise un &lt;strong&gt;POST HTTP standard&lt;/strong&gt;.&lt;/p&gt;
&lt;h3&gt;Caract&#233;ristiques&lt;/h3&gt;
&lt;ul class=&#034;spip&#034;&gt;
&lt;li&gt;Une seule requ&#234;te&lt;/li&gt;
&lt;li&gt;Une seule r&#233;ponse&lt;/li&gt;
&lt;li&gt;Format JSON complet&lt;/li&gt;
&lt;li&gt;Pas de flux&lt;/li&gt;
&lt;li&gt;Pas de tokens interm&#233;diaires&lt;/li&gt;
&lt;/ul&gt;
&lt;h3&gt;Exemple (OpenAI/Mistral-like)&lt;/h3&gt;
&lt;pre&gt;&lt;code&gt;POST /v1/chat/completions
Content-Type: application/json { &#034;model&#034;: &#034;mistral-large&#034;, &#034;messages&#034;: [...]
}&lt;/code&gt;&lt;/pre&gt;
&lt;p&gt;R&#233;ponse :&lt;/p&gt;
&lt;pre&gt;&lt;code&gt;200 OK
Content-Type: application/json { &#034;id&#034;: &#034;...&#034;, &#034;choices&#034;: [ { &#034;message&#034;: { &#034;content&#034;: &#034;r&#233;ponse compl&#232;te&#034; } } ]
}&lt;/code&gt;&lt;/pre&gt;
&lt;h2&gt;2. Appel streaming : HTTP POST + protocole de flux&lt;/h2&gt;
&lt;p&gt;L'appel &lt;code&gt;stream_generate&lt;/code&gt; utilise &#233;galement un &lt;strong&gt;POST HTTP&lt;/strong&gt;, mais la r&#233;ponse n'est pas un JSON unique.&lt;br /&gt;
Le serveur envoie un &lt;strong&gt;flux d'&#233;v&#233;nements&lt;/strong&gt; ou de &lt;strong&gt;chunks&lt;/strong&gt;.&lt;/p&gt;
&lt;p&gt;Deux protocoles sont utilis&#233;s selon les backends :&lt;/p&gt;
&lt;h2&gt;2.1. SSE (Server-Sent Events)&lt;/h2&gt;
&lt;p&gt;C'est le protocole utilis&#233; par :&lt;/p&gt;
&lt;ul class=&#034;spip&#034;&gt;
&lt;li&gt;OpenAI &lt;/li&gt;
&lt;li&gt;Mistral &lt;/li&gt;
&lt;li&gt;Anthropic &lt;/li&gt;
&lt;li&gt;Groq &lt;/li&gt;
&lt;li&gt;LM Studio (mode OpenAI)&lt;/li&gt;
&lt;/ul&gt;
&lt;h3&gt;Caract&#233;ristiques&lt;/h3&gt;
&lt;ul class=&#034;spip&#034;&gt;
&lt;li&gt;&lt;code&gt;Content-Type: text/event-stream&lt;/code&gt;&lt;/li&gt;
&lt;li&gt;&lt;code&gt;Transfer-Encoding: chunked&lt;/code&gt;&lt;/li&gt;
&lt;li&gt;Chaque ligne commence par &lt;code&gt;data:&lt;/code&gt;&lt;/li&gt;
&lt;li&gt;Chaque &#233;v&#233;nement contient un fragment (&lt;code&gt;delta&lt;/code&gt;)&lt;/li&gt;
&lt;li&gt;Le flux se termine par &lt;code&gt;data: [DONE]&lt;/code&gt;&lt;/li&gt;
&lt;/ul&gt;
&lt;h3&gt;Exemple&lt;/h3&gt;
&lt;pre&gt;&lt;code&gt;data: {&#034;choices&#034;:[{&#034;delta&#034;:{&#034;content&#034;:&#034;Bon&#034;}}]}
data: {&#034;choices&#034;:[{&#034;delta&#034;:{&#034;content&#034;:&#034;jour&#034;}}]}
data: {&#034;choices&#034;:[{&#034;delta&#034;:{&#034;content&#034;:&#034; !&#034;}}]}
data: [DONE]&lt;/code&gt;&lt;/pre&gt;
&lt;h2&gt;2.2. Chunked Transfer Encoding (Ollama)&lt;/h2&gt;
&lt;p&gt;Ollama n'utilise pas SSE mais un flux de &lt;strong&gt;JSON successifs&lt;/strong&gt;, un par chunk.&lt;/p&gt;
&lt;h3&gt;Exemple&lt;/h3&gt;
&lt;pre&gt;&lt;code&gt;{&#034;response&#034;: &#034;Bon&#034;}
{&#034;response&#034;: &#034;jour&#034;}
{&#034;response&#034;: &#034; Bertrand&#034;}
{&#034;done&#034;: true}&lt;/code&gt;&lt;/pre&gt;
&lt;h3&gt;Caract&#233;ristiques&lt;/h3&gt;
&lt;ul class=&#034;spip&#034;&gt;
&lt;li&gt;Pas de &lt;code&gt;data:&lt;/code&gt;&lt;/li&gt;
&lt;li&gt;Pas de SSE&lt;/li&gt;
&lt;li&gt;Chaque chunk est un JSON ind&#233;pendant&lt;/li&gt;
&lt;li&gt;Le client doit lire le flux chunk par chunk&lt;/li&gt;
&lt;/ul&gt;
&lt;h2&gt;3. Pourquoi deux protocoles diff&#233;rents ?&lt;/h2&gt;
&lt;p&gt;Parce que :&lt;/p&gt;
&lt;ul class=&#034;spip&#034;&gt;
&lt;li&gt;un appel synchrone renvoie &lt;strong&gt;une r&#233;ponse compl&#232;te&lt;/strong&gt;&lt;/li&gt;
&lt;li&gt;un streaming renvoie &lt;strong&gt;un flux de tokens&lt;/strong&gt;&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;HTTP classique ne permet pas d'envoyer plusieurs r&#233;ponses successives.&lt;br /&gt;
Les serveurs utilisent donc :&lt;/p&gt;
&lt;ul class=&#034;spip&#034;&gt;
&lt;li&gt;&lt;strong&gt;SSE&lt;/strong&gt; &#8594; flux d'&#233;v&#233;nements textuels&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;chunked transfer&lt;/strong&gt; &#8594; flux de JSON partiels&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;WebSocket&lt;/strong&gt; (rare) &#8594; flux bidirectionnel&lt;/li&gt;
&lt;/ul&gt;
&lt;h2&gt;4. Cons&#233;quences pour l'architecture v200&lt;/h2&gt;
&lt;h3&gt;4.1. &lt;code&gt;generate()&lt;/code&gt;&lt;/h3&gt;
&lt;ul class=&#034;spip&#034;&gt;
&lt;li&gt;utilise un &lt;strong&gt;appel HTTP simple&lt;/strong&gt;&lt;/li&gt;
&lt;li&gt;renvoie un JSON complet&lt;/li&gt;
&lt;li&gt;normalisation effectu&#233;e dans la classe LLM&lt;/li&gt;
&lt;/ul&gt;
&lt;h3&gt;4.2. &lt;code&gt;stream_generate()&lt;/code&gt;&lt;/h3&gt;
&lt;ul class=&#034;spip&#034;&gt;
&lt;li&gt;utilise &lt;strong&gt;SSE&lt;/strong&gt; ou &lt;strong&gt;chunked transfer&lt;/strong&gt;&lt;/li&gt;
&lt;li&gt;lit les fragments au fur et &#224; mesure&lt;/li&gt;
&lt;li&gt;normalise chaque fragment en format v200 :&lt;/li&gt;
&lt;/ul&gt;
&lt;pre&gt;&lt;code&gt;{ &#034;delta&#034;: &#034;texte&#034; }
...
{ &#034;delta&#034;: &#034;&#034;, &#034;meta&#034;: {...} }&lt;/code&gt;&lt;/pre&gt;
&lt;p&gt;Retourne un flux de chunks repr&#233;sentant la r&#233;ponse en streaming.
Contrat de l'interface :&lt;/p&gt;
&lt;ul class=&#034;spip&#034;&gt;
&lt;li&gt;La m&#233;thode doit produire un it&#233;rable de chunks.&lt;/li&gt;
&lt;/ul&gt;
&lt;pre&gt;&lt;code&gt;Convention v200 (obligatoire pour toutes les impl&#233;mentations) :
- Les chunks interm&#233;diaires sont des dicts contenant : { &#034;delta&#034;: &#034;&lt;texte incr&#233;mental&gt;&#034; }
- Le dernier chunk contient en plus des m&#233;tadonn&#233;es : { &#034;delta&#034;: &#034;&#034;, &#034;meta&#034;: {...} } Cette convention garantit un format standardis&#233; pour toutes les
impl&#233;mentations InternalLLM, ind&#233;pendamment du backend utilis&#233;.&lt;/code&gt;&lt;/pre&gt;
&lt;h2&gt;5. R&#233;sum&#233;&lt;/h2&gt;
&lt;p&gt;| Mode | Protocole | Format | Usage |
| &lt;code&gt;generate()&lt;/code&gt; | HTTP POST classique | JSON complet | r&#233;ponse unique |
| &lt;code&gt;stream_generate&lt;/code&gt; | SSE ou chunked transfer | flux de tokens | streaming |&lt;/p&gt;
&lt;h2&gt;6. Exemple&lt;/h2&gt;&lt;div class=&#034;coloration_code code&#034;&gt;&lt;div class=&#034;spip_python code&#034;&gt;&lt;div class=&#034;python&#034;&gt;&lt;ol&gt;&lt;li style=&#034;font-weight: normal; vertical-align:top;&#034;&gt;&lt;div style=&#034;&#034;&gt;&lt;span style=&#034;color: #ff7700;font-weight:bold;&#034;&gt;from&lt;/span&gt; commons.&lt;span style=&#034;color: black;&#034;&gt;models&lt;/span&gt;.&lt;span style=&#034;color: black;&#034;&gt;internal&lt;/span&gt;.&lt;span style=&#034;color: black;&#034;&gt;base&lt;/span&gt; &lt;span style=&#034;color: #ff7700;font-weight:bold;&#034;&gt;import&lt;/span&gt; BaseGenerativeModel&lt;/div&gt;&lt;/li&gt;
&lt;li style=&#034;font-weight: normal; vertical-align:top;&#034;&gt;&lt;div style=&#034;&#034;&gt;&lt;span style=&#034;color: #ff7700;font-weight:bold;&#034;&gt;from&lt;/span&gt; commons.&lt;span style=&#034;color: black;&#034;&gt;models&lt;/span&gt;.&lt;span style=&#034;color: black;&#034;&gt;response&lt;/span&gt; &lt;span style=&#034;color: #ff7700;font-weight:bold;&#034;&gt;import&lt;/span&gt; Response&lt;/div&gt;&lt;/li&gt;
&lt;li style=&#034;font-weight: normal; vertical-align:top;&#034;&gt;&lt;div style=&#034;&#034;&gt; &lt;/div&gt;&lt;/li&gt;
&lt;li style=&#034;font-weight: normal; vertical-align:top;&#034;&gt;&lt;div style=&#034;&#034;&gt;&lt;span style=&#034;color: #ff7700;font-weight:bold;&#034;&gt;class&lt;/span&gt; MistralAPIInternalLLM&lt;span style=&#034;color: black;&#034;&gt;&amp;#40;&lt;/span&gt;BaseGenerativeModel&lt;span style=&#034;color: black;&#034;&gt;&amp;#41;&lt;/span&gt;:&lt;/div&gt;&lt;/li&gt;
&lt;li style=&#034;font-weight: normal; vertical-align:top;&#034;&gt;&lt;div style=&#034;&#034;&gt; &lt;span style=&#034;color: #483d8b;&#034;&gt;&#034;&#034;&#034;&lt;/span&gt;&lt;/div&gt;&lt;/li&gt;
&lt;li style=&#034;font-weight: normal; vertical-align:top;&#034;&gt;&lt;div style=&#034;&#034;&gt;&lt;span style=&#034;color: #483d8b;&#034;&gt; Impl&#233;mentation Mistral API pour v200.&lt;/span&gt;&lt;/div&gt;&lt;/li&gt;
&lt;li style=&#034;font-weight: normal; vertical-align:top;&#034;&gt;&lt;div style=&#034;&#034;&gt; &lt;/div&gt;&lt;/li&gt;
&lt;li style=&#034;font-weight: normal; vertical-align:top;&#034;&gt;&lt;div style=&#034;&#034;&gt;&lt;span style=&#034;color: #483d8b;&#034;&gt; Cette classe contient :&lt;/span&gt;&lt;/div&gt;&lt;/li&gt;
&lt;li style=&#034;font-weight: normal; vertical-align:top;&#034;&gt;&lt;div style=&#034;&#034;&gt;&lt;span style=&#034;color: #483d8b;&#034;&gt; - la configuration backend (client, mod&#232;le)&lt;/span&gt;&lt;/div&gt;&lt;/li&gt;
&lt;li style=&#034;font-weight: normal; vertical-align:top;&#034;&gt;&lt;div style=&#034;&#034;&gt;&lt;span style=&#034;color: #483d8b;&#034;&gt; - generate() : appel synchrone&lt;/span&gt;&lt;/div&gt;&lt;/li&gt;
&lt;li style=&#034;font-weight: normal; vertical-align:top;&#034;&gt;&lt;div style=&#034;&#034;&gt;&lt;span style=&#034;color: #483d8b;&#034;&gt; - stream_generate() : appel SSE&lt;/span&gt;&lt;/div&gt;&lt;/li&gt;
&lt;li style=&#034;font-weight: normal; vertical-align:top;&#034;&gt;&lt;div style=&#034;&#034;&gt;&lt;span style=&#034;color: #483d8b;&#034;&gt; - normalisation des r&#233;ponses&lt;/span&gt;&lt;/div&gt;&lt;/li&gt;
&lt;li style=&#034;font-weight: normal; vertical-align:top;&#034;&gt;&lt;div style=&#034;&#034;&gt;&lt;span style=&#034;color: #483d8b;&#034;&gt; &#034;&#034;&#034;&lt;/span&gt;&lt;/div&gt;&lt;/li&gt;
&lt;li style=&#034;font-weight: normal; vertical-align:top;&#034;&gt;&lt;div style=&#034;&#034;&gt; &lt;/div&gt;&lt;/li&gt;
&lt;li style=&#034;font-weight: normal; vertical-align:top;&#034;&gt;&lt;div style=&#034;&#034;&gt; &lt;span style=&#034;color: #ff7700;font-weight:bold;&#034;&gt;def&lt;/span&gt; &lt;span style=&#034;color: #0000cd;&#034;&gt;__init__&lt;/span&gt;&lt;span style=&#034;color: black;&#034;&gt;&amp;#40;&lt;/span&gt;&lt;span style=&#034;color: #008000;&#034;&gt;self&lt;/span&gt;&lt;span style=&#034;color: #66cc66;&#034;&gt;,&lt;/span&gt; client&lt;span style=&#034;color: #66cc66;&#034;&gt;,&lt;/span&gt; model_name: &lt;span style=&#034;color: #008000;&#034;&gt;str&lt;/span&gt;&lt;span style=&#034;color: black;&#034;&gt;&amp;#41;&lt;/span&gt;:&lt;/div&gt;&lt;/li&gt;
&lt;li style=&#034;font-weight: normal; vertical-align:top;&#034;&gt;&lt;div style=&#034;&#034;&gt; &lt;span style=&#034;color: #008000;&#034;&gt;self&lt;/span&gt;.&lt;span style=&#034;color: black;&#034;&gt;client&lt;/span&gt; &lt;span style=&#034;color: #66cc66;&#034;&gt;=&lt;/span&gt; client&lt;/div&gt;&lt;/li&gt;
&lt;li style=&#034;font-weight: normal; vertical-align:top;&#034;&gt;&lt;div style=&#034;&#034;&gt; &lt;span style=&#034;color: #008000;&#034;&gt;self&lt;/span&gt;.&lt;span style=&#034;color: black;&#034;&gt;model_name&lt;/span&gt; &lt;span style=&#034;color: #66cc66;&#034;&gt;=&lt;/span&gt; model_name&lt;/div&gt;&lt;/li&gt;
&lt;li style=&#034;font-weight: normal; vertical-align:top;&#034;&gt;&lt;div style=&#034;&#034;&gt; &lt;/div&gt;&lt;/li&gt;
&lt;li style=&#034;font-weight: normal; vertical-align:top;&#034;&gt;&lt;div style=&#034;&#034;&gt; &lt;span style=&#034;color: #ff7700;font-weight:bold;&#034;&gt;def&lt;/span&gt; generate&lt;span style=&#034;color: black;&#034;&gt;&amp;#40;&lt;/span&gt;&lt;span style=&#034;color: #008000;&#034;&gt;self&lt;/span&gt;&lt;span style=&#034;color: #66cc66;&#034;&gt;,&lt;/span&gt; prompt: &lt;span style=&#034;color: #008000;&#034;&gt;str&lt;/span&gt;&lt;span style=&#034;color: #66cc66;&#034;&gt;,&lt;/span&gt; **kwargs&lt;span style=&#034;color: black;&#034;&gt;&amp;#41;&lt;/span&gt; -&lt;span style=&#034;color: #66cc66;&#034;&gt;&gt;&lt;/span&gt; Response:&lt;/div&gt;&lt;/li&gt;
&lt;li style=&#034;font-weight: normal; vertical-align:top;&#034;&gt;&lt;div style=&#034;&#034;&gt; &lt;span style=&#034;color: #483d8b;&#034;&gt;&#034;&#034;&#034;&lt;/span&gt;&lt;/div&gt;&lt;/li&gt;
&lt;li style=&#034;font-weight: normal; vertical-align:top;&#034;&gt;&lt;div style=&#034;&#034;&gt;&lt;span style=&#034;color: #483d8b;&#034;&gt; Appel synchrone : requ&#234;te HTTP compl&#232;te, pas de streaming.&lt;/span&gt;&lt;/div&gt;&lt;/li&gt;
&lt;li style=&#034;font-weight: normal; vertical-align:top;&#034;&gt;&lt;div style=&#034;&#034;&gt;&lt;span style=&#034;color: #483d8b;&#034;&gt; Le format exact de la r&#233;ponse d&#233;pend du backend.&lt;/span&gt;&lt;/div&gt;&lt;/li&gt;
&lt;li style=&#034;font-weight: normal; vertical-align:top;&#034;&gt;&lt;div style=&#034;&#034;&gt;&lt;span style=&#034;color: #483d8b;&#034;&gt; &#034;&#034;&#034;&lt;/span&gt;&lt;/div&gt;&lt;/li&gt;
&lt;li style=&#034;font-weight: normal; vertical-align:top;&#034;&gt;&lt;div style=&#034;&#034;&gt; raw &lt;span style=&#034;color: #66cc66;&#034;&gt;=&lt;/span&gt; &lt;span style=&#034;color: #008000;&#034;&gt;self&lt;/span&gt;.&lt;span style=&#034;color: black;&#034;&gt;client&lt;/span&gt;.&lt;span style=&#034;color: black;&#034;&gt;chat&lt;/span&gt;.&lt;span style=&#034;color: black;&#034;&gt;completions&lt;/span&gt;.&lt;span style=&#034;color: black;&#034;&gt;create&lt;/span&gt;&lt;span style=&#034;color: black;&#034;&gt;&amp;#40;&lt;/span&gt;&lt;/div&gt;&lt;/li&gt;
&lt;li style=&#034;font-weight: normal; vertical-align:top;&#034;&gt;&lt;div style=&#034;&#034;&gt; model&lt;span style=&#034;color: #66cc66;&#034;&gt;=&lt;/span&gt;&lt;span style=&#034;color: #008000;&#034;&gt;self&lt;/span&gt;.&lt;span style=&#034;color: black;&#034;&gt;model_name&lt;/span&gt;&lt;span style=&#034;color: #66cc66;&#034;&gt;,&lt;/span&gt;&lt;/div&gt;&lt;/li&gt;
&lt;li style=&#034;font-weight: normal; vertical-align:top;&#034;&gt;&lt;div style=&#034;&#034;&gt; messages&lt;span style=&#034;color: #66cc66;&#034;&gt;=&lt;/span&gt;&lt;span style=&#034;color: black;&#034;&gt;&amp;#91;&lt;/span&gt;&lt;span style=&#034;color: black;&#034;&gt;&#123;&lt;/span&gt;&lt;span style=&#034;color: #483d8b;&#034;&gt;&#034;role&#034;&lt;/span&gt;: &lt;span style=&#034;color: #483d8b;&#034;&gt;&#034;user&#034;&lt;/span&gt;&lt;span style=&#034;color: #66cc66;&#034;&gt;,&lt;/span&gt; &lt;span style=&#034;color: #483d8b;&#034;&gt;&#034;content&#034;&lt;/span&gt;: prompt&lt;span style=&#034;color: black;&#034;&gt;&#125;&lt;/span&gt;&lt;span style=&#034;color: black;&#034;&gt;&amp;#93;&lt;/span&gt;&lt;span style=&#034;color: #66cc66;&#034;&gt;,&lt;/span&gt;&lt;/div&gt;&lt;/li&gt;
&lt;li style=&#034;font-weight: normal; vertical-align:top;&#034;&gt;&lt;div style=&#034;&#034;&gt; stream&lt;span style=&#034;color: #66cc66;&#034;&gt;=&lt;/span&gt;&lt;span style=&#034;color: #008000;&#034;&gt;False&lt;/span&gt;&lt;span style=&#034;color: #66cc66;&#034;&gt;,&lt;/span&gt;&lt;/div&gt;&lt;/li&gt;
&lt;li style=&#034;font-weight: normal; vertical-align:top;&#034;&gt;&lt;div style=&#034;&#034;&gt; **kwargs&lt;span style=&#034;color: #66cc66;&#034;&gt;,&lt;/span&gt;&lt;/div&gt;&lt;/li&gt;
&lt;li style=&#034;font-weight: normal; vertical-align:top;&#034;&gt;&lt;div style=&#034;&#034;&gt; &lt;span style=&#034;color: black;&#034;&gt;&amp;#41;&lt;/span&gt;&lt;/div&gt;&lt;/li&gt;
&lt;li style=&#034;font-weight: normal; vertical-align:top;&#034;&gt;&lt;div style=&#034;&#034;&gt; &lt;/div&gt;&lt;/li&gt;
&lt;li style=&#034;font-weight: normal; vertical-align:top;&#034;&gt;&lt;div style=&#034;&#034;&gt; &lt;span style=&#034;color: #ff7700;font-weight:bold;&#034;&gt;try&lt;/span&gt;:&lt;/div&gt;&lt;/li&gt;
&lt;li style=&#034;font-weight: normal; vertical-align:top;&#034;&gt;&lt;div style=&#034;&#034;&gt; text &lt;span style=&#034;color: #66cc66;&#034;&gt;=&lt;/span&gt; raw&lt;span style=&#034;color: black;&#034;&gt;&amp;#91;&lt;/span&gt;&lt;span style=&#034;color: #483d8b;&#034;&gt;&#034;choices&#034;&lt;/span&gt;&lt;span style=&#034;color: black;&#034;&gt;&amp;#93;&lt;/span&gt;&lt;span style=&#034;color: black;&#034;&gt;&amp;#91;&lt;/span&gt;&lt;span style=&#034;color: #ff4500;&#034;&gt;0&lt;/span&gt;&lt;span style=&#034;color: black;&#034;&gt;&amp;#93;&lt;/span&gt;&lt;span style=&#034;color: black;&#034;&gt;&amp;#91;&lt;/span&gt;&lt;span style=&#034;color: #483d8b;&#034;&gt;&#034;message&#034;&lt;/span&gt;&lt;span style=&#034;color: black;&#034;&gt;&amp;#93;&lt;/span&gt;&lt;span style=&#034;color: black;&#034;&gt;&amp;#91;&lt;/span&gt;&lt;span style=&#034;color: #483d8b;&#034;&gt;&#034;content&#034;&lt;/span&gt;&lt;span style=&#034;color: black;&#034;&gt;&amp;#93;&lt;/span&gt;&lt;/div&gt;&lt;/li&gt;
&lt;li style=&#034;font-weight: normal; vertical-align:top;&#034;&gt;&lt;div style=&#034;&#034;&gt; &lt;span style=&#034;color: #ff7700;font-weight:bold;&#034;&gt;except&lt;/span&gt; &lt;span style=&#034;color: #008000;&#034;&gt;Exception&lt;/span&gt;:&lt;/div&gt;&lt;/li&gt;
&lt;li style=&#034;font-weight: normal; vertical-align:top;&#034;&gt;&lt;div style=&#034;&#034;&gt; text &lt;span style=&#034;color: #66cc66;&#034;&gt;=&lt;/span&gt; &lt;span style=&#034;color: #008000;&#034;&gt;str&lt;/span&gt;&lt;span style=&#034;color: black;&#034;&gt;&amp;#40;&lt;/span&gt;raw&lt;span style=&#034;color: black;&#034;&gt;&amp;#41;&lt;/span&gt;&lt;/div&gt;&lt;/li&gt;
&lt;li style=&#034;font-weight: normal; vertical-align:top;&#034;&gt;&lt;div style=&#034;&#034;&gt; &lt;/div&gt;&lt;/li&gt;
&lt;li style=&#034;font-weight: normal; vertical-align:top;&#034;&gt;&lt;div style=&#034;&#034;&gt; &lt;span style=&#034;color: #ff7700;font-weight:bold;&#034;&gt;return&lt;/span&gt; Response&lt;span style=&#034;color: black;&#034;&gt;&amp;#40;&lt;/span&gt;&lt;/div&gt;&lt;/li&gt;
&lt;li style=&#034;font-weight: normal; vertical-align:top;&#034;&gt;&lt;div style=&#034;&#034;&gt; response&lt;span style=&#034;color: #66cc66;&#034;&gt;=&lt;/span&gt;text&lt;span style=&#034;color: #66cc66;&#034;&gt;,&lt;/span&gt;&lt;/div&gt;&lt;/li&gt;
&lt;li style=&#034;font-weight: normal; vertical-align:top;&#034;&gt;&lt;div style=&#034;&#034;&gt; raw_response&lt;span style=&#034;color: #66cc66;&#034;&gt;=&lt;/span&gt;raw&lt;span style=&#034;color: #66cc66;&#034;&gt;,&lt;/span&gt;&lt;/div&gt;&lt;/li&gt;
&lt;li style=&#034;font-weight: normal; vertical-align:top;&#034;&gt;&lt;div style=&#034;&#034;&gt; source_nodes&lt;span style=&#034;color: #66cc66;&#034;&gt;=&lt;/span&gt;&lt;span style=&#034;color: #008000;&#034;&gt;None&lt;/span&gt;&lt;span style=&#034;color: #66cc66;&#034;&gt;,&lt;/span&gt;&lt;/div&gt;&lt;/li&gt;
&lt;li style=&#034;font-weight: normal; vertical-align:top;&#034;&gt;&lt;div style=&#034;&#034;&gt; metadata&lt;span style=&#034;color: #66cc66;&#034;&gt;=&lt;/span&gt;&lt;span style=&#034;color: black;&#034;&gt;&#123;&lt;/span&gt;&lt;span style=&#034;color: black;&#034;&gt;&#125;&lt;/span&gt;&lt;span style=&#034;color: #66cc66;&#034;&gt;,&lt;/span&gt;&lt;/div&gt;&lt;/li&gt;
&lt;li style=&#034;font-weight: normal; vertical-align:top;&#034;&gt;&lt;div style=&#034;&#034;&gt; &lt;span style=&#034;color: black;&#034;&gt;&amp;#41;&lt;/span&gt;&lt;/div&gt;&lt;/li&gt;
&lt;li style=&#034;font-weight: normal; vertical-align:top;&#034;&gt;&lt;div style=&#034;&#034;&gt; &lt;/div&gt;&lt;/li&gt;
&lt;li style=&#034;font-weight: normal; vertical-align:top;&#034;&gt;&lt;div style=&#034;&#034;&gt; &lt;span style=&#034;color: #ff7700;font-weight:bold;&#034;&gt;def&lt;/span&gt; stream_generate&lt;span style=&#034;color: black;&#034;&gt;&amp;#40;&lt;/span&gt;&lt;span style=&#034;color: #008000;&#034;&gt;self&lt;/span&gt;&lt;span style=&#034;color: #66cc66;&#034;&gt;,&lt;/span&gt; prompt: &lt;span style=&#034;color: #008000;&#034;&gt;str&lt;/span&gt;&lt;span style=&#034;color: #66cc66;&#034;&gt;,&lt;/span&gt; **kwargs&lt;span style=&#034;color: black;&#034;&gt;&amp;#41;&lt;/span&gt;:&lt;/div&gt;&lt;/li&gt;
&lt;li style=&#034;font-weight: normal; vertical-align:top;&#034;&gt;&lt;div style=&#034;&#034;&gt; &lt;span style=&#034;color: #483d8b;&#034;&gt;&#034;&#034;&#034;&lt;/span&gt;&lt;/div&gt;&lt;/li&gt;
&lt;li style=&#034;font-weight: normal; vertical-align:top;&#034;&gt;&lt;div style=&#034;&#034;&gt;&lt;span style=&#034;color: #483d8b;&#034;&gt; Retourne un flux de chunks.&lt;/span&gt;&lt;/div&gt;&lt;/li&gt;
&lt;li style=&#034;font-weight: normal; vertical-align:top;&#034;&gt;&lt;div style=&#034;&#034;&gt;&lt;span style=&#034;color: #483d8b;&#034;&gt; Le format exact d&#233;pend de l'impl&#233;mentation.&lt;/span&gt;&lt;/div&gt;&lt;/li&gt;
&lt;li style=&#034;font-weight: normal; vertical-align:top;&#034;&gt;&lt;div style=&#034;&#034;&gt; &lt;/div&gt;&lt;/li&gt;
&lt;li style=&#034;font-weight: normal; vertical-align:top;&#034;&gt;&lt;div style=&#034;&#034;&gt;&lt;span style=&#034;color: #483d8b;&#034;&gt; Convention interne v200 :&lt;/span&gt;&lt;/div&gt;&lt;/li&gt;
&lt;li style=&#034;font-weight: normal; vertical-align:top;&#034;&gt;&lt;div style=&#034;&#034;&gt;&lt;span style=&#034;color: #483d8b;&#034;&gt; - chunks interm&#233;diaires : {&#034;delta&#034;: &#034;...&#034;}&lt;/span&gt;&lt;/div&gt;&lt;/li&gt;
&lt;li style=&#034;font-weight: normal; vertical-align:top;&#034;&gt;&lt;div style=&#034;&#034;&gt;&lt;span style=&#034;color: #483d8b;&#034;&gt; - chunk final : {&#034;delta&#034;: &#034;&#034;, &#034;meta&#034;: {...}}&lt;/span&gt;&lt;/div&gt;&lt;/li&gt;
&lt;li style=&#034;font-weight: normal; vertical-align:top;&#034;&gt;&lt;div style=&#034;&#034;&gt;&lt;span style=&#034;color: #483d8b;&#034;&gt; &#034;&#034;&#034;&lt;/span&gt;&lt;/div&gt;&lt;/li&gt;
&lt;li style=&#034;font-weight: normal; vertical-align:top;&#034;&gt;&lt;div style=&#034;&#034;&gt; stream &lt;span style=&#034;color: #66cc66;&#034;&gt;=&lt;/span&gt; &lt;span style=&#034;color: #008000;&#034;&gt;self&lt;/span&gt;.&lt;span style=&#034;color: black;&#034;&gt;client&lt;/span&gt;.&lt;span style=&#034;color: black;&#034;&gt;chat&lt;/span&gt;.&lt;span style=&#034;color: black;&#034;&gt;completions&lt;/span&gt;.&lt;span style=&#034;color: black;&#034;&gt;create&lt;/span&gt;&lt;span style=&#034;color: black;&#034;&gt;&amp;#40;&lt;/span&gt;&lt;/div&gt;&lt;/li&gt;
&lt;li style=&#034;font-weight: normal; vertical-align:top;&#034;&gt;&lt;div style=&#034;&#034;&gt; model&lt;span style=&#034;color: #66cc66;&#034;&gt;=&lt;/span&gt;&lt;span style=&#034;color: #008000;&#034;&gt;self&lt;/span&gt;.&lt;span style=&#034;color: black;&#034;&gt;model_name&lt;/span&gt;&lt;span style=&#034;color: #66cc66;&#034;&gt;,&lt;/span&gt;&lt;/div&gt;&lt;/li&gt;
&lt;li style=&#034;font-weight: normal; vertical-align:top;&#034;&gt;&lt;div style=&#034;&#034;&gt; messages&lt;span style=&#034;color: #66cc66;&#034;&gt;=&lt;/span&gt;&lt;span style=&#034;color: black;&#034;&gt;&amp;#91;&lt;/span&gt;&lt;span style=&#034;color: black;&#034;&gt;&#123;&lt;/span&gt;&lt;span style=&#034;color: #483d8b;&#034;&gt;&#034;role&#034;&lt;/span&gt;: &lt;span style=&#034;color: #483d8b;&#034;&gt;&#034;user&#034;&lt;/span&gt;&lt;span style=&#034;color: #66cc66;&#034;&gt;,&lt;/span&gt; &lt;span style=&#034;color: #483d8b;&#034;&gt;&#034;content&#034;&lt;/span&gt;: prompt&lt;span style=&#034;color: black;&#034;&gt;&#125;&lt;/span&gt;&lt;span style=&#034;color: black;&#034;&gt;&amp;#93;&lt;/span&gt;&lt;span style=&#034;color: #66cc66;&#034;&gt;,&lt;/span&gt;&lt;/div&gt;&lt;/li&gt;
&lt;li style=&#034;font-weight: normal; vertical-align:top;&#034;&gt;&lt;div style=&#034;&#034;&gt; stream&lt;span style=&#034;color: #66cc66;&#034;&gt;=&lt;/span&gt;&lt;span style=&#034;color: #008000;&#034;&gt;True&lt;/span&gt;&lt;span style=&#034;color: #66cc66;&#034;&gt;,&lt;/span&gt;&lt;/div&gt;&lt;/li&gt;
&lt;li style=&#034;font-weight: normal; vertical-align:top;&#034;&gt;&lt;div style=&#034;&#034;&gt; **kwargs&lt;span style=&#034;color: #66cc66;&#034;&gt;,&lt;/span&gt;&lt;/div&gt;&lt;/li&gt;
&lt;li style=&#034;font-weight: normal; vertical-align:top;&#034;&gt;&lt;div style=&#034;&#034;&gt; &lt;span style=&#034;color: black;&#034;&gt;&amp;#41;&lt;/span&gt;&lt;/div&gt;&lt;/li&gt;
&lt;li style=&#034;font-weight: normal; vertical-align:top;&#034;&gt;&lt;div style=&#034;&#034;&gt; &lt;/div&gt;&lt;/li&gt;
&lt;li style=&#034;font-weight: normal; vertical-align:top;&#034;&gt;&lt;div style=&#034;&#034;&gt; final_message &lt;span style=&#034;color: #66cc66;&#034;&gt;=&lt;/span&gt; &lt;span style=&#034;color: #008000;&#034;&gt;None&lt;/span&gt;&lt;/div&gt;&lt;/li&gt;
&lt;li style=&#034;font-weight: normal; vertical-align:top;&#034;&gt;&lt;div style=&#034;&#034;&gt; &lt;/div&gt;&lt;/li&gt;
&lt;li style=&#034;font-weight: normal; vertical-align:top;&#034;&gt;&lt;div style=&#034;&#034;&gt; &lt;span style=&#034;color: #ff7700;font-weight:bold;&#034;&gt;for&lt;/span&gt; &lt;span style=&#034;color: #dc143c;&#034;&gt;chunk&lt;/span&gt; &lt;span style=&#034;color: #ff7700;font-weight:bold;&#034;&gt;in&lt;/span&gt; stream:&lt;/div&gt;&lt;/li&gt;
&lt;li style=&#034;font-weight: normal; vertical-align:top;&#034;&gt;&lt;div style=&#034;&#034;&gt; delta &lt;span style=&#034;color: #66cc66;&#034;&gt;=&lt;/span&gt; &lt;span style=&#034;color: #483d8b;&#034;&gt;&#034;&#034;&lt;/span&gt;&lt;/div&gt;&lt;/li&gt;
&lt;li style=&#034;font-weight: normal; vertical-align:top;&#034;&gt;&lt;div style=&#034;&#034;&gt; &lt;/div&gt;&lt;/li&gt;
&lt;li style=&#034;font-weight: normal; vertical-align:top;&#034;&gt;&lt;div style=&#034;&#034;&gt; &lt;span style=&#034;color: #ff7700;font-weight:bold;&#034;&gt;if&lt;/span&gt; &lt;span style=&#034;color: #dc143c;&#034;&gt;chunk&lt;/span&gt;.&lt;span style=&#034;color: black;&#034;&gt;choices&lt;/span&gt;:&lt;/div&gt;&lt;/li&gt;
&lt;li style=&#034;font-weight: normal; vertical-align:top;&#034;&gt;&lt;div style=&#034;&#034;&gt; c &lt;span style=&#034;color: #66cc66;&#034;&gt;=&lt;/span&gt; &lt;span style=&#034;color: #dc143c;&#034;&gt;chunk&lt;/span&gt;.&lt;span style=&#034;color: black;&#034;&gt;choices&lt;/span&gt;&lt;span style=&#034;color: black;&#034;&gt;&amp;#91;&lt;/span&gt;&lt;span style=&#034;color: #ff4500;&#034;&gt;0&lt;/span&gt;&lt;span style=&#034;color: black;&#034;&gt;&amp;#93;&lt;/span&gt;&lt;/div&gt;&lt;/li&gt;
&lt;li style=&#034;font-weight: normal; vertical-align:top;&#034;&gt;&lt;div style=&#034;&#034;&gt; &lt;/div&gt;&lt;/li&gt;
&lt;li style=&#034;font-weight: normal; vertical-align:top;&#034;&gt;&lt;div style=&#034;&#034;&gt; &lt;span style=&#034;color: #ff7700;font-weight:bold;&#034;&gt;if&lt;/span&gt; &lt;span style=&#034;color: #008000;&#034;&gt;getattr&lt;/span&gt;&lt;span style=&#034;color: black;&#034;&gt;&amp;#40;&lt;/span&gt;c&lt;span style=&#034;color: #66cc66;&#034;&gt;,&lt;/span&gt; &lt;span style=&#034;color: #483d8b;&#034;&gt;&#034;delta&#034;&lt;/span&gt;&lt;span style=&#034;color: #66cc66;&#034;&gt;,&lt;/span&gt; &lt;span style=&#034;color: #008000;&#034;&gt;None&lt;/span&gt;&lt;span style=&#034;color: black;&#034;&gt;&amp;#41;&lt;/span&gt; &lt;span style=&#034;color: #ff7700;font-weight:bold;&#034;&gt;and&lt;/span&gt; &lt;span style=&#034;color: #008000;&#034;&gt;getattr&lt;/span&gt;&lt;span style=&#034;color: black;&#034;&gt;&amp;#40;&lt;/span&gt;c.&lt;span style=&#034;color: black;&#034;&gt;delta&lt;/span&gt;&lt;span style=&#034;color: #66cc66;&#034;&gt;,&lt;/span&gt; &lt;span style=&#034;color: #483d8b;&#034;&gt;&#034;content&#034;&lt;/span&gt;&lt;span style=&#034;color: #66cc66;&#034;&gt;,&lt;/span&gt; &lt;span style=&#034;color: #008000;&#034;&gt;None&lt;/span&gt;&lt;span style=&#034;color: black;&#034;&gt;&amp;#41;&lt;/span&gt;:&lt;/div&gt;&lt;/li&gt;
&lt;li style=&#034;font-weight: normal; vertical-align:top;&#034;&gt;&lt;div style=&#034;&#034;&gt; delta &lt;span style=&#034;color: #66cc66;&#034;&gt;=&lt;/span&gt; c.&lt;span style=&#034;color: black;&#034;&gt;delta&lt;/span&gt;.&lt;span style=&#034;color: black;&#034;&gt;content&lt;/span&gt; &lt;span style=&#034;color: #ff7700;font-weight:bold;&#034;&gt;or&lt;/span&gt; &lt;span style=&#034;color: #483d8b;&#034;&gt;&#034;&#034;&lt;/span&gt;&lt;/div&gt;&lt;/li&gt;
&lt;li style=&#034;font-weight: normal; vertical-align:top;&#034;&gt;&lt;div style=&#034;&#034;&gt; &lt;/div&gt;&lt;/li&gt;
&lt;li style=&#034;font-weight: normal; vertical-align:top;&#034;&gt;&lt;div style=&#034;&#034;&gt; &lt;span style=&#034;color: #ff7700;font-weight:bold;&#034;&gt;if&lt;/span&gt; &lt;span style=&#034;color: #008000;&#034;&gt;getattr&lt;/span&gt;&lt;span style=&#034;color: black;&#034;&gt;&amp;#40;&lt;/span&gt;c&lt;span style=&#034;color: #66cc66;&#034;&gt;,&lt;/span&gt; &lt;span style=&#034;color: #483d8b;&#034;&gt;&#034;message&#034;&lt;/span&gt;&lt;span style=&#034;color: #66cc66;&#034;&gt;,&lt;/span&gt; &lt;span style=&#034;color: #008000;&#034;&gt;None&lt;/span&gt;&lt;span style=&#034;color: black;&#034;&gt;&amp;#41;&lt;/span&gt;:&lt;/div&gt;&lt;/li&gt;
&lt;li style=&#034;font-weight: normal; vertical-align:top;&#034;&gt;&lt;div style=&#034;&#034;&gt; final_message &lt;span style=&#034;color: #66cc66;&#034;&gt;=&lt;/span&gt; c.&lt;span style=&#034;color: black;&#034;&gt;message&lt;/span&gt;&lt;/div&gt;&lt;/li&gt;
&lt;li style=&#034;font-weight: normal; vertical-align:top;&#034;&gt;&lt;div style=&#034;&#034;&gt; &lt;/div&gt;&lt;/li&gt;
&lt;li style=&#034;font-weight: normal; vertical-align:top;&#034;&gt;&lt;div style=&#034;&#034;&gt; &lt;span style=&#034;color: #ff7700;font-weight:bold;&#034;&gt;yield&lt;/span&gt; &lt;span style=&#034;color: black;&#034;&gt;&#123;&lt;/span&gt;&lt;span style=&#034;color: #483d8b;&#034;&gt;&#034;delta&#034;&lt;/span&gt;: delta&lt;span style=&#034;color: black;&#034;&gt;&#125;&lt;/span&gt;&lt;/div&gt;&lt;/li&gt;
&lt;li style=&#034;font-weight: normal; vertical-align:top;&#034;&gt;&lt;div style=&#034;&#034;&gt; &lt;/div&gt;&lt;/li&gt;
&lt;li style=&#034;font-weight: normal; vertical-align:top;&#034;&gt;&lt;div style=&#034;&#034;&gt; &lt;span style=&#034;color: #ff7700;font-weight:bold;&#034;&gt;yield&lt;/span&gt; &lt;span style=&#034;color: black;&#034;&gt;&#123;&lt;/span&gt;&lt;/div&gt;&lt;/li&gt;
&lt;li style=&#034;font-weight: normal; vertical-align:top;&#034;&gt;&lt;div style=&#034;&#034;&gt; &lt;span style=&#034;color: #483d8b;&#034;&gt;&#034;delta&#034;&lt;/span&gt;: &lt;span style=&#034;color: #483d8b;&#034;&gt;&#034;&#034;&lt;/span&gt;&lt;span style=&#034;color: #66cc66;&#034;&gt;,&lt;/span&gt;&lt;/div&gt;&lt;/li&gt;
&lt;li style=&#034;font-weight: normal; vertical-align:top;&#034;&gt;&lt;div style=&#034;&#034;&gt; &lt;span style=&#034;color: #483d8b;&#034;&gt;&#034;meta&#034;&lt;/span&gt;: &lt;span style=&#034;color: black;&#034;&gt;&#123;&lt;/span&gt;&lt;/div&gt;&lt;/li&gt;
&lt;li style=&#034;font-weight: normal; vertical-align:top;&#034;&gt;&lt;div style=&#034;&#034;&gt; &lt;span style=&#034;color: #483d8b;&#034;&gt;&#034;raw_response&#034;&lt;/span&gt;: final_message&lt;span style=&#034;color: #66cc66;&#034;&gt;,&lt;/span&gt;&lt;/div&gt;&lt;/li&gt;
&lt;li style=&#034;font-weight: normal; vertical-align:top;&#034;&gt;&lt;div style=&#034;&#034;&gt; &lt;span style=&#034;color: #483d8b;&#034;&gt;&#034;nodes&#034;&lt;/span&gt;: &lt;span style=&#034;color: #008000;&#034;&gt;None&lt;/span&gt;&lt;span style=&#034;color: #66cc66;&#034;&gt;,&lt;/span&gt;&lt;/div&gt;&lt;/li&gt;
&lt;li style=&#034;font-weight: normal; vertical-align:top;&#034;&gt;&lt;div style=&#034;&#034;&gt; &lt;span style=&#034;color: #483d8b;&#034;&gt;&#034;metadata&#034;&lt;/span&gt;: &lt;span style=&#034;color: black;&#034;&gt;&#123;&lt;/span&gt;&lt;span style=&#034;color: black;&#034;&gt;&#125;&lt;/span&gt;&lt;span style=&#034;color: #66cc66;&#034;&gt;,&lt;/span&gt;&lt;/div&gt;&lt;/li&gt;
&lt;li style=&#034;font-weight: normal; vertical-align:top;&#034;&gt;&lt;div style=&#034;&#034;&gt; &lt;span style=&#034;color: black;&#034;&gt;&#125;&lt;/span&gt;&lt;span style=&#034;color: #66cc66;&#034;&gt;,&lt;/span&gt;&lt;/div&gt;&lt;/li&gt;
&lt;li style=&#034;font-weight: normal; vertical-align:top;&#034;&gt;&lt;div style=&#034;&#034;&gt; &lt;span style=&#034;color: black;&#034;&gt;&#125;&lt;/span&gt;&lt;/div&gt;&lt;/li&gt;
&lt;/ol&gt;&lt;/div&gt;&lt;/div&gt;&lt;p class='download code_download'&gt;&lt;a href='https://ia.dnc.global/local/cache-code/07a1958561fb31461b02b12920adbad1.txt'&gt;T&#233;l&#233;charger&lt;/a&gt;&lt;/p&gt;&lt;/div&gt;&lt;/div&gt;
		
		</content:encoded>


		

	</item>
<item xml:lang="fr">
		<title>Orchestration : ReAct et Backtracking</title>
		<link>https://ia.dnc.global/Orchestration-ReAct-et-Backtracking.html</link>
		<guid isPermaLink="true">https://ia.dnc.global/Orchestration-ReAct-et-Backtracking.html</guid>
		<dc:date>2026-05-17T10:04:49Z</dc:date>
		<dc:format>text/html</dc:format>
		<dc:language>fr</dc:language>
		<dc:creator>Bertrand Degoy</dc:creator>



		<description>
&lt;p&gt;Une boucle ReAct &#034;Raisonne&#034; en marche avant, selon une suite d'&#233;tapes successives. Si le raisonnement &#233;choue &#224; donner une r&#233;ponse &#224; la question pos&#233;e, la boucle s'arr&#234;te sans r&#233;ponse. M&#234;me si une r&#233;ponse est trouv&#233;e, elle n'a pas &#233;t&#233; &#233;labor&#233;e par l'exploration de plusieurs branches : le r&#233;sultat reste non exhaustif. Cet article d&#233;crit comment on pourrait revenir en arri&#232;re et recommencer sur une hypoth&#232;se diff&#233;rente (backtracking), &#224; la fa&#231;on d'un moteur d'inf&#233;rences. &lt;br class='autobr' /&gt;
Nous proposons une architecture dans (...)&lt;/p&gt;


-
&lt;a href="https://ia.dnc.global/-Architecture-ReAct-first-Neuro-symbolique-.html" rel="directory"&gt;Architecture ReAct-first Neuro-symbolique&lt;/a&gt;


		</description>


 <content:encoded>&lt;div class='rss_chapo'&gt;&lt;p&gt;Une boucle ReAct &#034;Raisonne&#034; en marche avant, selon une suite d'&#233;tapes successives. Si le raisonnement &#233;choue &#224; donner une r&#233;ponse &#224; la question pos&#233;e, la boucle s'arr&#234;te sans r&#233;ponse. M&#234;me si une r&#233;ponse est trouv&#233;e, elle n'a pas &#233;t&#233; &#233;labor&#233;e par l'exploration de plusieurs branches : le r&#233;sultat reste non exhaustif.&lt;br class='autobr' /&gt;
Cet article d&#233;crit comment on pourrait revenir en arri&#232;re et recommencer sur une hypoth&#232;se diff&#233;rente (backtracking), &#224; la fa&#231;on d'un moteur d'inf&#233;rences.&lt;/p&gt;&lt;/div&gt;
		&lt;div class='rss_texte'&gt;&lt;p&gt;Nous proposons une architecture dans laquelle ReAct (Reasoning + Acting) est accompagn&#233; par un Superviseur qui peut remonter l'arbre de d&#233;cisions (&#034;backtracking&#034;) et explorer des alternatives en cas d'&#233;chec ou d'insatisfaction. Dans cette approche, le superviseur serait &lt;strong&gt;un m&#233;ta-contr&#244;leur&lt;/strong&gt;.&lt;/p&gt;
&lt;p&gt;Un &lt;strong&gt;moteur d'inf&#233;rences logiques peut jouer un r&#244;le central dans l'orchestration&lt;/strong&gt; des actions et des d&#233;cisions &#224; suivre en cas d'&#233;chec. &lt;br class='autobr' /&gt;
En effet, un moteur logique excelle dans :
&lt;br /&gt;&lt;span class=&#034;spip-puce ltr&#034;&gt;&lt;b&gt;&#8211;&lt;/b&gt;&lt;/span&gt; la d&#233;tection de situations complexes,
&lt;br /&gt;&lt;span class=&#034;spip-puce ltr&#034;&gt;&lt;b&gt;&#8211;&lt;/b&gt;&lt;/span&gt; la repr&#233;sentation d&#233;clarative (&#034;symbolique&#034;) de r&#232;gles, de contraintes et d'alternatives ,
&lt;br /&gt;&lt;span class=&#034;spip-puce ltr&#034;&gt;&lt;b&gt;&#8211;&lt;/b&gt;&lt;/span&gt; le raisonnement sur des violations et des exceptions,
&lt;br /&gt;&lt;span class=&#034;spip-puce ltr&#034;&gt;&lt;b&gt;&#8211;&lt;/b&gt;&lt;/span&gt; le retour en arri&#232;re (backtracking) dans un arbre de solutions pour explorer les alternatives.&lt;/p&gt;
&lt;p&gt;L'approche d&#233;velopp&#233;e &#8212; ReAct + Inf&#233;rence logique &#8212; se distingue nettement de tout ce qui existe aujourd'hui :&lt;/p&gt;
&lt;p&gt;&lt;span class=&#034;spip-puce ltr&#034;&gt;&lt;b&gt;&#8211;&lt;/b&gt;&lt;/span&gt; elle est &lt;strong&gt;originale&lt;/strong&gt;,
&lt;br /&gt;&lt;span class=&#034;spip-puce ltr&#034;&gt;&lt;b&gt;&#8211;&lt;/b&gt;&lt;/span&gt; elle est &lt;strong&gt;techniquement solide&lt;/strong&gt;,
&lt;br /&gt;&lt;span class=&#034;spip-puce ltr&#034;&gt;&lt;b&gt;&#8211;&lt;/b&gt;&lt;/span&gt; elle r&#233;pond &#224; un besoin &lt;strong&gt;non couvert&lt;/strong&gt; par les architectures actuelles,
&lt;br /&gt;&lt;span class=&#034;spip-puce ltr&#034;&gt;&lt;b&gt;&#8211;&lt;/b&gt;&lt;/span&gt; elle combine deux mondes rarement r&#233;unis : &lt;br class='autobr' /&gt; &lt;strong&gt;agents LLM&lt;/strong&gt; et &lt;strong&gt;moteurs logiques d&#233;terministes&lt;/strong&gt;.&lt;/p&gt;
&lt;p&gt;Aucun travail MIT, Stanford, DeepMind ou autre ne couvre cette architecture.&lt;/p&gt;
&lt;p&gt;La version v2 de ReActEngine (en d&#233;veloppement) est fond&#233; sur cette architecture. Un moteur ReAct complet, en streaming enti&#232;rement &#233;crit &#224; la main, sans LlamaIndex ou autre, avec un LLM de Mistral AI : Made in France, cocorico !&lt;/p&gt;&lt;/div&gt;
		
		</content:encoded>


		

	</item>
<item xml:lang="fr">
		<title>Comment ReActAgent s'ins&#232;re dans le Workflow LlamaIndex</title>
		<link>https://ia.dnc.global/Comment-ReActAgent-s-insere-dans-le-Workflow-LlamaIndex.html</link>
		<guid isPermaLink="true">https://ia.dnc.global/Comment-ReActAgent-s-insere-dans-le-Workflow-LlamaIndex.html</guid>
		<dc:date>2026-04-13T10:15:10Z</dc:date>
		<dc:format>text/html</dc:format>
		<dc:language>fr</dc:language>
		<dc:creator>Bertrand Degoy</dc:creator>



		<description>
&lt;p&gt;Dans LlamaIndex, la boucle ReAct repose sur un principe simple : le workflow orchestre, l'agent raisonne. &#192; chaque appel, g&#233;n&#232;re un prompt, interroge le LLM, reconstruit une &#233;tape de raisonnement et laisse le finalizer d&#233;cider de la suite. Une m&#233;canique minimale c&#244;t&#233; workflow, une intelligence maximale c&#244;t&#233; agent. &lt;br class='autobr' /&gt; #La boucle de raisonnement ReAct &lt;br class='autobr' /&gt;
##Comment `ReActAgent` s'ins&#232;re dans le Workflow LlamaIndex &lt;br class='autobr' /&gt;
LlamaIndex ReActAgent, construit sur Workflow, fournit le code du **step** dans un workflow. (...)&lt;/p&gt;


-
&lt;a href="https://ia.dnc.global/-Architecture-et-traitements-.html" rel="directory"&gt;Architecture et traitements&lt;/a&gt;


		</description>


 <content:encoded>&lt;div class='rss_chapo'&gt;&lt;p&gt;Dans LlamaIndex, la boucle ReAct repose sur un principe simple : le workflow orchestre, l'agent raisonne. &#192; chaque appel, g&#233;n&#232;re un prompt, interroge le LLM, reconstruit une &#233;tape de raisonnement et laisse le finalizer d&#233;cider de la suite. Une m&#233;canique minimale c&#244;t&#233; workflow, une intelligence maximale c&#244;t&#233; agent.&lt;/p&gt;&lt;/div&gt;
		&lt;div class='rss_texte'&gt;&lt;hr /&gt;
&lt;h1&gt;La boucle de raisonnement ReAct&lt;/h1&gt;
&lt;h2&gt;Comment &lt;code&gt;ReActAgent&lt;/code&gt; s'ins&#232;re dans le Workflow LlamaIndex&lt;/h2&gt;
&lt;p&gt;LlamaIndex ReActAgent, construit sur Workflow, fournit le code du &lt;strong&gt;step&lt;/strong&gt; dans un workflow. Le workflow appelle :&lt;/p&gt;
&lt;pre&gt;&lt;code&gt;BaseAgent.run_agent_step() &#8594; ReActAgent.take_step()&lt;/code&gt;&lt;/pre&gt;
&lt;p&gt;Donc :&lt;/p&gt;
&lt;ul class=&#034;spip&#034;&gt;
&lt;li&gt;le workflow = &lt;strong&gt;chef d'orchestre&lt;/strong&gt; (encore un !)&lt;/li&gt;
&lt;li&gt;l'agent = &lt;strong&gt;une &#233;tape du workflow&lt;/strong&gt;&lt;/li&gt;
&lt;li&gt;&lt;code&gt;take_step()&lt;/code&gt; = &lt;strong&gt;la logique ReAct pour une &#233;tape&lt;/strong&gt;&lt;/li&gt;
&lt;/ul&gt;
&lt;h2&gt;Comment sont construites les steps ReAct ?&lt;/h2&gt;
&lt;p&gt;En v&#233;rit&#233; : Le Workflow ne construit pas des steps ReAct. C'est ReActAgent qui les fait construire par le LLM.
Le Workflow ne fait que :&lt;/p&gt;
&lt;ol class=&#034;spip&#034;&gt;
&lt;li&gt;appeler &lt;code&gt;take_step()&lt;/code&gt;&lt;/li&gt;
&lt;li&gt;attendre un &lt;code&gt;AgentStepOutput&lt;/code&gt; (Thought, Action, Action Input ...)&lt;/li&gt;
&lt;li&gt;d&#233;cider avec ReActFinalizer si une nouvelle &#233;tape doit &#234;tre ex&#233;cut&#233;e&lt;/li&gt;
&lt;/ol&gt;
&lt;p&gt;Voici ce qui se passe dans &lt;code&gt;ReActAgent.take_step()&lt;/code&gt; pour construire une &#233;tape :&lt;/p&gt;
&lt;h3&gt;&#201;tape 1 &#8212; Construire le prompt ReAct&lt;/h3&gt;
&lt;p&gt;L'agent g&#233;n&#232;re le prompt ReAct qui fixe les r&#232;gles que devra suivre le LLM pour &#233;laborer les THOUGHT, ACTION et ACTION INPUT, pour appeler les outils etc. Le prompt contient &#233;galement l'historique des &#233;changes et, in fine, la question de l'utilisateur. Voici un exemple tr&#232;s na&#239;f :&lt;/p&gt;
&lt;pre&gt;&lt;code&gt;You are a ReAct agent.
First, think step-by-step and write:
THOUGHT:
Then, if needed, write:
ACTION:
ACTION INPUT:
&lt;context&gt;
&lt;query&gt;&lt;/code&gt;&lt;/pre&gt;
&lt;h3&gt;&#201;tape 2 &#8212; Appeler le LLM&lt;/h3&gt;
&lt;p&gt;L'agent appelle :&lt;/p&gt;
&lt;pre&gt;&lt;code&gt;llm.stream(prompt)&lt;/code&gt;&lt;/pre&gt;
&lt;p&gt;Le LLM g&#233;n&#232;re la r&#233;ponse au prompt. &#8594; Le LLM produit progressivement, par petits fragments, les &lt;strong&gt;deltas&lt;/strong&gt;. &lt;/p&gt;
&lt;h3&gt;&#201;tape 3 &#8212; Le parser reconstruit les blocs&lt;/h3&gt;
&lt;p&gt;Le &lt;code&gt;ReActStreamParser&lt;/code&gt; transforme les deltas en blocs :&lt;/p&gt;
&lt;pre&gt;&lt;code&gt;THOUGHT: ...
ACTION: ...
OBSERVATION: ...
...
FINAL_ANSWER: ...&lt;/code&gt;&lt;/pre&gt;
&lt;h3&gt;&#201;tape 4 &#8212; Le ReActFinalizer d&#233;cide si l'&#233;tape est termin&#233;e&lt;/h3&gt;
&lt;p&gt;Le finalizer :&lt;/p&gt;
&lt;ul class=&#034;spip&#034;&gt;
&lt;li&gt;valide les blocs&lt;/li&gt;
&lt;li&gt;d&#233;tecte les erreurs&lt;/li&gt;
&lt;li&gt;emp&#234;che les boucles&lt;/li&gt;
&lt;li&gt;d&#233;cide si une nouvelle &#233;tape doit &#234;tre lanc&#233;e&lt;/li&gt;
&lt;/ul&gt;
&lt;h3&gt;&#201;tape 5 &#8212; Le workflow relance &lt;code&gt;take_step()&lt;/code&gt; si n&#233;cessaire&lt;/h3&gt;
&lt;p&gt;Si le finalizer dit &#8220;continue&#8221;, alors :&lt;/p&gt;
&lt;pre&gt;&lt;code&gt;workflow &#8594; BaseAgent.run_agent_step &#8594; ReActAgent.take_step()&lt;/code&gt;&lt;/pre&gt;
&lt;p&gt;Et une nouvelle &#233;tape ReAct est produite.&lt;/p&gt;
&lt;h3&gt;En r&#233;sum&#233; : r&#244;le du Workflow&lt;/h3&gt;
&lt;ul class=&#034;spip&#034;&gt;
&lt;li&gt;Le workflow LlamaIndex ne fait qu'appeler &lt;code&gt;take_step()&lt;/code&gt; en boucle.&lt;/li&gt;
&lt;li&gt;&lt;code&gt;ReActAgent.take_step()&lt;/code&gt; g&#233;n&#232;re une &lt;em&gt;&#233;tape ReAct&lt;/em&gt; en appelant le LLM.&lt;/li&gt;
&lt;li&gt;Le &lt;code&gt;ReActStreamParser&lt;/code&gt; reconstruit les blocs ReAct &#224; partir des deltas.&lt;/li&gt;
&lt;li&gt;Le &lt;code&gt;ReActFinalizer&lt;/code&gt; d&#233;cide si une nouvelle &#233;tape doit &#234;tre lanc&#233;e.&lt;/li&gt;
&lt;li&gt;Le workflow relance &lt;code&gt;take_step()&lt;/code&gt; si n&#233;cessaire.&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;&lt;span class='spip_document_26 spip_documents spip_documents_center'&gt;
&lt;img src='https://ia.dnc.global/local/cache-vignettes/L428xH753/bouclereact_1-e5172.png?1776293294' width='428' height='753' alt=&#034;&#034; /&gt;&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;Voyez aussi :&lt;/strong&gt;
&lt;br /&gt;&lt;span class=&#034;spip-puce ltr&#034;&gt;&lt;b&gt;&#8211;&lt;/b&gt;&lt;/span&gt; &lt;a href='https://ia.dnc.global/ReActEngine-v1-Modules-et-traitements.html' class='spip_in'&gt;ReActEngine v1 : Modules et traitements&lt;/a&gt;&lt;/p&gt;&lt;/div&gt;
		
		</content:encoded>


		

	</item>
<item xml:lang="fr">
		<title>ReActEngine v1 : Finalizer et StreamParser</title>
		<link>https://ia.dnc.global/Architecture-ReAct-Finalizer-et-StreamParser.html</link>
		<guid isPermaLink="true">https://ia.dnc.global/Architecture-ReAct-Finalizer-et-StreamParser.html</guid>
		<dc:date>2026-04-13T09:34:02Z</dc:date>
		<dc:format>text/html</dc:format>
		<dc:language>fr</dc:language>
		<dc:creator>Bertrand Degoy</dc:creator>



		<description>
&lt;p&gt;Les modules ReActFinalizer, ReActStreamParser, font partie du niveau sup&#233;rieur ou &#034;Orchesrtrateur&#034; du traitement. Ils ont &#233;t&#233; d&#233;velopp&#233;s sp&#233;cialement pour atteindre les objectifs du ReActEngine v1. Architecture ReAct : Finalizer et StreamParser R&#244;les et responsabilit&#233;s ReActStreamParser &lt;br class='autobr' /&gt;
Fait le lien entre le niveau applicatif et le ReActEngine. &lt;br class='autobr' /&gt;
Responsable de : La segmentation du flux brut en blocs ReActBlock L'identification du type de chaque bloc (ReActType) La gestion du buffer et du flush (...)&lt;/p&gt;


-
&lt;a href="https://ia.dnc.global/-ReActEngine-v1-.html" rel="directory"&gt;ReActEngine v1&lt;/a&gt;


		</description>


 <content:encoded>&lt;div class='rss_chapo'&gt;&lt;p&gt;Les modules ReActFinalizer, ReActStreamParser, font partie du niveau sup&#233;rieur ou &#034;Orchesrtrateur&#034; du traitement. Ils ont &#233;t&#233; d&#233;velopp&#233;s sp&#233;cialement pour atteindre les objectifs du &lt;a href='https://ia.dnc.global/ReActEngine-v1-Modules-et-traitements.html' class='spip_in'&gt;ReActEngine v1&lt;/a&gt;.&lt;/p&gt;&lt;/div&gt;
		&lt;div class='rss_texte'&gt;&lt;hr /&gt;
&lt;h1&gt;Architecture ReAct : Finalizer et StreamParser&lt;/h1&gt;
&lt;h2&gt;R&#244;les et responsabilit&#233;s&lt;/h2&gt;
&lt;h3&gt;ReActStreamParser&lt;/h3&gt;
&lt;p&gt;Fait le lien entre le niveau applicatif et le ReActEngine.&lt;/p&gt;
&lt;p&gt;Responsable de :&lt;/p&gt;
&lt;ul class=&#034;spip&#034;&gt;
&lt;li&gt;
&lt;p&gt;La segmentation du flux brut en blocs &lt;code&gt;ReActBlock&lt;/code&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;L'identification du type de chaque bloc (&lt;code&gt;ReActType&lt;/code&gt;)&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;La gestion du buffer et du flush final&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;La conservation de l'historique des blocs extraits&lt;/p&gt;
&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;&lt;strong&gt;Ne d&#233;cide jamais de l'arr&#234;t ou de la modification du raisonnement.&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;Expose :&lt;/p&gt;
&lt;ul class=&#034;spip&#034;&gt;
&lt;li&gt;
&lt;p&gt;&lt;code&gt;has_final_answer()&lt;/code&gt; : indique si un bloc &lt;code&gt;FINAL_ANSWER&lt;/code&gt; est pr&#233;sent dans les blocs extraits&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;&lt;code&gt;get_final_answer()&lt;/code&gt; : retourne le contenu du dernier bloc &lt;code&gt;FINAL_ANSWER&lt;/code&gt; si pr&#233;sent&lt;/p&gt;
&lt;/li&gt;
&lt;/ul&gt;
&lt;h3&gt;ReActFinalizer&lt;/h3&gt;
&lt;p&gt;Responsable de :&lt;/p&gt;
&lt;ul class=&#034;spip&#034;&gt;
&lt;li&gt;
&lt;p&gt;L'orchestration du raisonnement jusqu'&#224; r&#233;solution&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;L'arr&#234;t du flux d&#232;s qu'un bloc de type &lt;code&gt;FINAL_ANSWER&lt;/code&gt;, &lt;code&gt;ANSWER&lt;/code&gt;, &lt;code&gt;RESPONSE&lt;/code&gt; ou &lt;code&gt;CONCLUSION&lt;/code&gt; est rencontr&#233;&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;La d&#233;tection de boucles ou d'anomalies de raisonnement, avec relance du raisonnement via un &lt;a href='https://ia.dnc.global/ReActEngine-v1-traitement-des-erreurs.html' class='spip_in'&gt;Thought inject&#233;&lt;/a&gt;.&lt;/p&gt;
&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;&lt;strong&gt;Ne conna&#238;t pas l'&#233;tat interne du parser.&lt;/strong&gt; Il ne peut pas appeler &lt;code&gt;parser.has_final_answer()&lt;/code&gt;.&lt;/p&gt;
&lt;h2&gt;R&#232;gle de s&#233;paration stricte&lt;/h2&gt;
&lt;ul class=&#034;spip&#034;&gt;
&lt;li&gt;
&lt;p&gt;Le &lt;code&gt;Finalizer&lt;/code&gt; ne doit pas inspecter &lt;code&gt;parser.blocks&lt;/code&gt; ni utiliser ses m&#233;thodes internes.&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;Le &lt;code&gt;Parser&lt;/code&gt; ne doit pas d&#233;cider de l'arr&#234;t ou la modification du raisonnement.&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;La d&#233;tection de la r&#233;solution se fait uniquement dans le &lt;code&gt;Finalizer&lt;/code&gt;, en fonction du type des blocs yield&#233;s.&lt;/p&gt;
&lt;/li&gt;
&lt;/ul&gt;
&lt;hr /&gt;
&lt;h2&gt;Exemple de flux&lt;/h2&gt;
&lt;pre&gt;&lt;code class=&#034;language-text&#034;&gt;Thought: I need to search.
Action: search[weather]
Observation: It's raining.
Final Answer: Bring an umbrella.&lt;/code&gt;&lt;/pre&gt;
&lt;ul class=&#034;spip&#034;&gt;
&lt;li&gt;
&lt;p&gt;Le &lt;code&gt;Parser&lt;/code&gt; extrait 4 blocs typ&#233;s.&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;Le &lt;code&gt;Finalizer&lt;/code&gt; s'arr&#234;te d&#232;s r&#233;ception du bloc &lt;code&gt;FINAL_ANSWER&lt;/code&gt;.&lt;/p&gt;
&lt;/li&gt;
&lt;/ul&gt;
&lt;h2&gt;La classe &lt;code&gt;ReActType&lt;/code&gt;&lt;/h2&gt;
&lt;h3&gt;&lt;strong&gt;H&#233;ritage :&lt;/strong&gt;&lt;/h3&gt;
&lt;pre&gt;&lt;code class=&#034;language-python&#034;&gt;class ReActType(str, Enum):&lt;/code&gt;&lt;/pre&gt;
&lt;ul class=&#034;spip&#034;&gt;
&lt;li&gt;
&lt;p&gt;H&#233;rite de &lt;code&gt;str&lt;/code&gt; pour permettre des comparaisons directes avec des cha&#238;nes (&lt;code&gt;block.type == &#034;thought&#034;&lt;/code&gt;).&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;H&#233;rite de &lt;code&gt;Enum&lt;/code&gt; pour garantir l'&#233;num&#233;ration stricte des types.&lt;/p&gt;
&lt;/li&gt;
&lt;/ul&gt;
&lt;h3&gt;&lt;strong&gt;Types ReAct fondamentaux&lt;/strong&gt;&lt;/h3&gt;
&lt;table&gt;
&lt;thead&gt;
&lt;tr&gt;
&lt;th&gt;Type&lt;/th&gt;
&lt;th&gt;R&#244;le dans le flux ReAct&lt;/th&gt;
&lt;/tr&gt;
&lt;/thead&gt;
&lt;tbody&gt;
&lt;tr&gt;
&lt;td&gt;&lt;code&gt;THOUGHT&lt;/code&gt;&lt;/td&gt;
&lt;td&gt;Raisonnement interne&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;&lt;code&gt;ACTION&lt;/code&gt;&lt;/td&gt;
&lt;td&gt;Appel d'outil&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;&lt;code&gt;OBSERVATION&lt;/code&gt;&lt;/td&gt;
&lt;td&gt;R&#233;sultat d'outil&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;&lt;code&gt;FINAL_ANSWER&lt;/code&gt;&lt;/td&gt;
&lt;td&gt;Cl&#244;ture explicite&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;&lt;code&gt;ANSWER&lt;/code&gt;&lt;/td&gt;
&lt;td&gt;R&#233;ponse directe&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;&lt;code&gt;RESPONSE&lt;/code&gt;&lt;/td&gt;
&lt;td&gt;Variante de r&#233;ponse&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;&lt;code&gt;CONCLUSION&lt;/code&gt;&lt;/td&gt;
&lt;td&gt;Cl&#244;ture synth&#233;tique&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;&lt;code&gt;TOOL_CALL&lt;/code&gt;&lt;/td&gt;
&lt;td&gt;Appel structur&#233; (optionnel)&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;&lt;code&gt;TOOL_RESULT&lt;/code&gt;&lt;/td&gt;
&lt;td&gt;R&#233;sultat structur&#233;&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;&lt;code&gt;UNKNOWN&lt;/code&gt;&lt;/td&gt;
&lt;td&gt;Valeur de secours&lt;/td&gt;
&lt;/tr&gt;
&lt;/tbody&gt;
&lt;/table&gt;
&lt;h3&gt;3. &lt;strong&gt;Coh&#233;rence avec les finalizers et parsers&lt;/strong&gt;&lt;/h3&gt;
&lt;ul class=&#034;spip&#034;&gt;
&lt;li&gt;
&lt;p&gt;Les types &lt;code&gt;FINAL_ANSWER&lt;/code&gt;, &lt;code&gt;ANSWER&lt;/code&gt;, &lt;code&gt;RESPONSE&lt;/code&gt;, &lt;code&gt;CONCLUSION&lt;/code&gt; sont utilis&#233;s comme &lt;strong&gt;types de cl&#244;ture&lt;/strong&gt; dans le &lt;code&gt;Finalizer&lt;/code&gt;.&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;Les types &lt;code&gt;TOOL_CALL&lt;/code&gt; et &lt;code&gt;TOOL_RESULT&lt;/code&gt; sont utiles pour des flux structur&#233;s (JSON, agents avanc&#233;s).&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;&lt;code&gt;UNKNOWN&lt;/code&gt; est une bonne pratique pour la robustesse du parsing.&lt;/p&gt;
&lt;/li&gt;
&lt;/ul&gt;
&lt;h1&gt;Pourquoi deux parsers ?&lt;/h1&gt;
&lt;p&gt;Les parsers ont pour fonction d'assembler un flux de r&#233;ponse brut (les tokens) en messages typ&#233;s ReAct.&lt;/p&gt;
&lt;p&gt;Les lecteurs attentifs auront remarqu&#233; que :&lt;/p&gt;
&lt;ul class=&#034;spip&#034;&gt;
&lt;li&gt;
&lt;p&gt;il existe un ReActOutputParser directement &#224; la sortie du LLM et, pourtant, ReActEngine &#233;met un flux brut de token ;&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;l'application cliente doit reconstruire les messages ReAct, par exemple avec StreamlitChatTracer.&lt;/p&gt;
&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;Voici la distinction essentielle &#8212; et pourquoi elle est &lt;strong&gt;n&#233;cessaire&lt;/strong&gt; &#8212; entre :&lt;/p&gt;
&lt;ul class=&#034;spip&#034;&gt;
&lt;li&gt;
&lt;p&gt;&lt;strong&gt;ReActOutputParser&lt;/strong&gt; (c&#244;t&#233; LLM, logique interne de l'agent)&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;&lt;strong&gt;ReActEngine / Workflow&lt;/strong&gt; (c&#244;t&#233; runtime, flux brut de tokens)&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;&lt;strong&gt;StreamlitChatTracer / client&lt;/strong&gt; (c&#244;t&#233; application, reconstruction des messages)&lt;/p&gt;
&lt;/li&gt;
&lt;/ul&gt;
&lt;dl class='spip_document_29 spip_documents'&gt; &lt;dt&gt; &lt;a href='https://ia.dnc.global/IMG/png/reactengine_2parser_diagram_20260408.png' class=&#034;mediabox&#034; title=&#034;Deux parser en parall&#232;le avec des objectifs et une temporalit&#233; diff&#233;rents&#034; &gt; &lt;img src='https://ia.dnc.global/local/cache-vignettes/L500xH282/reactengine_2parser_diagram_20260408-cd6fe.png?1776303650' width='500' height='282' alt=&#034;PNG - 1.3&#160;Mo&#034; /&gt; &lt;/a&gt; &lt;/dt&gt; &lt;dt class='crayon document-titre-29 spip_doc_titre' style='width:350px;'&gt; &lt;a href='https://ia.dnc.global/doc'&gt;Deux parser en parall&#232;le avec des objectifs et une temporalit&#233; diff&#233;rents &lt;/a&gt; &lt;/dt&gt; &lt;/dl&gt;
&lt;h2&gt;&lt;strong&gt;1. Le ReActOutputParser n'est &lt;em&gt;pas&lt;/em&gt; utilis&#233; pendant le streaming&lt;/strong&gt;&lt;/h2&gt;
&lt;p&gt;&lt;strong&gt;ReActOutputParser&lt;/strong&gt; est con&#231;u pour analyser &lt;strong&gt;un bloc complet&lt;/strong&gt; de texte produit par le LLM, contenant typiquement :&lt;/p&gt;
&lt;pre&gt;&lt;code&gt;Thought: ...
Action: tool_name
Action Input: {...}&lt;/code&gt;&lt;/pre&gt;
&lt;p&gt;ou bien :&lt;/p&gt;
&lt;pre&gt;&lt;code&gt;Thought: ...
Answer: ...&lt;/code&gt;&lt;/pre&gt;
&lt;p&gt;Ce parser fonctionne &lt;strong&gt;uniquement&lt;/strong&gt; lorsque le LLM a fini de produire &lt;strong&gt;tout&lt;/strong&gt; le message.&lt;br /&gt;
Il ne peut pas fonctionner sur un flux token-par-token, car :&lt;/p&gt;
&lt;ul class=&#034;spip&#034;&gt;
&lt;li&gt;
&lt;p&gt;le pattern ReAct n'est pas encore complet,&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;les sections Thought / Action / Observation / Answer peuvent arriver dans n'importe quel ordre,&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;le LLM peut r&#233;viser sa sortie en cours de g&#233;n&#233;ration.&lt;/p&gt;
&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;&lt;strong&gt;Donc : pendant le streaming, LlamaIndex ne peut pas appliquer ReActOutputParser.&lt;/strong&gt;&lt;/p&gt;
&lt;h2&gt;&lt;strong&gt;2. Pourquoi ReActEngine &#233;met un flux brut de tokens&lt;/strong&gt;&lt;/h2&gt;
&lt;p&gt;Le moteur ReAct dans LlamaIndex Workflow est con&#231;u pour :&lt;/p&gt;
&lt;ul class=&#034;spip&#034;&gt;
&lt;li&gt;
&lt;p&gt;&lt;strong&gt;exposer l'int&#233;gralit&#233; du raisonnement ReAct&lt;/strong&gt;,&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;&lt;strong&gt;permettre au client de suivre la progression en temps r&#233;el&lt;/strong&gt;,&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;&lt;strong&gt;laisser la libert&#233; au d&#233;veloppeur de tracer, filtrer ou visualiser les &#233;tapes&lt;/strong&gt;.&lt;/p&gt;
&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;Le flux brut contient donc :&lt;/p&gt;
&lt;ul class=&#034;spip&#034;&gt;
&lt;li&gt;
&lt;p&gt;les &lt;em&gt;Thought :&lt;/em&gt; interm&#233;diaires,&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;les &lt;em&gt;Action :&lt;/em&gt; et &lt;em&gt;Action Input :&lt;/em&gt;,&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;les &lt;em&gt;Observation :&lt;/em&gt;,&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;les &lt;em&gt;Answer :&lt;/em&gt; finales.&lt;/p&gt;
&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;Ce flux est &lt;strong&gt;intentionnellement non structur&#233;&lt;/strong&gt;, car :&lt;/p&gt;
&lt;ul class=&#034;spip&#034;&gt;
&lt;li&gt;
&lt;p&gt;il refl&#232;te exactement ce que le LLM produit,&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;il permet d'afficher la r&#233;flexion pas &#224; pas,&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;il &#233;vite d'imposer un format unique de parsing pendant le streaming.&lt;/p&gt;
&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;&lt;strong&gt;Le moteur ne structure pas le flux, car cela casserait la transparence et la flexibilit&#233; du workflow.&lt;/strong&gt;&lt;/p&gt;
&lt;h2&gt;&lt;strong&gt;3. Pourquoi le client doit reconstruire les messages ReAct&lt;/strong&gt;&lt;/h2&gt;
&lt;p&gt;Comme le flux est brut, c'est &lt;strong&gt;l'application cliente&lt;/strong&gt; qui doit :&lt;/p&gt;
&lt;ul class=&#034;spip&#034;&gt;
&lt;li&gt;
&lt;p&gt;d&#233;tecter les segments Thought / Action / Observation / Answer,&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;les afficher proprement,&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;&#233;ventuellement les agr&#233;ger ou les filtrer,&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;ou les transformer en messages de chat.&lt;/p&gt;
&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;Pour une application de chatbot fond&#233;e sur StreamLit, nous avons d&#233;velopp&#233; &lt;strong&gt;StreamlitChatTracer&lt;/strong&gt; qui a l'avantage de produire en streaming un flux d&#233;cor&#233; (police, couleur etc.).&lt;/p&gt;
&lt;p&gt;LlamaIndex fournit des helpers comme :&lt;/p&gt;
&lt;ul class=&#034;spip&#034;&gt;
&lt;li&gt;
&lt;p&gt;&lt;strong&gt;LlamaTrace&lt;/strong&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;&lt;strong&gt;OpenInference instrumentation&lt;/strong&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;Ces outils :&lt;/p&gt;
&lt;ul class=&#034;spip&#034;&gt;
&lt;li&gt;
&lt;p&gt;&#233;coutent les &#233;v&#233;nements &lt;code&gt;AgentStream&lt;/code&gt;, &lt;code&gt;ToolCall&lt;/code&gt;, &lt;code&gt;ToolCallResult&lt;/code&gt;, etc.,&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;reconstruisent une vue structur&#233;e du raisonnement,&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;permettent une visualisation claire dans le client.&lt;/p&gt;
&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;&lt;strong&gt;La reconstruction c&#244;t&#233; client est volontaire : elle permet d'adapter l'affichage au contexte (UI, logs, monitoring, etc.).&lt;/strong&gt;&lt;/p&gt;
&lt;h2&gt;&lt;strong&gt;4. Pourquoi cette s&#233;paration est n&#233;cessaire&lt;/strong&gt;&lt;/h2&gt;
&lt;h3&gt;&lt;strong&gt;A. Le LLM produit du texte libre &#8594; pas structur&#233;&lt;/strong&gt;&lt;/h3&gt;
&lt;p&gt;M&#234;me si ReAct impose un format, le LLM reste libre dans sa g&#233;n&#233;ration.&lt;br /&gt;
Le parser ne peut fonctionner qu'une fois la sortie compl&#232;te.&lt;/p&gt;
&lt;h3&gt;&lt;strong&gt;B. Le streaming impose de ne pas parser pr&#233;matur&#233;ment&lt;/strong&gt;&lt;/h3&gt;
&lt;p&gt;Un parser ReAct ne peut pas fonctionner sur :&lt;/p&gt;
&lt;ul class=&#034;spip&#034;&gt;
&lt;li&gt;
&lt;p&gt;un Thought incomplet,&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;un Action Input partiellement g&#233;n&#233;r&#233;,&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;un Answer tronqu&#233;.&lt;/p&gt;
&lt;/li&gt;
&lt;/ul&gt;
&lt;h3&gt;&lt;strong&gt;C. Le workflow doit rester g&#233;n&#233;rique&lt;/strong&gt;&lt;/h3&gt;
&lt;p&gt;Le moteur ReAct doit :&lt;/p&gt;
&lt;ul class=&#034;spip&#034;&gt;
&lt;li&gt;
&lt;p&gt;fonctionner avec n'importe quel LLM,&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;ne pas d&#233;pendre d'un format strict,&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;permettre des outils de tracing externes.&lt;/p&gt;
&lt;/li&gt;
&lt;/ul&gt;
&lt;h3&gt;&lt;strong&gt;D. Le client peut choisir son mode de visualisation&lt;/strong&gt;&lt;/h3&gt;
&lt;p&gt;Certains veulent :&lt;/p&gt;
&lt;ul class=&#034;spip&#034;&gt;
&lt;li&gt;
&lt;p&gt;tout afficher (Thoughts inclus),&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;masquer les Thoughts,&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;afficher uniquement les Tool Calls,&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;ou ne montrer que la r&#233;ponse finale.&lt;/p&gt;
&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;Impossible de satisfaire tous les cas dans le moteur lui-m&#234;me.&lt;/p&gt;
&lt;h2&gt;&lt;strong&gt;Conclusion&lt;/strong&gt;&lt;/h2&gt;
&lt;p&gt;La diff&#233;rence est &lt;strong&gt;n&#233;cessaire&lt;/strong&gt; car :&lt;/p&gt;
&lt;ul class=&#034;spip&#034;&gt;
&lt;li&gt;
&lt;p&gt;&lt;strong&gt;ReActOutputParser&lt;/strong&gt; est un outil &lt;em&gt;post-hoc&lt;/em&gt; pour analyser une sortie compl&#232;te.&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;&lt;strong&gt;ReActEngine&lt;/strong&gt; doit fournir un flux brut pour permettre le streaming et la transparence.&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;&lt;strong&gt;Le client&lt;/strong&gt; doit reconstruire les messages ReAct selon ses besoins (UI, logs, monitoring).&lt;/p&gt;
&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;Cette architecture garantit :&lt;/p&gt;
&lt;ul class=&#034;spip&#034;&gt;
&lt;li&gt;
&lt;p&gt;flexibilit&#233;,&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;transparence,&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;compatibilit&#233; avec tous les LLM,&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;et contr&#244;le total c&#244;t&#233; application.&lt;/p&gt;
&lt;/li&gt;
&lt;/ul&gt;&lt;/div&gt;
		
		</content:encoded>


		

	</item>



</channel>

</rss>
