AI-modellen hebben een beperkt geheugen: het contextvenster. In eenvoudige chatbots is dat zelden een probleem. Maar in langlopende workflows, zoals agentische systemen of meerlaagse processen, wordt contextbeheer al snel een technische uitdaging.
Elk AI-model heeft een contextvenster: de maximale hoeveelheid tekst die het tegelijk kan verwerken. Bij een eenvoudig gesprek is dat meer dan genoeg. Maar bij langlopende workflows, waarbij een AI meerdere stappen zet, documenten verwerkt en beslissingen neemt over tijd, raak je die grens snel. Slimme contextbeheer is dan geen luxe maar een noodzaak.
Het contextvenster van moderne modellen is groot, maar niet onbeperkt. Claude 3.5 Sonnet heeft een contextvenster van 200.000 tokens; GPT-4o heeft er 128.000. Dat klinkt als veel, maar in een workflow waarbij je tientallen documenten verwerkt, meerdere stappen maakt en de volledige gesprekshistorie meestuurt, is dit snel vol.
Bovendien: hoe voller het contextvenster, hoe duurder elk verzoek. En er zijn aanwijzingen dat modellen informatie aan het begin en einde van een lange context beter herinneren dan in het midden, het zogenoemde "lost in the middle"-effect.
In plaats van de volledige gesprekshistorie of documentinhoud mee te sturen, vat je samen wat relevant is. Na elke stap in een workflow laat je het model een samenvatting genereren van wat er besloten is en wat de huidige status is. Die samenvatting stuur je mee naar de volgende stap, niet de volledige voorgeschiedenis.
Dit vereist dat je bewust nadenkt over wat je model nodig heeft om de volgende stap te zetten. Wat is essentieel? Wat is achtergrond? Wat kan weg?
Wat te groot is voor het contextvenster, sla je op buiten het model. Dat kan in een relationele database, een vector database of een eenvoudig sleutel-waarde-systeem. Relevante informatie haal je op wanneer het model die nodig heeft.
Dit is dezelfde aanpak als RAG, maar dan voor workflow-state in plaats van documentinhoud. De workflow-context leeft buiten het model; het model krijgt alleen wat het op dat moment nodig heeft.
In conversationele systemen gebruik je een "sliding window": je stuurt alleen de laatste N berichten mee in de context, niet de volledige gesprekshistorie. Voeg daar een korte samenvatting van het eerdere gesprek aan toe om continuïteit te bewaren.
De overlap zorgt dat de overgang soepel verloopt: de samenvatting dekt wat het venster niet meer bevat.
Voor zeer lange workflows kan het slim zijn om checkpoints in te bouwen. Na elke significante stap sla je de volledige toestand van de workflow op in een database. Als de workflow wordt onderbroken of als de context te groot wordt, herstart je vanuit het laatste checkpoint.
Dit vereist meer architectuurwerk, maar maakt workflows robuuster en schaalbaar over langere tijdshorizonten.
Frameworks zoals LangChain en LlamaIndex bieden ingebouwde abstracties voor contextbeheer. Ze bieden memory-modules die automatisch samenvatten, externe opslag integreren en sliding windows beheren. Dat bespaart implementatietijd maar introduceert afhankelijkheden.
Voor eenvoudigere use cases is handmatig contextbeheer, waarbij je zelf bepaalt wat je meestuurt, transparanter en beter te debuggen.
Contextbeheer wordt kritisch bij workflows die langer duren dan één uitwisseling, waarbij het model informatie moet onthouden die eerder in het proces is vastgesteld, of waarbij grote documenten worden verwerkt. Chatbots voor korte klantenservicegesprekken hebben hier weinig mee te maken; een AI-agent die een week lang een project begeleidt, des te meer.
Slimme contextbeheer is een van de minder zichtbare maar meest bepalende technische keuzes bij het bouwen van AI-workflows. Mach8 ontwerpt AI-systemen waarbij contextbeheer van de grond af goed geregeld is, zodat langlopende processen betrouwbaar werken.
Wil je een AI-workflow bouwen die ook bij complexe, langlopende processen goed werkt? Neem contact op met Mach8.
Wij helpen je van strategie naar implementatie. Plan een vrijblijvend gesprek.
Plan een gesprek