Architektur-Log: API-Rate-Limits bei parallelen Requests

Das Problem: Während unserer globalen Peak-Zeiten schnallte das Traffic-Volumen schlagartig an. Unzählige verteilte LLM-Aufrufe fielen unkontrollierbar in die strengen API-Rate-Limits unserer Provider (HTTP 429 Too Many Requests). In unserem produktiven Setup mit gpt-4o bedeutete das konkret: 500 RPM (Requests per Minute) und 30.000 TPM (Tokens per Minute) auf Tier-3. Bei 40 gleichzeitig aktiven Enterprise-Nutzern reichte ein einziger Batch-Job aus, um das gesamte RPM-Budget aufzuzehren und sämtliche anderen Anfragen für bis zu 60 Sekunden zu blockieren.

Die naive Fehlerbehebung: Exponential Backoff

Unser erster Ansatz war klassisches Exponential Backoff mit Jitter: Bei einem 429-Error wartete der Worker 1 Sekunde, dann 2, dann 4, dann 8 Sekunden – zufällig um ±20 % variiert, um Thundering-Herd-Effekte zu vermeiden. In der Theorie entzerrt das den Traffic. In der Praxis war das Problem fundamentaler: Wir betrieben 12 Worker-Instanzen auf drei Kubernetes-Pods, die vollständig unkoordiniert agierten. Jeder Worker führte seinen eigenen lokalen Backoff durch, ohne Kenntnis vom Zustand der anderen. Das Ergebnis: Alle 12 Worker backofften gleichzeitig, füllten ihre Queues gleichzeitig, feuerten gleichzeitig erneut – und trafen dasselbe Rate-Limit wieder. Die Time-to-First-Token Metrik stieg von durchschnittlich 1.8 Sekunden auf bis zu 47 Sekunden. Prometheus-Alerts schlugen Alarm, bevor wir überhaupt manuell eingreifen konnten.

Die skalierbare Lösung: Der Redis Token-Bucket Queue-Manager

Die Wurzel des Problems war fehlende Koordination zwischen den Workers. Die Enterprise-Lösung: ein zentralisierter Token-Bucket-Algorithmus in Redis, der als single source of truth für alle Worker-Instanzen dient. Das Prinzip: Ein virtueller Bucket hält zu jedem Zeitpunkt maximal max_tokens Token. Er füllt sich mit einer festen Rate (refill_rate Token pro Sekunde), niemals über das Maximum. Jeder Request konsumiert eine definierte Anzahl Token, proportional zur erwarteten Token-Nutzung am API-Endpunkt. Ist der Bucket leer, wird der Request nicht geblockt, sondern sofort auf einen Fallback-Pfad umgeleitet. Die kritische Anforderung: absolute Atomarität. Zwei Worker, die gleichzeitig prüfen ob Token verfügbar sind, dürfen nicht beide „ja" antworten, wenn nur noch ein Token vorhanden ist. Deshalb ist die gesamte Check-and-Decrement-Logik als Lua-Skript implementiert, das Redis nativ serverseitig atomar ausführt – ohne Netzwerk-Round-Trip zwischen Check und Decrement.

Automatisiertes Zero-Latency Fallback auf Edge-Modelle

Wenn der Bucket erschöpft ist, greift innerhalb von Millisekunden ein intelligentes Routing. Die Anfrage wird klassifiziert: Ist es eine einfache Intent-Klassifizierung oder ein Routing-Entscheid? Dann genügt ein lokal gehostetes Llama-3-8B-Instruct über Ollama – Latenz unter 300 ms, keine API-Kosten, keine externen Abhängigkeiten. Ist es eine komplexe Analyse? Dann landet die Anfrage in einer persistenten Redis-Queue (RPUSH/BLPOP-Muster) mit Prioritäts-Scoring und wird beim nächsten verfügbaren Token-Budget abgearbeitet. Unsere historische Loganalyse ergab, dass 78 % aller Support-Klassifizierungen und 84 % aller Routing-Entscheide mit dem kleinen lokalen Modell qualitativ äquivalente Ergebnisse liefern, gemessen an einer manuell bewerteten Holdout-Stichprobe von 2.000 Anfragen.

import redis
import time
from typing import Literal

class RateLimitedDispatcher:
    def __init__(self, limit_key: str, max_tokens: int, refill_rate: float):
        self.pool = redis.ConnectionPool(host='localhost', port=6379, db=0, max_connections=20)
        self.r = redis.Redis(connection_pool=self.pool)
        self.key = limit_key
        self.max_tokens = max_tokens     # e.g. 500 RPM budget
        self.refill_rate = refill_rate   # e.g. 8.33 tokens/sec for 500 RPM
        self._start_refill_loop()

    def _start_refill_loop(self):
        import threading
        def refill():
            while True:
                lua = '''
                local current = tonumber(redis.call('get', KEYS[1]) or 0)
                local new = math.min(current + tonumber(ARGV[1]), tonumber(ARGV[2]))
                redis.call('set', KEYS[1], new)
                return new
                '''
                self.r.eval(lua, 1, self.key, self.refill_rate, self.max_tokens)
                time.sleep(1)
        threading.Thread(target=refill, daemon=True).start()

    def execute_with_fallback(self, prompt: str, complexity: Literal['simple', 'complex']):
        lua_check = '''
        local tokens = tonumber(redis.call('get', KEYS[1]) or ARGV[1])
        if tokens >= tonumber(ARGV[2]) then
            redis.call('decrby', KEYS[1], ARGV[2])
            return 1
        end
        return 0
        '''
        has_token = self.r.eval(lua_check, 1, self.key, self.max_tokens, 1) == 1

        if has_token:
            return self._call_premium_api(prompt)
        elif complexity == 'simple':
            return self._call_local_llama(prompt)  # Zero-latency edge model
        else:
            job_id = f'job:{int(time.time()*1000)}'
            self.r.rpush('premium_queue', f'{job_id}|{prompt}')
            return {'status': 'queued', 'job_id': job_id, 'eta_sec': 30}

Monitoring und Metriken

Zusätzlich zum Queue-Manager implementierten wir Prometheus-Metriken, die den aktuellen Token-Bucket-Füllstand, die Fallback-Rate (Premium vs. Edge-Modell) und die Queue-Tiefe in Echtzeit exportieren. Grafana-Dashboards visualisieren diese Metriken mit 15-Sekunden-Granularität. Seit dem Deployment liegt die 99th-Percentile-Latenz stabil unter 2.5 Sekunden, die Fallback-Rate auf das Edge-Modell während Peak-Zeiten bei 22 %, und kein einziger 429-Error ist mehr im Application-Log aufgetaucht.