rag-ingestor/docker-compose.yml at cce17f351778463d182a311141dfc1ed17db21c6

Files

Jean-Luc Makiola cce17f3517 perf: ollama cpu-cap (2 cores) gegen ingest-spikes

Embedding-Inferenz ist CPU-only und skaliert sonst auf alle Cores.
cpus: "2.0" + OLLAMA_NUM_PARALLEL=1 halten die Last konstant bei ~2
statt Peaks bis 8 Cores. Bewusster Trade-off: ~5x langsamere Bulk-
Laufzeit, dafuer predictable Host-Last (selten laufender Workload).
README dokumentiert, dass Coolify dieselben Limits spiegeln muss.

Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>

2026-05-18 18:59:30 +02:00

926 B

Raw Blame History

View Raw

926 B Raw Blame History

926 B

Raw Blame History