Error Budget
Definition
Error Budget
Ein Error Budget ist der erlaubte Spielraum für Ausfälle innerhalb eines definierten Zeitraums. Es quantifiziert, wie viel Unzuverlässigkeit ein Service tolerieren kann, bevor das Team Stabilität über neue Features priorisieren muss.
Im Detail
Error Budgets werden aus SLOs abgeleitet. Hat ein Service ein SLO von 99,9% Verfügbarkeit, beträgt das Error Budget 0,1% des Messzeitraums. Für einen 30-Tage-Monat sind das etwa 43 Minuten erlaubte Ausfallzeit.
Wenn das Budget aufgebraucht ist, verlagert das Team den Fokus auf Reliability-Arbeit. Wenn das Budget voll ist, kann das Team schneller deployen und mehr Risiken eingehen. Dies schafft ein selbstregulierendes System, das Innovation und Stabilität ausbalanciert.
So hilft Tallence
Tallence hilft Teams, SLOs zu definieren und Error-Budget-Policies als Teil der SRE-Einführung zu implementieren.
Mehr über SRE erfahrenVerwandte Begriffe
Site Reliability Engineering (SRE)
Eine Ingenieursdisziplin, die Software-Praktiken auf den IT-Betrieb anwendet und SLOs sowie Error Budgets nutzt, um Zuverlässigkeit und Liefergeschwindigkeit auszubalancieren.
DevOps
Eine Engineering-Praxis, die Entwicklung und Betrieb um gemeinsame Ziele, automatisierte Pipelines und eine Kultur der kontinuierlichen Auslieferung vereint.
Cloud Foundation
Ein Managed-AWS-Landing-Zone-Service mit Governance, Drift-Erkennung, FinOps und 24/7-Incident-Response als laufendes operatives Engagement.
Weitere Begriffe entdecken
Alle Glossar-Begriffe→FinOps
Ein operatives Framework, das Technologie, Finanzen und Business verbindet, um Cloud-Ausgaben mit Verantwortlichkeit und Transparenz zu steuern.
Hybrid Cloud
Eine Komposition aus zwei oder mehr Cloud-Umgebungen (privat, Community oder öffentlich), die durch Technologie verbunden sind und Daten- sowie Anwendungsportabilität ermöglichen.
Private Cloud
Eine dedizierte IT-Umgebung, die ausschließlich von einem Unternehmen genutzt wird und maximale Kontrolle über Daten, Netzwerk und Konfiguration bietet.
Microservices
Ein Architekturmuster, bei dem Anwendungen in unabhängig deploybare Services zerlegt werden, die jeweils ihre Domäne, Daten und ihren Deployment-Lifecycle besitzen.
Cloud-native Entwicklung
Anwendungen, die von Grund auf für die Cloud konzipiert werden und Container, Kubernetes, Serverless-Funktionen und deklarative Infrastruktur nutzen.
Testautomatisierung
Der Einsatz spezialisierter Tools und Frameworks zur automatischen Validierung von Software, um Regressionen in jeder Pipeline-Stufe vor der Produktion zu erkennen.