Service disruptions continue to blindside businesses https://www.helpnetsecurity.com/2024/12/26/service-disruptions-concern/ #disruption #PagerDuty #software #report #survey #News
'The #OpenSource tools that could disrupt the entire #IT #IncidentManagement market"
LOL no! Grafana is great for what it is, but no to this headline LOL!
#Grafana #PagerDuty #AIOps #Observability #O11Y #FOSS #OSS #VictorOps # Splunk #OnCall #XMatters #SRE #DevOps
Key Features of #Gatus Health Monitoring:
Comprehensive endpoint #monitoring supporting HTTP, ICMP, TCP, and DNS checks with detailed evaluation conditions for status codes, response times, and more
Advanced Alerting Capabilities:
Integration with 15+ platforms including #Slack, #Discord, #PagerDuty, and custom webhooks
Configurable failure thresholds and alert conditions
Technical Highlights:
Built with #Golang, deployable via #Docker, #Kubernetes, or #Terraform
Supports #Prometheus metrics, #TLS encryption, and #OIDC authentication
Includes #API access and status badge generation
Developer-Friendly Features:
Easy YAML configuration with live reload support
Supports multiple storage backends (Memory, #SQLite, #PostgreSQL)
Detailed health dashboard with dark mode support
Deployment Options:
Available as Docker container, Helm chart, or standalone binary
Flexible configuration for custom paths, ports, and security settings
AI CoPilot в ИТ-мониторинге: перспективный тул или “Книга вредных советов”?
По мере развития генеративного ИИ, вендоры в сфере ИТ-мониторинга работают над созданием инструментария AI CoPilot. Название тула пошло от представления, что управление ИТ-инфраструктурой подобно пилотированию самолетов. В случае инцидента пилоты пользуются «Руководством по летной эксплуатации» (РЛЭ) и «Аварийной картой» для быстрого решения проблемы, стремясь сохранить контроль над ситуацией. AI Copilot (второй пилот, 2/П в терминах авиации) помогает сотруднику ITOps (в роли КВС) быстро проанализировать данные мониторинга, найти в базе данных описание похожего инцидента, предложить путь решения проблемы и затем автоматически запротоколировать событие в журнале инцидентов (Postmortem).
Celebrating that I got to delete the #pagerduty app from my phone.
Alarm? Sidekiq auf Maximum? Mitten in der Nacht? Was ist da los?
Oh, da scheint jemand gut 6000 Posts gelöscht zu haben (macht etwa 500k Sidekiq-Jobs, woraufhin der Autoscaler oben angeschlagen ist, aber mit maximal 50 Sekunden Verzögerung ist die Lastspitze eigentlich ganz gut abgefangen worden).
It looks like the #pagerduty web UI *still* uses US middle-endian MM/DD/YYYY date format, and that there is no way to change this?