11061 - Sre – Site Reliability Engineer • 1 vaga

São Paulo, SP

Pleno

A combinar

Pessoa Jurídica

Detalhes da vaga

Procuramos um Site Reliability Engineer para atuar na confiabilidade, automação, resiliência e observabilidade dos ambientes de produção.O profissional será responsável por projetar, implementar e evoluir arquiteturas escaláveis e altamente disponíveis, além de desenvolver automações robustas e práticas de engenharia de confiabilidade alinhadas ao modelo SRE (SLI/SLO/SLA, error budget, incident management).Requisitos Técnicos:Forte experiência com sistemas Linux e Windows, troubleshooting de baixa e alta camada (processos, rede, storage, kernel).Domínio de Python (para automações, ferramentas internas, integrações e análise de dados).Experiência sólida com Ansible e Terraform (infraestrutura como código).Proficiência com Kubernetes (deployments, HPA, ingress, operators, troubleshooting avançado).Domínio de CI/CD (GitLab CI, GitHub Actions, Jenkins, Azure Devops ou similares).Experiência profunda em monitoramento e observabilidade (Prometheus/Grafana, ELK/EFK, Datadog, New Relic ou similares).Conhecimento avançado de redes (DNS, HTTP, SSL/TLS, balanceamento de carga, roteamento).Experiência com serviços distribuídos, microservices e arquiteturas baseadas em APIs.Forte atuação em gestão de incidentes, RCA, elaboração de post-mortems e mitigação preventiva.Responsabilidades Técnicas:Projetar, implementar e manter pipelines de automação, infraestrutura e rotinas operacionais usando ferramentas como Ansible, Terraform e Python.Implementar e evoluir SLIs, SLOs e error budgets, garantindo métricas de confiabilidade para serviços críticos.Construir e manter sistemas de observabilidade (logs, métricas, tracing), definindo dashboards, alertas e estratégias de resposta a incidentes.Atuar no incident response, incluindo mitigação, post-mortems, análise de causa raiz e proposição de melhorias sistêmicas.Projetar e manter ambientes containerizados e orquestrados (Docker e Kubernetes), incluindo deployments, escalabilidade e health checks.Otimizar desempenho, disponibilidade e resiliência de serviços distribuídos.Automatizar processos de provisioning, configuração e deploy usando IaC e pipelines CI/CD.Trabalhar em parceria com Dev e Infra para criar soluções resilientes, padronizar ambientes e suportar releases.Aplicar práticas de Chaos Engineering para identificar pontos fracos e aumentar robustez.Contribuir para a cultura DevOps, padronizando processos, automatizando rotinas e reduzindo trabalho manual (Toil).Diferenciais Técnicos:Experiência com Service Mesh (Istio, Linkerd).Conhecimento de mensageria (Kafka, RabbitMQ, SQS).Experiência com bancos SQL e NoSQL (PostgreSQL, Redis, MongoDB, Cassandra).Experiência com plataformas cloud (GCP e Azure).Background em segurança (DevSecOps, hardening, automação de compliance).Benefícios PJ:Descanso remunerado: 12 dias;Dayoff – um dia no mês do aniversário;PLR: de 0,5 salário até 2 salários;Gympass.

Requisitos

Outros requisitos

Perfil Desejado:Forte capacidade de autonomia, ownership e liderança técnica.Visão arquitetural e entendimento profundo de ambientes complexos e distribuídos.Excelência em diagnóstico e resolução de problemas sob pressão.Mentalidade de automação: elimina trabalho manual sistematicamente.Comunicação clara, objetiva e técnica para atuar com múltiplas áreas.Cultura de melhoria contínua, excelência operacional e engenharia de confiabilidade.

Benefícios

Participação nos Lucros ou Resultados