Développeur·se fiabilité des sites// SRE

7 days ago

Montreal, Quebec, Canada Plusgrade Full time $60,000 - $90,000 per year

**English is available below***

Les voyages vont bien au-delà de leur destination ; ils sont tissés de chaque souvenir que l'on crée en chemin. Notre engagement consiste à redéfinir l'avenir du voyage en collaborant avec plus de 250 compagnies aériennes, établissements hôteliers, sociétés de croisières, réseaux ferroviaires pour voyageurs et services financiers, dans le but de créer de nouvelles sources de revenus significatives grâce à des expériences client exceptionnelles. Fondés sur nos valeurs fondamentales d'ambition, d'innovation et de collaboration, nous sommes constamment poussés à repousser les limites, à surpasser les attentes et à exploiter le meilleur de chacun. Nous favorisons une culture qui repose sur la conviction que notre force réside dans notre unité, travaillant ensemble pour bâtir un avenir extraordinaire dans l'univers du voyage. Joignez-vous à nous pour transformer les voyages quotidiens en expériences véritablement extraordinaires.
À PROPOS DU POSTE:
Plusgrade est à la recherche d'un Ingénieur fiabilité des sites (SRE) pour aider notre équipe à créer des solutions logicielles fiables répondant aux besoins de nos clients. En tant qu'Ingénieur fiabilité des sites (SRE), tu seras responsable d'améliorer la surveillance et l'observabilité de nos différents systèmes de production ainsi que de l'infrastructure de soutien (AWS et systèmes corporatifs). Tu participeras également à la mise en œuvre de solutions visant à améliorer la disponibilité des systèmes et à garantir le respect de nos accords de niveau de service (SLA). Pour réussir dans ce rôle, tu devras être un excellent résolveur de problèmes, doté d'une solide compréhension d'un large éventail de technologies logicielles, de concepts de réseautage, d'orchestration de conteneurs et d'outils de surveillance. Ce poste fait partie de l'équipe Engineering Operations, est basé à Toronto ou Montréal, et relève du Directeur, opérations TI. Nous croyons fermement qu'il existe de nombreuses opportunités stimulantes dans le domaine des technologies du voyage. Si tu es motivé à nous aider à en relever certains défis, nous aimerions te rencontrer

CE QUE VOUS FEREZ:
• Améliorer l'alerte et la détection des problèmes au sein des déploiements et de l'infrastructure existants (services, fournisseurs tiers, etc.) afin de garantir que l'équipe des opérations reçoive des alertes rapides et pertinentes.
• Concevoir et maintenir une surveillance active testant nos services de bout en bout.
• Surveiller la latence des applications et créer des rapports pour suivre les temps de réponse par rapport aux objectifs des SLA.
• Concevoir et permettre à l'organisation de créer, améliorer ou utiliser des tableaux de bord accessibles à tous.
• Améliorer la détection des incidents et des erreurs, en assurant le suivi des actions ayant un impact sur la coordination et en favorisant une résolution plus rapide.
• Consolider les différentes solutions de surveillance afin d'améliorer l'efficacité et de réduire les coûts.
• Évaluer en continu les systèmes existants par rapport aux standards de l'industrie et formuler des recommandations d'amélioration.
• Mettre en œuvre les meilleures pratiques de l'industrie en matière de durcissement des systèmes et de gestion de la configuration.
• Améliorer le flux de déploiement et la chaîne CI/CD en renforçant l'observabilité des applications et de l'infrastructure.
VOUS ÊTES UNE PERSONNE AVEC:
• Plus de 5 ans d'expérience technique pertinente.
• Solide compréhension des protocoles réseau de base (HTTP, DNS, TLS, TCP, UDP).
• Expérience avec les déploiements Kubernetes et les définitions de ressources personnalisées (CRD).
• Capacité à dépanner ArgoCD et Argo Rollouts dans un environnement de déploiement canari.
• Bonne connaissance pratique des pare-feux applicatifs Web (WAF) et des réseaux de diffusion de contenu (CDN) tels que Cloudflare.
• Capacité à rassembler différentes sources de données (journaux, métriques, traces) pour identifier les goulots d'étranglement dans les systèmes applicatifs, au sein de notre infrastructure ou entre les services tiers.
• Esprit hautement analytique, capable de voir à la fois la vue d'ensemble et les détails.
• Excellentes compétences interpersonnelles ainsi qu'en communication écrite et orale.
• Expérience pratique dans la conception d'applications infonuagiques sécurisées, fiables, performantes, évolutives et rentables sur AWS.
• Expérience pratique avec des outils de gestion de clusters et des plateformes infonuagiques (telles qu'AWS ECS, AWS EKS, GCP, etc.).
• Capacité à écrire des scripts en Python et à analyser des traces de pile (stack traces).
• Expérience avec des outils de surveillance tels que Splunk, Datadog, New Relic, CloudWatch, Zabbix ou Prometheus.

CE SERAIT UN PLUS:
• Expérience dans la connexion d'applications et de sources de données entre différents fournisseurs.
• Certifications d'architecte AWS.
• Expérience avec Terraform et OpenTelemetry.
NOTRE STACK TECHNOLOGIQUE: Déploiements : Helm, ArgoCD Surveillance : Splunk, Datadog, Grafana, CloudWatch Languages : Python, Bash CI/CD : GitLab, GitHub, Bitbucket
Cloud : AWS en multi-régions

CE QUE VOUS AIMEREZ CHEZ NOUS: REER de contrepartie Plans de santé complets Programme de congés payés flexible Allocation d'expérience de voyage Crédit annuel pour bien-être Événements d'équipe Allocation pour des fournitures de bureau / transport Programme de travail à distance Programme de prime de congé parental Passeport pour l'aventure

NOTRE PROCESSUS:Plusgrade est un employeur offrant des chances égales et s'engage à fournir un processus de recrutement accessible. Nous accueillons les candidatures de toutes les personnes qualifiées et nous sommes engagés à offrir des opportunités d'emploi égales, quel que soit l'identité ou l'expression de genre, la race, l'origine ethnique, la croyance, le lieu d'origine, l'âge, le sexe, l'état civil, le handicap physique ou mental, l'orientation sexuelle et toute autre catégorie protégée par la loi. Sur demande, nous fournirons un hébergement pour les candidats handicapés.Nous croyons en la diversité et l'inclusivité, c'est pourquoi notre processus d'entrevue est conçu pour offrir une expérience de candidat positive et garantir que chaque candidat est évalué de manière égale.
Toutes les candidatures seront examinées par notre équipe de talents et le ou les candidats retenus passeront par le processus de recrutement suivant:
• Entrevue téléphonique avec le
• Entrevue avec le responsable de l'embauche
• Test pratique à domicile ou exercice de codage à distance (le cas échéant)
• Entrevue en équipeTous les candidats recevront des commentaires, qu'ils réussissent ou non toutes les étapes de notre processus d'entrevue. Toutes vos informations seront confidentielles
Travel is not just about the destination; it's about every memory made along the way. We are dedicated to shaping the future of travel by partnering with 250+ airline, hospitality, cruise, passenger rail, and financial services companies to create new, meaningful revenue streams through incredible customer experiences. Rooted in our core values of being ambitious, innovative, and collaborative, we are driven to continuously raise the bar, exceed expectations, and bring out the best in everyone, fostering a culture where we believe we are better together, working towards an extraordinary future in travel. Come help us transform everyday travel into extraordinary experiences.
ABOUT THE ROLE:
Plusgrade is searching for a SRE (SRE) to help our team in creating reliable software solutions that meet our clients' needs. As a SRE (SRE) you will be responsible for improving the monitoring and observability of our various production systems and supporting infrastructure (AWS and corporate systems). You will also assist with implementing solutions to improve uptime and ensure that we are meeting our service level agreements. To be successful as a Site Reliability Engineer (SRE), you should be an expert problem solver with a strong understanding of a broad range of software technologies, networking concepts, container orchestration and monitoring tools available. This position is part of the Engineering Operations organization, will be located in Toronto/Montreal and will report into the Director IT Operations. We firmly believe there are many challenging opportunities in travel technology. If you are excited about helping us solve some of them, we would like to meet you

WHAT YOU WILL BE DOING:
• Improve alerting and detection of issues within existing deployment and infrastructure (services, 3rd parties, etc) ensuring Operations team receives quick and useful alerts
• Build and maintain active monitoring that tests our services end-to-end.
• Monitor application latency and create reports to track response times against SLA targets.
• Design and enable organization to build, improve or consume Dashboards, accessible to everybody
• Improve incident and error detection, with followup on actions that are impacting coordination, and a faster solutioning.
• Consolidate disparate monitoring solutions to improve efficiency and reduce cost.
• Continuously evaluate existing systems with industry standards, and make recommendations for improvement
• Implement industry best practices for system hardening and configuration management
• Improve deployment flow and pipeline by enhancing application or infrastructure observability
YOU ARE SOMEONE WITH:
• 5+ years of relevant technical experience.
• Solid understanding of basic network protocols (HTTP, DNS, TLS, TCP, UDP)
• Experience with Kubernetes deployments and custom resource definitions.
• Able to troubleshoot ArgoCD and Argo Rollouts in a canary deployment setup.
• Good working knowledge of web application firewalls and content delivery networks such as Cloudflare.
• Ability to pull together different sources of data (logs, metrics, traces) to find bottlenecks in application systems, within our infrastructure and between 3rd parties.
• Highly analytical mindset, with an ability to see both the big picture and the details.
• Exceptional interpersonal, written, and oral communication skills.
• Hands-on experience building secure, reliable, performant, scalable and cost effective cloud applications in AWS.
• Hands-on experience with cluster management tools and cloud platforms (such as AWS ECS, AWS EKS, GCP, etc. ).
• Able to write scripts in Python and parse stack traces.
• Experience with monitoring tools such as Splunk, Datadog, New Relic, CloudWatch, Zabbix, or Prometheus.
NICE TO HAVES:
• Experience connecting applications and data sources between different providers
• Architect certifications with AWS.
• Experience with Terraform and OpenTelemetry.

OUR TECH STACK: Deployments: Helm, ArgoCD Monitoring: Splunk, Datadog, Grafana, CloudWatch Languages: Python, Bash CI/CD: GitLab, Github, Bitbucket Cloud: AWS in multi-regions
WHAT YOU'LL LOVE ABOUT US: RRSP/401(k) Matching Comprehensive health plans Flexible Paid Time Off Annual upgrade credit Annual physical wellness credit Annual mental wellness credit Flexibility to work remotely Parental Leave Top Up Adventure Pass

OUR PROCESS: Plusgrade is an equal-opportunity employer and is committed to providing an accessible recruitment process. We welcome applications from all qualified individuals and are committed to equal employment opportunities regardless of gender identity or expression, race, ethnic origin, creed, place of origin, age, sex, marital status, physical or mental disability, sexual orientation, and any other category protected by law. Upon request we will provide accommodation for applicants with disabilities. If you have a preference regarding the language of your interviews, please inform our Talent Team when they reach out to you.

All applications will be reviewed from our Talent Team and the successful candidate(s) will go through the following recruitment process: Recruiter Phone Interview Hiring Manager Interview Take-home Assessment or remote coding exercise Team Interview
All candidates will be provided with feedback regardless if they pass or didn't pass any of our interview stages. All your information will be kept confidential. We may use artificial intelligence (AI) tools to support parts of the hiring process, such as reviewing applications, analyzing resumes, or assessing responses. These tools assist our recruitment team but do not replace human judgment. Final hiring decisions are ultimately made by humans. If you would like more information about how your data is processed, please contact us.

Développeur sénior ingénierie fiabilité des sites SRE IA

1 week ago

Montreal, Quebec, Canada National Bank of Canada Full time $90,000 - $120,000 per year

Une carrière en tant que Développeur sénior en ingénierie de fiabilité des sites (SRE) et intelligence artificielle dans l'équipe plateforme API Cartes et risque de crédit, à la Banque Nationale, c'est agir à titre d'expert·e en résilience des systèmes et intégration de l'intelligence artificielle générative. Cet emploi te permet d'avoir un...
Ingénieur fiabilité des infrastructures

6 days ago

Montreal, Quebec, Canada Tecsys Inc. Full time $60,000 - $120,000 per year

Ayant reconnu les avantages du travail à distance sur le bien-être des employés et l'environnement, notamment le moral des employés, la productivité, la réduction des trajets domicile-travail, nous sommes fière d'être une entreprise privilégiant le travail à distance. Les technologies et les programmes dans lesquels nous avons investi ont fourni...
SRE Specialist

1 week ago

Montreal, Quebec, Canada Intelcom | Dragonfly Full time $80,000 - $120,000 per year

Intelcom | DragonflyC'est plus de 100 stations de tri et des opérations sur trois continents. Leader canadien de la logistique du dernier kilomètre,on a une vision claire: offrir une livraison rapide, précise et fiable grâce à une technologie de pointe.Tu veux un emploi en pleine action où tu peux collaborer en équipe et voir l'impact direct de ton...
Ingénieur fiabilité/Ingénieure fiabilité

2 weeks ago

Montreal, Quebec, Canada c4ea4cfe-ad9a-4942-b76c-7313b7a65a32 Full time $90,000 - $120,000 per year

Contexte :Le groupe LGM, spécialiste du management et de l'ingénierie des grands projets, compte, 30 ans après sa création, plus de 1500 collaborateurs, répartis sur les 5 continents.Implanté à Montréal et Toronto, LGM North America, filiale du groupe LGM, se positionne comme véritable soutien aux concepteurs et opérateurs de grands systèmes...
sre

1 week ago

Montreal, Quebec, Canada 40ea5ed9-d248-4404-8b74-d362c729ca25 Full time $100,000 - $160,000 per year

Intelcom | DragonflyWith more than 100 sorting stations and operations across three continents, Intelcom | Dragonfly is Canada's leader in last-mile logistics. Our vision is clear: to deliver fast, accurate, and reliable service powered by cutting-edge technology.A Strategic Role at the Heart of LogisticsResponsibilitiesIncident Management: Detect and...
Consultant/e Développeur·se Senior

1 week ago

Montreal, Quebec, Canada Zenika Full time $90,000 - $120,000 per year

Qui sommes-nous ?Zenika est une entreprise technologique et un cabinet de conseil innovant, spécialisé dans la transformation numérique et l'accompagnement de ses clients sur les dernières technologies. Nous recherchons un·e Consultant·e Développeur·se Senior orienté·e architecture pour intervenir auprès d'un client majeur du secteur financier,...
Senior SRE #4871

1 week ago

Montreal, Quebec, Canada Alteo Full time $80,000 - $120,000 per year

Alteo is looking for a Senior SRE for a permanent position based in Montreal.Your main role will be to ensure the smooth running and optimization of operations (electronic banking industry), by recommending the implementation of methodological and technical solutions, while ensuring compliance with processes and regulations.Responsibilities:Define procedures...
Ingénieur en Fiabilité Matérielle

23 hours ago

Montreal, Quebec, Canada Lyft Full time $72,000 - $90,000 per year

Chez Lyft, notre mission est de servir et de connecter. Nous y parvenons en favorisant un environnement de travail où chacun trouve sa place et a la possibilité de s'épanouir.Responsabilités:Garantir la qualité et la fiabilité des produits, tant pour le maintien en service des produits déjà déployés que pour les nouveaux produits (NPI).Élaborer...
Ingénieur(e) principal(e), Fiabilité

23 hours ago

Montreal, Quebec, Canada VIA Rail Canada Full time $90,000 - $120,000 per year

Saviez-vous que VIA Rail a d'ambitieux projets de modernisation de ses services et de ses infrastructures? Qu'il s'agisse de notre nouvelle flotte de trains ultramodernes, ou de nos projets d'amélioration continue de nos infrastructures, nous préparons l'avenir du transport au Canada. Faire partie de VIA Rail c'est faire partie d'un effort collectif en...
Core L3 SRE

12 hours ago

Montreal, Quebec, Canada Atlantis IT Group Full time $120,000 - $160,000 per year

Technical/Functional Skills • 8+ years of overall IT experience.• Advanced Linux / Unix support experience required.• Strong shell scripting and python programming skills for SRE related activities required.• Experience on using Splunk OR Grafana/Prometheus/Loki stack required, preferably both.• General understanding on Veritas Cluster Service,...

Americas

Europe

Asia / Oceania

Africa

Développeur·se fiabilité des sites// SRE