Le Lead Data Engineer est responsable de la conception, du développement et de l’exploitation des chaînes de collecte, de transformation, de stockage et de mise à disposition des données au sein du système d’information de l’entreprise. Il joue un rôle central dans l’industrialisation des usages data en garantissant la fiabilité, la performance, la scalabilité et la sécurité des flux de données nécessaires aux équipes métiers, aux Data Analysts et aux Data Scientists.
Missions principales:
- Les architectures de collecte, de traitement et de stockage des données adaptées aux besoins métiers
- Les pipelines de données batch et/ou temps réel (ingestion, transformation, chargement)
- La documentation technique (schémas, flux, dictionnaires de données, règles de gestion)
- La performance, la disponibilité et la fiabilité des flux et des traitements de données
- La qualité des données tout au long de leur cycle de vie
- L’exécution des batchs, jobs et automatisations en production
- Les indicateurs de supervision, de monitoring et de validité des modèles industrialisés
- La collecte des données via API, fichiers, bases de données, flux streaming ou sources externes
- Le nettoyage, la transformation et la structuration automatisée des données
- La mise à disposition des données pour les usages analytiques, décisionnels et opérationnels
- La mise en production, la maintenance et le support des pipelines data et des modèles
- Le respect des règles de sécurité, de gouvernance et de conformité réglementaire (RGPD)
- Aux ateliers d’expression des besoins avec les équipes métiers
- A la collaboration avec les Data Analysts, Data Scientists et Data Architects
De formation BAC+5 Ecole d’ingénieurs en informatique avec une spécialiation en data science ou en statistiques ou équivalent
Expérience de 5 ans dans un poste similaire
Compétences métier :
- Conception et développement de pipelines de données (ETL / ELT)
- Maîtrise des environnements Big Data (Hadoop, Spark, Hive)
- Maîtrise des bases de données SQL et NoSQL
- Programmation : Python, Scala, Java
- Outils de streaming et de gestion de flux (Kafka, Flink…)
- Environnements cloud et conteneurisation
- Connaissances en sécurité des données et RGPD
Compétences comportementales :
- Rigueur et sens de la qualité
- Esprit d’équipe et collaboration transverse
- Capacité d’analyse et de résolution de problèmes
- Sans des priorités et des délais
- Curiosité technologique et capacité d’adaptation