Netflix améliore l'expérience client, augmente l'efficacité et réduit les coûts grâce aux flux de données Amazon Kinesis
AWS traite et enrichit plusieurs téraoctets par jour, ce qui représente des milliards d'événements, avec des temps de réponse inférieurs à 1 seconde pour les requêtes analytiques.
Netflix emploie Amazon Web Services (AWS) pour pratiquement tous vos besoins de calcul et de stockage, y compris les bases de données, les analyses, les moteurs de recommandation, le transcodage vidéo… des centaines de fonctionnalités qui utilisent ensemble plus de 100 000 instances de serveur sur AWS.
Il en résulte un environnement réseau dynamique et extrêmement complexe dans lequel les applications communiquent en permanence au sein d'AWS et sur Internet. Le surveiller et optimiser votre réseau Il est essentiel pour Netflix de continuer à améliorer son expérience client, en augmentant son efficacité et en réduisant ses coûts.
Netflix avait notamment besoin d'une solution pour ingérez, augmentez et analysez les plusieurs téraoctets de données générés par votre réseau quotidiennement sous forme de journaux de flux de cloud privé virtuel (VPC). Cette solution permettrait à Netflix d'identifier des opportunités d'amélioration des performances, par exemple en déterminant quelles applications communiquent entre les régions et en les plaçant. L'entreprise pourrait également augmenter la disponibilité en détectant et en atténuant rapidement les temps d'arrêt des applications.
Chaque enregistrement contient des informations sur les communications entre deux adresses IP. Cependant, dans un environnement dynamique comme Netflix, où une adresse IP peut basculer entre les applications de jour en jour, voire de minute en minute, les adresses IP n'ont pas beaucoup de sens. « Les sources des données dont nous disposions avant de lancer cette initiative étaient unilatérales », indique-t-il. John Bennett, ingénieur logiciel exécutif chez Netflix.
« Nous savions qu'une application était connectée à d'autres, mais nous ne connaissions pas les deux côtés de la conversation et nous ne savions pas comment optimiser ces communications ni l'emplacement des applications sur le réseau », souligne-t-il.
Netflix a décidé d'établir une nouvelle source de données qui fournirait plus d'informations sur la communication entre les applications et les régions en combinant les journaux de flux VPC avec les métadonnées des applications.
Dès le début, AWS a permis à Netflix d'expérimenter différentes approches pour analyser les données de son réseau. « Au début du processus de conception, la flexibilité nécessaire pour essayer différentes manières de traiter les données était importante », explique Bennett. « Nous avons essayé plusieurs modèles et utilisé de nombreux produits AWS pour en arriver là. »
La solution finalement mise en œuvre par Netflix, connue en interne sous le nom de Dredge, centralise les enregistrements de flux avec Flux de données Amazon Kinesis. L'application lit les données d'Amazon Kinesis Data Streams en temps réel et enrichit les adresses IP avec les métadonnées de l'application pour fournir une image complète de l'environnement réseau.
Bennett déclare : « Les données sont généralement introduites dans une base de données pour créer un index permettant des requêtes rapides. Dredge fusionne les journaux de flux avec les métadonnées de l'application en les diffusant et en les indexant sans utiliser de base de données, ce qui élimine beaucoup de complexité.
Les données riches parviennent à une application d'analyse open source appelée Druid. Netflix utilise la fonctionnalité de requête OLAP de Druid pour diviser rapidement les données en régions, zones de disponibilité et plages horaires. Cela facilite la visualisation et donne un aperçu du comportement et du fonctionnement du réseau.
AWS était un choix logique pour Dredge, en partie parce que les données résident déjà dans le cloud AWS. « Il aurait été difficile de publier, transmettre et consommer autant d'informations à partir d'un système externe comme Kafka », explique Bennett. « Il n'a fallu que quelques appels d'API pour centraliser plusieurs téraoctets de journaux de flux dans Amazon Kinesis Data Streams. Nous pouvons désormais nous concentrer sur l'extraction de plus d'informations à partir des données au lieu de simplement y accéder.
Le évolutivité Amazon Kinesis Data Streams est bien adapté à l'application Dredge en raison de la nature élastique et cyclique de l'utilisation du réseau sur Netflix. « En ce qui concerne nos données réseau, il est plus rentable de pouvoir évoluer, ce qui n'est pas aussi simple avec d'autres alternatives à Amazon Kinesis Data Streams », explique Bennett.
Surveillance du réseau en temps réel
La solution basée sur Amazon Kinesis Streams de Netflix s'est révélée hautement évolutive, traitant des milliards de flux de trafic par jour. En règle générale, environ 1 000 partitions Amazon Kinesis fonctionnent en parallèle pour traiter les données en streaming.
« Amazon Kinesis Data Streams traite plusieurs téraoctets de données de journaux par jour, et pourtant les événements apparaissent dans nos analyses en quelques secondes », explique Bennett. « Nous pouvons découvrir et répondre aux problèmes en temps réel, garantissant ainsi une haute disponibilité et une expérience client exceptionnelle. »
Désormais, Netflix peut identifier de nouvelles façons d'optimiser ses applications, par exemple en déplaçant une application d'une région à une autre ou en passant à un protocole réseau mieux adapté à un type de trafic spécifique. « Notre solution basée sur Amazon Kinesis nous permet d'identifier des moyens d'augmenter l'efficacité, de réduire les coûts et d'améliorer la résilience afin d'améliorer l'expérience client », explique Bennett.
Bien qu'une solution de transmission de données ne soit pas nouvelle dans le secteur informatique, il s'agit d'une innovation dans le domaine des réseaux. « Netflix investit massivement dans AWS, en partie parce qu'il synthétise le réseau sous-jacent, nous n'avons donc pas à nous soucier des commutateurs et des routeurs », explique Bennett. "Nous pouvons désormais surveiller, analyser et optimiser à un niveau supérieur de la pile. Cela n'aurait jamais été possible avec nos centres de données."
Avez-vous aimé cet article ?
Abonnez-vous à notre BULLETIN et vous ne manquerez de rien.




