Your browser doesn't support the features required by impress.js, so you are presented with a simplified version of this presentation.

For the best experience please use the latest Chrome, Safari, or Firefox 10.

Log Management and Analysis

Big data

Pourquoi collecter ?


Collecting logs goal
111

Log - Un lexique de l'écosystème


Big Data : ensembles de données tellement volumineux que des outils classiques de gestion de base de données ou de gestion de l'information ne siffisent plus.

Message Broker : intermédiaire de stockage entre un émetteur et un récepteur

Inverted index : list of all the unique words that appear in any document, and for each word, a list of the documents in which it appears

Machine-generated datas : Big data generated by your technology infrastructure, security systems and business application

Machine learning : apprentissage automatique d'une machine par IA

Operational Intelligence : category of real-time dynamic, business analytics that delivers visibility and insight into data, streaming events and business operations

Log Shipper : transport des logs depuis les systèmes producteurs

Watcher : alertes sur la donnée consolidée

Machine-generated datas kesako ?


  1. Log events
  2. Security events
  3. Security risks and threats
  4. Network activity
  5. Fraudulent activity
  6. User clickstreams and transactions
  7. Machine behavior
  8. Capacity consumption
  9. Customer experience
  10. Customer behavior

Qu'est-ce qu'un log ?


195.70.14.162 - - [12/Nov/2015:04:12:18 +1100] "GET /sites/default/files/js/js_33BaXx14mLWwIKRLHiDD1YUISrtmHDN9BKx9c77CeZ0.js HTTP/1.1" 200 826 "https://service-public.nc/" "Mozilla/5.0 (Windows NT 6.2; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/46.0.2490.80 Safari/537.36"

  1. Des formats de dates hétérogènes
  2. Une structure de champs variable
  3. Des données non structurées
  4. Des informations illisibles par un humain
  5. Un volume très important
  6. Une visibilité et une analyse impossible en l'état

Machine-generated datas In


Machine data

Operational Intelligence Out


Operational Intelligence

Turn Machine Data Into Insights


Turn Machine Data Into Insights

Turn Machine Data Into Insights


Turn Machine Data Into Insights

Principe d'Architecture


Archi ELK

Quelles problématiques posées ?


  1. Collecter les logs de tous le SI : avec une faible empreinte
  2. Parser la donnée : RegExp avec un minimum de rejets
  3. Enrichir la donnée : à partir de tables de référence
  4. Traiter la donnée de masse : tendances, anomalies
  5. Indexer la donnée : sur la base de mots clef
  6. Visualiser la donnée hétérogène : de façon très visuelle
  7. Alerter intelligemment : sur la base de la donnée consolidée

Architecture à scalabilté horizontale


Archi ELK scale

Machine learning à la rescousse


Archi ELK ML

Quelques solutions de log management


  1. Splunk (payant)
  2. Logentries (payant cloud)
  3. Graylog (open)
  4. Elasticsearch - Logstash - Kibana (open)
  5. Loggly (payant cloud)
  6. Sumo Logic (cloud)
  7. JKool (cloud)
  8. ELSA (osbolète)
  9. Logzilla open
  10. Octopussy (osbolète)
  11. Scribe (osbolète)

Les solutions de log management retenues


  1. Splunk (payant) : le leader du marché et la référence
  2. ELK (open) : la solution portée par le mouvement DevOps
  3. Graylog (open) : veut être le Splunk Open source
Splunk logo
Splunk icon

Splunk - Pros


  1. Patterns de parsing très performants ex: 100% sur Apache
  2. Configuration entièrement dans la console web
  3. Nombreux modèles de données disponibles
  4. Très bonne assistance à la construction de requêtes : autosuggestion intelligente
  5. Accès contectuel à la documentation depuis l'outil
  6. Forum très fourni
Splunk icon

Splunk - Cons


  1. Console web pas toujours très intuitive
  2. Agregation (sum) difficiles à trouver
  3. Fonction avancée comme GeoIP non trouvée
  4. Trop monolithique
  5. Prix excessif
  6. Apps (plugin) : peu robustes
  7. Useragent pas optimisé et inopérant
  8. Sources d'information peu diversifiées
  9. Fonctions d'agrégation uniquement par requêtage
Graylog logo
Graylog icon

Graylog - Pros


  1. Open source
  2. Construction facile de widgets
  3. Fonctions d'agrégation par l'interface (sans requêtage)
  4. Fonction de gestion des accès par streams et dashboards
Graylog icon

Graylog - Cons


  1. Pas du tout intuitif
  2. Monolithique
  3. Pas d'injection de fichier : complexifie la configuration
  4. Outil de visualisation médiocre
  5. Pas de sélection de la plage temporelle sur un graphique
  6. Plage temporelle peu intuitive
  7. Pas de composant map
Elk logo
ELK icon

The Elastic Product Portfolio


ELK portfolio
ELK icon

ELK stack - Pros


  1. Architecture très scalable, flexible et modulaire
  2. Système très ouvert, grande communauté et adoption
  3. Chaque brique adresse une fonction très spécifique
  4. Compétences exploitables dans d'autres cas d'utilisation
  5. ES : Ecosystème dynamique, nombreux outils autour de ES
  6. ES : très performant, robuste, scalable, très rapide
  7. Logstash : filtres intégrés bien pratiques : geoip, useragent
  8. Kibana : facile à prendre en main, intuitif
  9. Kibana : fonctions d'agrégation par l'interface
  10. Kibana : Plage temporelle facile d'accès et sur graphique
ELK icon

ELK stack - Cons


  1. Difficile de trouver des configurations toutes faites
  2. Configuration à réaliser soit même
  3. Configuration manuelle pour la collecte
  4. Rejets lors du parsing : ex pour apache 5 rejets sur 5888
  5. Certaines fonctions clef sous licence : gestion des accès, gestion des watchers
ELK icon

La méthode d'évaluation


QSOS Logo
  1. QSOS pour formaliser l'évaluation
  2. Le formulaire au format mind map
  3. Les évaluations au format XUL

  1. Une étude de cas pour la mise en situation : Web Analysis
  2. Cas simple : histogramme des hits
  3. Cas avec agrégation : histogramme de la somme des bytes
  4. Cas avec enrichissement : camembert des user agents
  5. Cas avec géoréférencement : carte geoip





Elk logo
ELK icon

Les critères d'évaluation

Les critères généraux


  1. D - pérennité de la solution / obsolescence
  2. Faibles coûts
  3. Open source
  4. Equipe de développement active
  5. Visibilité de la roadmap et de l'issue tracker
  6. Forte communauté
  7. Qualité de la documentation
ELK icon

Les critères d'évaluation

Les critères fonctionnels


  1. Facilité d'installation et de maintenance
  2. Facilité de prise en main des outils
  3. Autonomie des utilisateurs pour l'analyse
  4. Gestion des accès
  5. Génération d'alertes
  6. Version mobile ?
ELK icon

Les critères d'évaluation

Les critères techniques


  1. D - self hosted
  2. Low latency
  3. Scalabilité
  4. Real time
  5. Modularité
  6. Interopérabilité, archi woa ?
  7. Polyvalence
  8. Container friendly ?
ELK icon

Les résultats


  1. Préco QSOS : pondération par un tiers et pas l'évaluateur
  2. Un exemple de rendu QSOS sur ELK
Elk qsos

Le bilan


  1. Splunk est une bonne référence
  2. mais trop fermé et monolithique

  3. Graylog est prometteur et la gestion des accès est pratique
  4. mais mal fini surtout la visualisation peu ergonomique

  5. ELK très ouvert et en plein essor
  6. mais une partie de la configuration est manuelle
  7. la visualisation est très agréable et intuitive

Use a spacebar or arrow keys to navigate