Liste de vérification de la préparation de l’exploration de données

Bien que les compléments d’exploration de données facilitent la création et l'expérimentation de modèles de manière amusante, lorsque vous devez obtenir des résultats reproductibles et exploitables, il est essentiel de consacrer suffisamment de temps à formuler les exigences métier fondamentales et à obtenir et préparer les données. Cette section fournit une liste de contrôle pour vous aider à planifier votre investigation et à décrire les problèmes courants.

Liste de vérification de la préparation des données

J’ai identifié une sortie clairement définie.
Planifiez la façon dont vous utiliserez les résultats. Différents types de modèles ont des sorties différentes. Un modèle de série chronologique génère des valeurs pour une série à l’avenir, qui sont facilement comprises et exécutées. D’autres modèles génèrent des ensembles complexes qui doivent être analysés par des experts de la matière pour produire la plus grande valeur.

Quelle sortie voulez-vous ?
Pouvez-vous définir la sortie en tant que colonne ou valeur unique, ou d’autres résultats actionnables ?
Quels sont vos critères pour savoir que le modèle était utile ?
Comment allez-vous utiliser et interpréter ces résultats ?
Pouvez-vous mapper de nouvelles données d’entrée aux résultats attendus ?

Je connais la signification, les types de données et la distribution des données d’entrée.
Prenez un certain temps pour explorer et comprendre vos données sources. Il est important que les personnes qui examinent le modèle comprennent le type de données d’entrée utilisées et savent comment interpréter les types de données et la variabilité, ainsi que l’équilibre et la qualité.

Combien de données avez-vous ? Existe-t-il suffisamment de données pour la modélisation ?

Il n’a pas besoin d’être une quantité énorme - plus petite et équilibrée peut être meilleure.
Les données provenant de plusieurs sources ou d’une seule source ?
Les données sont-elles déjà traitées et nettoyées ? Plus de données d’entrée sont-elles disponibles ?
Savez-vous comment il a été manipulé avant de le recevoir : comment les données ont-elles pu être tronquées, résumées ou converties ?
Les données d’entrée ont-elles des exemples de résultats qui peuvent être utilisés pour l’entraînement ?

Je comprends le niveau d’intégrité des données que nous avons et le niveau dont nous avons besoin.
Les données incorrectes peuvent affecter la qualité du modèle ou empêcher la génération du modèle. Vous devez avoir une bonne compréhension de la distribution et de la signification des données et de la façon dont elles sont arrivées à cet état. Vous devez comprendre s’il est possible ou approprié de simplifier les données en étiquetant, en tronquant des types de données numériques ou en récapitulant.

Étiquettes de données : sont-elles claires et correctes ?
Types de données : sont-ils appropriés et ont-ils été modifiés ?
Avez-vous trié, nettoyé ou ignoré des données incorrectes ?

Avez-vous vérifié qu’il n’y a pas de doublons ?
Comment gérer les valeurs manquantes ? Les valeurs manquantes ont-elles une signification ?
Avez-vous vérifié les sources pour voir si des erreurs auraient pu être introduites dans le processus d’importation ?

Où est stockée l’entrée ? Combien de temps reste-t-il disponible ?

Existe-t-il un dictionnaire de données ? Pouvez-vous en créer un ?
Si vous avez combiné des jeux de données, avez-vous vérifié plusieurs colonnes représentant les mêmes données ?

Je sais où les données sources sont stockées, où elles proviennent et comment elles sont traitées. Le processus peut être facilement répété si nécessaire.
Les jeux de données ponctuels sont parfaits pour les expériences, mais si vous souhaitez jamais déplacer le modèle en production, vous devez réfléchir à l’avance à la façon dont le processus de nettoyage peut être appliqué aux données opérationnelles. En outre, si vous avez des données opérationnelles, vous devez savoir comment elle a peut-être été modifiée avant que vous ne l’ayez obtenue, vous devrez savoir comment elle a été arrondie ou résumée, certainement.

Voulez-vous pouvoir répéter l’expérience ?
Quels outils utiliserez-vous pour préparer des données dans un format prenant en charge l’analyse des données ? Peut-il être automatisé ou avez-vous besoin d’une personne pour passer en revue et nettoyer dans Excel ?
Si vous approvisionnez des données à partir d’un autre système, pourrez-vous capturer et suivre les filtres qui ont été appliqués ?
Votre infrastructure de traitement des données peut-elle également appliquer des algorithmes de Machine Learning, effectuer des tests et visualiser les résultats ?

Nous avons convenu de la granularité souhaitée des prédictions et de nos données ont été modifiées pour générer ces unités.
Choisissez la granularité des résultats souhaités avant de préparer des données, par exemple, voulez-vous des prédictions de ventes par jour ou pour chaque trimestre ? Vous pouvez envisager de configurer différentes structures de données pour les mêmes données afin de gérer différents niveaux de résumé.

Quelle est l’unité actuelle de mesure ou d’unité de temps ?

Quelle unité voulez-vous utiliser dans les résultats ?
Est-il possible de définir une unité de base (par exemple, jour/heure/min/appel d’instruction) pour toutes les données d’entrée ?

Voulez-vous regrouper vers des unités plus grandes ?
Les catégories sont-elles étiquetées de manière cohérente ? Est-il facile d’ajouter ou de supprimer des catégories ?

Notre conception expérimentale est répétable et reproductible.
Envisagez des stratégies d’analyse et de validation de vos résultats et prévoyez de capturer un instantané de données pour vous assurer que vous pouvez tracer les effets vers les données. Si une valeur initiale aléatoire est utilisée, les résultats peuvent différer de manière subtile. Cela peut compliquer la comparaison et la validation des modèles.

Si vous apportez beaucoup de modifications personnalisées aux données, que se passe-t-il la prochaine fois que vous souhaitez générer le modèle ?
Une procédure manuelle ou un processus approuvé a-t-il déjà été défini pour traiter les entrées et obtenir les sorties souhaitées ?
Avez-vous décidé d’utiliser une valeur initiale pour le modèle ?

Nous avons les connaissances du domaine pour valider les résultats, ou avoir accès à des experts en matière qui peuvent conseiller.
Prenez le temps de valider les variables, le modèle et les résultats. Obtenez l’aide des experts pour évaluer les interactions et les résultats. Toutefois, ne laissez pas les hypothèses dépasser les preuves. Soyez ouvert aux découvertes nouvelles et inattendues.

Les connaissances relatives au domaine sont-elles disponibles pour filtrer les données et réduire le bruit d’entrée ?
Les experts du domaine peuvent-ils comprendre les résultats et suggérer des améliorations ?

Voir aussi

Choix des données pour l’exploration de données

Last updated on 2017-12-29

Liste de vérification de la préparation de l’exploration de données

Liste de vérification de la préparation des données

Voir aussi

Ressources supplémentaires