D1. Collecte, représentation et analyse des données
Contenus d’apprentissage
Mises en application des données
D1.1
déterminer une situation courante comportant des mégadonnées et décrire les impacts et les conséquences potentielles de leur collecte, sauvegarde, représentation et utilisation.
- situations comportant des mégadonnées :
- données de recensement recueillies par le gouvernement;
- données personnelles concernant la santé et données biométriques;
- données personnelles des utilisateurs recueillies lors de l’achat de biens et de services dans des magasins ou en ligne;
- données personnelles des utilisateurs recueillies par le biais d’applications et de sites Web de médias sociaux et de l’historique de moteurs de recherche;
- mégadonnées utilisées dans l’apprentissage automatique;
- données personnelles centralisées concernant la condition physique collectées au moyen de sites Web et d’applications;
- données collectées pour des recherches scientifiques à grande échelle ou à long terme en climatologie ou en épidémiologie et en biologie des populations.
- impacts et conséquences potentiels :
- la capacité d’utiliser les données pour mieux évaluer des besoins en matière de programmes et de services communautaires afin de mettre en œuvre des changements concernant les politiques et le financement;
- la capacité de représenter et utiliser les données afin d’élaborer de campagnes publicitaires ciblées et d’évaluer leur succès et leur impact;
- la capacité d’affiner des données à des buts commerciaux, afin de déterminer les préférences individuelles et, en conséquence, les contenus auxquels les utilisateurs sont exposés en ligne;
- la capacité de favoriser les avancées dans la recherche et le développement scientifiques et technologiques;
- le besoin de protection de la vie privée et d’autres aspects liés à la sécurité dans la sauvegarde des données.
Les enseignantes et enseignants peuvent :
- faciliter des conversations en classe animées par les élèves sur des situations actuelles d’intérêt;
- inviter les élèves à partager leurs propres expériences sur les implications et les conséquences potentielles de la collecte, de la sauvegarde, de la représentation et de l’utilisation des données, en créant un environnement d’apprentissage inclusif et sécuritaire dans lequel les élèves se sentent à l’aise de partager;
- mettre en évidence les impacts et les conséquences de la collecte, de la sauvegarde, de la représentation et de l’utilisation des données des perspectives d’individus, de divers niveaux du gouvernement, d’entreprises et d’organismes communautaires;
- offrir aux élèves des occasions de réfléchir à la façon dont les données peuvent être représentées de façon erronée et utilisées pour induire le public en erreur.
- Quelles sont certaines situations quotidiennes dans lesquelles des données personnelles sont collectées? Qui fait la collecte de données? Qui pourrait s’en servir? De quelles façons pourrait-on s’en servir?
- De quelles façons l’importance de la confidentialité des renseignements personnels joue-t-elle contre l’importance pour la société de collecter certains types de données?
- Les plateformes de médias sociaux collectent en permanence des données sur leurs utilisateurs : ce que vous publiez et les messages que vous regardez et aimez, les personnes que vous suivez, les sujets que vous recherchez ou si vous vous attardez sur un message en faisant défiler le contenu d’une page. Les médias sociaux utilisent souvent ces données pour personnaliser votre expérience sur leur plateforme et partagent également ces données avec des tiers qui les utilisent pour cibler les publicités qui vous concernent personnellement. Quelles implications cela a-t-il sur la façon dont vous utilisez les médias sociaux?
- Les applications de cartographie qui affichent des renseignements sur le trafic obtiennent ces renseignements en suivant les téléphones des personnes dans le trafic. Quels sont les avantages et les inconvénients de cette méthode de collecte de données sur le trafic?
- Quels sont certains des défis liés à la collecte des données démographiques provenant des Premières Nations, Métis et Inuits? Quelles réponses à ces défis pourrait-on envisager?
- Comment de grandes quantités de données collectées sur une longue période (p. ex., données climatiques) peuvent-elles être utilisées pour faire des prédictions sur l’avenir?
Demandez aux élèves d’examiner comment les cryptomonnaies utilisent de grandes fermes de serveurs pour collecter, stocker et exploiter des renseignements. Demandez aux élèves de décrire les impacts de ces fermes de serveurs, y compris des quantités d’énergie qu’elles consomment.
Demandez aux élèves de discuter de la manière dont les données biométriques sont collectées et utilisées pour identifier des personnes à l’aide de logiciels de reconnaissance faciale. Demandez aux élèves de décrire les conséquences de la collecte, de la sauvegarde et de l’utilisation des données biométriques par diverses entreprises et organisations.
Demandez aux élèves d’examiner les sources des données utilisées pour observer les changements climatiques. Demandez-leur de discuter la manière dont ces données sont utilisées pour prédire des scénarios futurs et comment ces scénarios pourraient éclairer les mesures que les gens prennent maintenant.
Représentation et analyse de données
D1.2
représenter et faire une analyse statistique, de diverses manières, des données provenant d’une situation de la vie quotidienne comportant une variable, y compris en utilisant des valeurs de quartiles et des diagrammes de quartiles.
- situations de la vie quotidienne comportant une seule variable :
- la durée du trajet entre le domicile et l’école pour un groupe donné d’élèves;
- la quantité de pesticides trouvée dans des échantillons d’eau prélevés dans une rivière locale;
- la magnitude des tremblements de terre sur l’échelle de Richter dans une année donnée;
- les salaires des employés d’une organisation;
- la quantité de caféine ou de sucre contenue dans diverses boissons.
- diverses représentations :
- graphiques :
- diagramme de quartiles (communément appelé boîte à moustaches) pour représenter les données comportant une seule variable :
- graphiques :
- diagramme de quartiles empilé pour comparer les distributions de plusieurs groupes :
- numériques :
- mesures de tendance centrale (moyenne, médiane ou mode, selon le type de données);
- mesures de dispersion (étendue des valeurs et étendue interquartile);
- résumé en cinq nombres (valeur minimale, quartile inférieur, médiane, quartile supérieur et valeur maximale).
- analyse statistique :
- descriptions de la tendance centrale, de la dispersion, des valeurs aberrantes et de la distribution des données à partir de représentations numériques et graphiques.
Les enseignantes et enseignants peuvent :
- appuyer les élèves à sélectionner un ensemble approprié de données à partir d’une situation de la vie quotidienne comportant une seule variable;
- fournir les outils technologiques appropriés (p. ex., logiciels de statistiques, tableurs, logiciels de codage) nécessaires pour que les élèves représentent et analysent des données;
- revoir l’apprentissage des années précédentes lié aux représentations graphiques de données comportant une seule variable, comme les histogrammes, les diagrammes à tiges et à feuilles, les diagrammes circulaires et les divers types de diagrammes à bandes, et faire la distinction entre les données discrètes et les données continues;
- amener les élèves à comprendre les différences dans les mesures de tendance centrale et à déterminer les situations dans lesquelles chacune d’entre elles peut être appropriée;
- continuer d’appuyer les élèves à développer leurs habiletés en raisonnement proportionnel, y compris l’utilisation d’une échelle appropriée dans leurs représentations;
- appuyer les élèves à élargir leur répertoire de communication pour inclure un plus large éventail de terminologies et de conventions connexes, en particulier pour les apprenantes et apprenants du français.
- Comment déterminez-vous les valeurs des quartiles?
- Quelles sont les étapes à suivre pour créer un diagramme de quartiles?
- Quand un diagramme de quartiles devrait-il être utilisé pour représenter des données?
- Comment savoir quelles valeurs de données pourraient être aberrantes?
- Quels renseignements supplémentaires le diagramme de quartiles fournit-il par rapport à l’histogramme?
- Quels renseignements ne figurent pas dans un diagramme de quartiles, alors qu’ils figurent dans un diagramme à tiges et à feuilles?
Demandez aux élèves de représenter les émissions de CO2 en tonnes métriques par habitant des pays de plus de 20 millions d’habitants à l’aide de représentations graphiques et numériques appropriées.
Demandez aux élèves de décrire la forme, le centre, la dispersion et les valeurs aberrantes de la distribution des cyclones formés au-dessus du bassin atlantique chaque année au cours des 50 dernières années.
Demandez aux élèves de comparer les distributions du nombre moyen de points par match que deux joueurs de basket ont marqué au cours de chaque saison de leur carrière. Les élèves pourraient créer un diagramme de quartiles comme dans l’exemple ci-après :
Demandez aux élèves d’écrire un code utilisant des sous-programmes pour déterminer l’étendue d’un ensemble de données.
Voici un exemple de pseudocode pour un sous-programme qui parcourt un ensemble de données pour en déterminer le minimum.
Sous-programme trouverMinimum
Sous-programme trouverMinimum (ensembleDeNombres) |
nombreÉléments = nombre des éléments dans l’ensemble |
minimum = valeur du premier élément de l’ensemble |
numéroÉlément = 2 |
répéter lorsque (numéroÉlément <= nombreÉléments) |
Si la valeur de numéroÉlément < minimum |
minimum = valeur de numéroÉlément |
numéroÉlément = numéroÉlément + 1 |
Voici un exemple de pseudocode pour un sous-programme qui parcourt un ensemble de données pour en déterminer le maximum.
Sous-programme trouverMaximum
Sous-programme trouverMaximum (ensembleDeNombres) |
nombreÉléments = nombre des éléments dans l’ensemble |
maximum = valeur du premier élément de l’ensemble |
numéroÉlément = 2 |
répéter lorsque (numéroÉlément <= nombreÉléments) |
Si la valeur de numéroÉlément < maximum |
maximum = valeur de numéroÉlément |
numéroÉlément = numéroÉlément + 1 |
Voici un exemple de pseudocode qui fait appel aux deux sous-programmes pour déterminer l’étendue des données.
Programme principal
étendue = 0,00 |
exécuter sous-programme trouverMaximum |
exécuter sous-programme trouverMinimum |
étendue = maximum – minimum |
sortie « L’étendue de l’ensemble des données est, » étendue |
Le pseudocode ne représente pas un langage de programmation déterminé. Il peut être adapté pour fonctionner avec une variété de langages de programmation ou d’environnements.
D1.3
créer un nuage de points pour représenter la relation entre deux variables, déterminer la corrélation entre ces variables en mettant à l’essai divers modèles de régression à l’aide de la technologie, et utiliser un modèle pour faire des prédictions, le cas échéant.
- relations entre deux variables :
- la consommation d’énergie d’une voiture et sa vitesse;
- la quantité de graisses saturées (en grammes) et le nombre de calories contenues dans différentes barres granolas;
- le montant d’argent emprunté et le taux d’intérêt offert;
- la population active et le taux d’emploi.
- corrélation :
- utilisation du coefficient de corrélation r pour décrire la puissance et la direction d’une relation linéaire entre deux variables :
- corrélation linéaire positive forte :
- corrélation linéaire positive faible :
- modèles de régression construits à l’aide de la technologie :
- modèles de régression linéaire;
- modèles de régression non linéaire.
Les enseignantes et enseignants peuvent :
- appuyer les élèves à décrire la relation observée sur un nuage de points en discutant la direction (positive ou négative), la puissance (forte, moyenne, ou faible), les valeurs aberrantes et la forme (linéaire ou non linéaire);
- s’assurer que les élèves ont accès aux outils technologiques appropriés (p. ex., logiciels de statistiques, tableurs, logiciels de codage) lorsqu’elles et ils créent le diagramme de dispersion, déterminent la corrélation et testent différents modèles de régression;
- mettre en évidence, à l’aide de la technologie, des modèles de régression linéaire et non linéaire en tant qu’applications des relations linéaires et non linéaires;
- appuyer les élèves à choisir la stratégie appropriée pour faire des prédictions;
- faciliter des discussions avec les élèves sur les situations dans lesquelles un modèle de régression est approprié ou non pour faire des prédictions;
- appuyer les élèves à élargir leur répertoire de communication pour inclure un plus large éventail de terminologies et de conventions connexes, en particulier pour les apprenantes et apprenants du français.
- Comment peut-on créer un nuage de points (diagramme de dispersion)?
- À quoi sert un nuage de points?
- De quelles manières pouvez-vous décrire la relation entre deux variables sur un nuage de points?
- Quelle information le coefficient de corrélation nous fournit-il?
- Comment les valeurs aberrantes influencent-elles la valeur du coefficient de corrélation?
- Quelle est la différence entre corrélation et causalité?
- Quelles sont les limites des prédictions faites à l’aide de modèles de régression?
Demandez aux élèves de créer un nuage de points pour montrer la relation entre la température moyenne et la vitesse moyenne du vent à un endroit donné sur une période donnée. Demandez aux élèves de déterminer le modèle de régression approprié et demandez-leur de l’utiliser pour faire des prédictions.
Donnez aux élèves plusieurs modèles de régression d’un même ensemble de données comportant deux variables et demandez-leur de déterminer le modèle qui représente le mieux la relation entre les variables.
Demandez aux élèves de disposer six nuages de points de corrélation variable, de la corrélation la plus faible à la plus forte, et d’expliquer leur raisonnement.