Website Statistics Exercice 2 6 points Un site de vente en ligne de véhicule doccasion cherche à programmer une machine apprenante qui à partir de données dachat déjà récolté perm

Exercice 2 (6 points)
Un site de vente en ligne de véhicule d'occasion cherche à programmer une machine apprenante qui, à partir de données d'achat déjà récolté, permet à l'utilisateur de visionner si une annonce est intéressante ou non, comme dans l'exemple ci-dessous.


2013 | 82000 km 7 990 €
=Offre équitable


Pour cela, un analyste de données (Data Analyst) teste un premier modèle sur une même catégorie de véhicule. Il cherche à mettre en relation, à caractéristiques égales, le prix d'un véhicule et son kilométrage.

Après un premier tri de données, il regroupe ses résultats dans le tableau suivant :

Kilométrage (en km) |
70 000 | 80 000 | 90 000 | 100 000 | 150 000 | 170 000 | 200 000 -> ( première ranger du tableau )

Rang du kilométrage :Xi | 7| 8 | 9 | 10 | 15 | 17 | 20 -> ( 2e rangé du tableau


Prix (en €) : Yi | 9 600 | 7 500 | 8 500 | 7 800 | 6 500 | 5 590 |
5 000 -> ( 3e rangé de tableau)

1. Représenter, dans un repère orthogonal, le nuage de points de coordonnées (x,;y;). On prendra en abscisse 1 cm pour une unité, et en ordonnées 1 cm pour 500 € (on débutera les graduations à partir de 6 pour les abscisses, et de 4500 € pour les ordonnées).

2.Une valeur de ce nuage semble erronée. Laquelle ? Justifier votre réponse.

3.On souhaite corriger cette valeur pour limiter les erreurs de la machine apprenante. On la retire donc des données. Le nuage de points restant montre qu'un ajustement affine peut être envisagé. A l'aide de la calculatrice, donner une équation de la droite (d) d'ajustement de y en X, obtenue par la méthode des moindres carrés. On arrondira les coefficients en l'entier.

4. Représenter cette droite dans le graphique précédent.

5. Corriger la valeur pour 80 000 km, en justifiant.

6. Déterminer par le calcul le kilométrage approximatif d'un véhicule de cette catégorie coûtant 7000 €.

7. Un vendeur dépose l'annonce suivante :

2013 | 62000 km 9 990€

La machine va-t-elle affirmer que c'est une bonne affaire, une mauvaise affaire, ou une affaire équitable ? Justifier.

8. L'analyste teste ensuite son modèle sur les données de vente suivantes :

Kilométrage (en km) | 41500 |62900 | 189000 -> ( première rangé du tableau)

Prix (en €) | 11500 | 9589 | 5200 -> ( 2e rangé du tableau )

Il considère son modèle valide si, sur ces 3 données, 2 au moins sont valides à 15 % (c'est-à-dire si sur au moins deux de ces données, il y a moins de 15% d'erreur entre le prix donné par la machine et le prix réel).
Va-t-il valider ce modèle ?

Exercice 2 6 points Un site de vente en ligne de véhicule doccasion cherche à programmer une machine apprenante qui à partir de données dachat déjà récolté perm class=

Répondre :

Pour représenter le nuage de points dans un repère orthogonal, nous utilisons les données fournies :Kilométrage (en km) | 70 000 | 80 000 | 90 000 | 100 000 | 150 000 | 170 000 | 200 000
Prix (en €) | 9 600 | 7 500 | 8 500 | 7 800 | 6 500 | 5 590 | 5 000
La valeur erronée semble être 5 590 € pour 170 000 km, car elle semble trop basse par rapport aux autres points du nuage de points.L'équation de la droite d'ajustement (d) obtenue par la méthode des moindres carrés est y = -188x + 11600.La droite d'ajustement (d) est représentée dans le graphique précédent.La valeur corrigée pour 80 000 km peut être estimée en utilisant la droite d'ajustement (d) : pour x = 8, la valeur de y est environ 7324 €.Pour déterminer le kilométrage approximatif d'un véhicule coûtant 7000 €, on peut utiliser l'équation d'ajustement : 7000 = -188x + 11600. En résolvant cette équation, on trouve x ≈ 56 489 km.La machine devrait probablement affirmer que c'est une bonne affaire, car le prix est relativement bas pour le kilométrage donné, ce qui est cohérent avec la tendance du nuage de points.Pour valider le modèle, on calcule les prix prédits par la machine pour les données fournies. On compare ensuite ces prix avec les prix réels, en vérifiant si l'erreur est inférieure à 15 % pour au moins deux des trois données. Si c'est le cas, le modèle sera validé.

D'autres questions