Forecasting.ai

Le blog de Forecasting AI

Blog

>

Machine Learning

>

Un modèle de prévision du MIT meilleur que les analystes de Wall Street

Un modèle de prévision du MIT meilleur que les analystes de Wall Street

Par G.H.

|

27 avril 2020

|

Machine Learning

|

fren

Loin des analystes financiers de Wall Street, le MIT a mis au point un modèle de prévision plus efficace avec la prise en compte de données alternatives pour réaliser le bilan et définir la valeur d'une entreprise. L'étude a fait l'objet d'une publication dans le numéro de décembre 2019 du très sérieux Proceedings of the ACM on Measurement and Analysis of Computing Systems.


Des chercheurs du MIT prêts à remplacer les meilleurs analystes financiers de Wall Street ? Ou du moins le modèle de prévision qu'ils ont entraîné à cet effet... C'est en tout cas ce qu'indique une publication parue dans l'édition de décembre 2019 du Proceedings of the ACM on Measurement and Analysis of Computing Systems.

Un modèle de prévision pour quoi faire ?


Ce modèle avait alors pour but de prévoir les bénéfices trimestriels engendrés par une trentaine d'entreprises, un travail habituellement dévolu à des analystes financiers. Il va s'en dire qu'un tel outil serait in fine à destination de potentiels investisseurs qui font aujourd'hui appel à ces spécialistes. Dans ce cas précis, ces experts et analystes peuvent compter sur quelques diverses données publiques, sur des outils de calcul et, surtout, sur leur propre intuition pour remettre leurs rapports et prédire ainsi les bénéfices futurs de telle ou telle compagnie. Vous l'aurez compris, connaitre le chiffre d'affaires d'une société peut aider à déterminer sa valeur et savoir s'il est bon de miser et d'investir sur elle à l'avenir.

Partant de ce principe, le Massachusetts Institute of Technology et ses chercheurs ont donc mis au point un modèle automatisé qui fait largement mieux que les humains dans la prévision des ventes en utilisant des données différentes et en mettant de côté, bien sûr, le ressenti ou l'intuition. Ce modèle s'appuie notamment sur ce que l'on appelle des données bruyantes en quantité très limitée. Les "noisy data" en anglais sont schématiquement des données qui peuvent être corrompues, déformées ou encore dont le rapport signal/bruit peut être très faible. Des données oui, mais avec des informations potentiellement ininterprétables...

Quelles données alternatives pour mieux prédire ?


Dites aussi données alternatives, elles n'avaient jusqu'alors jamais permis d'obtenir des estimations plus précises ou plus fréquentes sur les ventes et les bénéfices futurs d'une entreprise, au contraire des études des analystes financiers. Mais cela, c'était donc avant. Avant que des chercheurs du MIT ne s'emparent du sujet et n'obtiennent de meilleurs résultats en les incorporant dans un modèle classique des systèmes linéaires en compagnie de données financières plus habituelles mais moins fréquentes comme les bénéfices trimestriels, les communiqués de presse et autres cours des actions. Combinez ces deux types de données et vous aurez donc de meilleures prévisions, du moins plus précises, que celles délivrées par les habituels analystes financiers.

Data on credit card purchases to learn more about the financial health of companies. (DR)
Pour bien comprendre toutefois l'intérêt de ces données alternatives dans l'évaluation de la santé d'une entreprise, il convient tout d'abord d'en définir les contours. Si les marchés financiers s'y intéressent de près depuis quelques années sans néanmoins parvenir jusque-là à les utiliser, c'est qu'elles renseignent énormément sur le consommateur et, par conséquent, sur l'entreprise qui vend des produits ou des services à ces derniers. Ces données alternatives peuvent donc être aussi bien des données de localisation de smartphones, des données sur des achats par carte de crédit ou, plus étonnamment, des images satellites capables de déterminer le nombre de voitures présentes sur le parking d'un commerçant ou d'un détaillant.

57% des prévisions réalisées surpassent celles des analystes financiers


Chercheur postdoctoral dans le laboratoire des systèmes d'information et de décision du MIT, Michael Fleder résume ainsi : "Les données alternatives sont ces étranges signaux de substitution qui permettent de suivre les finances sous-jacentes d'une entreprise. Et de préciser : Nous nous sommes demandés si nous pouvions combiner ces données bruyantes avec des chiffres trimestriels pour déterminer les véritables données financières d'une entreprise, et la réponse est oui." 57% des prévisions réalisées par ce biais ont ainsi surpassé les estimations des analystes financiers qui avaient pour leur part accès à des données privées et publiques sur les entreprises ou à d'autres modèles d'apprentissage automatique.

Il est ainsi aisé de comprendre l'intérêt d'un tel modèle, que ce soit pour de potentiels investisseurs ou même des commerçants qui chercheraient à en savoir plus sur les ventes de leurs concurrents. Des chercheurs en sciences sociales ou sciences politiques pourraient aussi y voir une façon d'en apprendre plus sur gens grâce à l'étude de données agrégées et anonymes disponibles à l'achat.

Un manque de données pour être plus précis ?


En effet, il existe déjà de nombreuses données sur les consommateurs disponibles à la vente. Acheter des données sur les transactions par carte de crédit ou des données de localisation peuvent permettre à un détaillant de connaitre précisément les ventes de ses concurrents ou à des publicitaires de voir si leurs campagnes ont justement permis une hausse de ces ventes. Des résultats toutefois encore soumis à l'expertise de l'être humain puisque aucun modèle d'apprentissage automatique ne permettait encore cela.

A quarterly report represents only one input figure. (DR)
Cette fois, cela semble être le cas même s'il reste encore des problèmes à résoudre comme... le manque de données. "Nous avons un problème de « petites données », confirme Michael Fleder. Vous n'obtenez qu'une infime partie de ce que les gens dépensent et vous devez extrapoler et déduire ce qui se passe réellement à partir de cette fraction de données." Un rapport trimestriel sur une entreprise ne sera finalement qu'un seul chiffre en entrée, alors que les données sur les cartes bancaires ne représenteront que 100 points de données supplémentaires bruyantes, donc avec des informations potentiellement ininterprétables.

Comment calculer les ventes quotidiennes ?


Grâce à un fonds de pension, les chercheurs ont ainsi récupéré les transactions par carte bancaire de consommateurs et les rapports trimestriels de 34 détaillants entre 2015 et 2018. Malgré tout, avec 306 données trimestrielles recueillies pour l'ensemble des entreprises qu'ils ont étudiées, les chercheurs du MIT ont réussi à faire mieux que des analystes financiers.

Calculer les ventes quotidiennes d'une entreprise ou d'un détaillant est finalement assez simple dans l'absolu. Le modèle considère que les ventes d'une entreprise restent finalement semblables d'un jour à l'autre, augmentant ou diminuant sensiblement seulement. En langage mathématique, cela équivaut à multiplier les valeurs des ventes quotidienne par une valeur constante représentant finalement la légère variation et une valeur de bruit statistique qui représente elle le caractère aléatoire des ventes d'une entreprise. Avec ces paramètres, un algorithme d'inférence standard pourra résoudre cette équation et délivrer une prévision précise de ces ventes quotidiennes. Le tout est bien sûr de déterminer ces paramètres.

Le filtre de Kalman pour prédire les ventes quotidiennes


C'est là que les rapports trimestriels sur les entreprises entrent en jeu avec, bien sûr, des techniques de probabilités. Car il ne suffit par de diviser les chiffres communiqués sur les rapports trimestriels par 90 jours pour obtenir les ventes quotidiennes d'une entreprise. Cela signifierait dès lors que les ventes d'une entreprise sont identiques jour après jour. Or, il est clair qu'elles ne le sont pas par essence ! Et puis il y a l'inclusion des données alternatives relatives aux achats par carte de crédit par exemple. Il est impossible de déterminer leur fraction dans le total des ventes et de savoir à quel point elles sont bruyantes et, par conséquent, inexactes.

Prédire les ventes quotidiennes d'une entreprise grâce au filtre de Kalman.
Pour estimer les ventes possibles sur une seule journée, les chercheurs ont donc utilisé le filtre de Kalman, une variante de l'algorithme d'inférence standard utilisée par exemple dans les radars ou les GPS de vos smartphones. Le filtre de Kalman permet d'estimer les états d'un système dynamique à partir de séries de mesures incomplètes ou bruitées. Dans le cas qui nous intéresse, le filtre de Kalman génère une distribution de probabilités grâce à la mesure de données contenant du bruit observées au fil du temps.

Le modèle est entraîné ensuite de la façon suivante : Les ventes trimestrielles sont décomposées en un nombre de jours précis mesurés, ce qui permet alors de faire varier les ventes chaque jour. Toutes les données observées et bruyantes issues des cartes de crédit sont ensuite rapportées à des ventes quotidiennes encore inconnues. En extrapolant à partir des chiffres trimestriels, il est ensuite possible de connaître la part probable que représentent les données des cartes de crédit dans le total des ventes. Cela permet ainsi de déterminer la fraction des ventes par jour, le niveau de bruit et même une estimation de l'erreur causée par cette technique.

La boucle est alors bouclée et l'algorithme d'inférence standard récupère de là toutes les données dont il a besoin pour prédire les ventes quotidiennes d'une entreprise. Jusqu'à faire mieux que des analystes de Wall Street donc, dans 57,2% des cas. Un bon début diront certains en attendant un modèle encore plus pointu et précis.