Big data agricole : comment valoriser la masse d’informations ?
Le potentiel de valorisation des données « agriculteur » comprend deux volets : acquérir des connaissances et développer des modèles prédictifs. Dans les deux cas, les scientifiques qui travaillent sur ces données font face à un changement de paradigme : au lieu de générer eux-mêmes les données pour répondre à une question agronomique, au travers d’une expérimentation ou d’une enquête, ils valorisent des données déjà disponibles, acquises pour d’autres besoins.
Ce bouleversement a conduit à la création d’une nouvelle discipline, la science des données (data science), définie formellement en 2001 par l’informaticien américain William Cleveland. Cette science s'appuie sur des outils mathématiques, de statistique et d'informatique, et vise à produire des informations utiles par des méthodes de tri et d’analyse automatisées de données massives (big data), principalement numériques, provenant de sources de données plus ou moins complexes et déconnectées les unes des autres.
La data science procède en trois grandes étapes : l’acquisition des données, leur remaniement (croisement de données et production de métadonnées, standardisation…) et enfin leur analyse.
Les enjeux de la qualification des données et des confusions d’effet
La valorisation des données de masse repose sur la maitrise de cinq piliers communément appeler « les 5 V » (encadré). Si les questions du volume et de la vélocité sont résolues grâce aux outils informatiques actuels, il n’en reste pas moins à s’attaquer à ceux posés par la variété des données et leur véracité, et à en extraire une information fiable. Pour ces trois derniers points, plusieurs difficultés existent.
Les « 5 V » du big dataVolume : réussir à stocker et traiter un nombre très élevé de données.
Vélocité : traiter les données rapidement, pour apporter des réponses au bon moment et actualisées.
Variété : disposer de logiciels capables de traiter des données de formats hétérogènes (chiffres, textes, vidéos, images…) et non structurées.
Véracité : multiplier les recoupements et enrichir les données pour minimiser les biais liés au manque de fiabilité « naturel » des big data.
Valeur : stocker et analyser toutes ces données n’a de sens que si elles apportent de la valeur ajoutée.
La première concerne la qualité de la donnée. Avant de se lancer dans une analyse statistique, il est nécessaire de bien prendre connaissance des données et de leurs précisions en les comparant à des données bien maitrisées. En effet, contrairement à des données acquises en expérimentation selon un protocole et des modes opératoires précis et documentés, la donnée « agriculteur » ne suit aucune méthodologie. Dans le cas d’une donnée de rendement saisie dans un outil de gestion parcellaire, il est impossible de savoir si la valeur est précise ou si elle est estimée ou moyennée, par exemple (sauf à remonter jusqu’au producteur pour le questionner). Pour pallier cette source d’incertitude, les data scientists (experts de la gestion et de l’analyse pointue de données massives) s’appuient sur le fait que l’incertitude réduit avec le volume de données.
La seconde difficulté réside dans les confusions d’effet associées à ces données, qui peuvent conduire à des contresens… Par exemple, lorsqu’on étudie la relation entre l’indice de fréquence de traitement (IFT) et le rendement, si les données de masse montrent une corrélation négative entre l’IFT herbicide et le rendement, on pourrait en conclure qu’il suffit de diminuer l’IFT herbicide pour augmenter le rendement - ce n’est évidemment pas le cas ! L’explication agronomique à cette corrélation négative est qu’on apporte plus d’herbicides sur les parcelles les plus infestées, mais comme l’efficacité des herbicides n’est pas égale à 100 %, il reste malgré tout plus d’adventices sur ces parcelles, dont les rendements se trouvent donc pénalisés. Cet exemple est trivial, mais ce type de données est susceptible de contenir d’autres corrélations fallacieuses qu’il sera peut-être plus difficile d’identifier.
Les apports de l’intelligence artificielle
Apparue dès les années 1950, l’intelligence artificielle (IA) peut être définie comme « l’ensemble de techniques permettant à des machines d’accomplir de manière automatique des tâches et de résoudre des problèmes normalement réservés aux humains et à certains animaux ». Il s’agit donc de techniques mathématiques qui visent à reproduire, imiter et simuler l’intelligence.
L’essor de cette discipline depuis ces dernières années est largement stimulé par la masse de données disponibles, par l’augmentation continue de la puissance de calcul de nos ordinateurs et des serveurs informatiques, ainsi que par la mise à disposition d’algorithmes très efficaces que l’on retrouve dans des logiciels d’analyse faciles à prendre en main tels que R ou Python, ou dans les plateformes proposées par les géants du web (GAFA) comme Google.
Certaines approches d’IA sont de plus en plus répandues ; c’est notamment le cas de toutes les méthodes d’apprentissage machine (figure 1). Ces méthodes visent à donner à la machine la capacité d’apprendre par elle-même quelle que soit la situation, sans avoir besoin de formaliser ni de connaître les règles. Elles sont largement utilisées en marketing (pour cibler les publicités lors de la navigation sur internet), par les logiciels de traduction ou encore par la reconnaissance vocale.
Dans le milieu agricole, les usages restent encore du domaine de la recherche et du développement (R&D) mais les résultats sont prometteurs. Ils mettent en évidence les potentialités de ces méthodes pour la détection et la reconnaissance de plantes ou de maladies à partir de photos, l’identification des stades de développements ou encore l’estimation des rendements. Ces méthodes, couplées à des robots, des machines agricoles ou des outils d’aide à la décision, devraient engendrer un saut technologique important.
Quel rôle y jouent les instituts techniques agricoles ?
Les instituts techniques s’emparent largement de ces méthodes pour accélérer l’acquisition de références et le développement de modèles prédictifs. Pour avancer sur ces sujets, un réseau mixte technologique « Science des données & Modélisation pour l’Agriculture et l’Agroalimentaire »(1) a été mis en place pour animer la communauté des différents acteurs de la R&D agricole mais aussi de l’Institut national de recherche en sciences et technologies du numérique (INRIA). Il vise notamment à évaluer le potentiel de ces méthodes innovantes sur nos problématiques agricoles, mais aussi à faire monter en compétence l’ensemble des acteurs de la R&D sur ces méthodes au travers de formations, afin de toucher différents publics et besoins sur cette thématique.
Les enjeux de l’IA sont tels qu’elle est devenue une priorité pour de nombreux pays, États-Unis et Chine en tête, mais aussi en France. Le secteur économique y investit massivement. Le marché de l’intelligence artificielle en agriculture était en 2017 de 518 millions d’euros et devrait quintupler d’ici 2025.
« 2,5 milliards d'€, c'est le marché estimé de l’IA en agriculture en 2025. »
Cet essor s’accompagne du positionnement de structures historiquement peu présentes sur le secteur agricole tels que des géants du numérique, principalement chinois et américains, qui s’associent avec les grands groupes agricoles traditionnels ou soutiennent des start-ups tournées vers l'agriculture. Ainsi, l’entreprise Alibaba s’est associée en 2019 à l’agrochimiste Bayer afin de développer un système de traçabilité basé sur la blockchain pour les produits agricoles. Par ailleurs, le premier groupe coopératif agricole français InVivo a annoncé en 2019 un partenariat avec Microsoft Azure afin de mettre les avantages du cloud et de l’IA au service des grands enjeux de l’agroalimentaire.
L’investissement de ces grands groupes dans le secteur agricole est intéressant mais n’est pas sans risque, notamment concernant la captation et la valorisation de toutes les données des exploitations. Il est donc indispensable que les acteurs du monde agricole restent parties prenantes dans ces évolutions afin de sécuriser ces échanges continus en définissant des règles collectives autour des échanges et de l’utilisation des données agricoles. Ainsi, la charte DATA AGRI(2) vise à encadrer les questions sur la propriété, le partage et l’usage des données agricoles en labellisant, sur la base du volontariat, le maximum d’entreprises collectant des données sur les exploitations pour donner des garanties aux agriculteurs.
L’expertise de terrain reste au cœur de la démarche
Les méthodes de l’intelligence artificielle apportent une aide importante pour analyser ces grandes quantités de données qu’il serait impossible d’appréhender par l’homme en un temps raisonnable, et elles sont très utiles pour faire des prédictions. Toutefois, elles ne mettent en évidence que des corrélations entre variables et non des relations causales. Elles ne permettent pas non plus de remplacer l’expertise humaine pour comprendre des situations complexes et produire de la connaissance.
Il est ainsi nécessaire de mieux comprendre le fonctionnement des systèmes de culture et des interactions avec l’environnement afin d’apporter un conseil pertinent aux agriculteurs, adapté à la réalité du terrain. La prise en compte de l‘expertise permet d’introduire dans les modèles des relations causales supposées, et donc d’interpréter plus facilement leur comportement.
Les connaissances expertes peuvent être modélisées et retranscrites sous la forme de distributions de probabilités via des méthodes d’élicitation(3). Ces connaissances, combinées avec des modèles statistiques, alimentent ensuite des logiciels d’aide à la décision afin qu’ils soient à même de reproduire artificiellement l’analyse de situations et la prise de décisions des experts.
(1) Plus d’informations sur http://www.modelia.org
(2) Charte édifiée par la Fédération nationale des syndicats d’exploitants agricoles (FNSEA) et les Jeunes Agriculteurs (JA). Plus d’informations sur https://www.data-agri.fr
(3) L’élicitation est l’action d’aider un expert à formaliser ses connaissances afin de les sauvegarder ou de les partager.
Emmanuelle Gourdain - e.gourdain@arvalis.fr
François Brun - francois.brun@acta.asso.fr
0 commentaire
Réagissez !
Merci de vous connecter pour commenter cet article.