‘Making Sense of BIG DATA’ (Technion France)

ISN-numerique - Secretariat Association Technion France

Le téléchargement nécessite un accès à la bibliothèque YouScribe
Tout savoir sur nos offres

14 pages

Français

Le téléchargement nécessite un accès à la bibliothèque YouScribe
Tout savoir sur nos offres

A propos
Informations
Extrait

Description

Colloque Annuelde l’Association Technion France Lundi 15 décembre 2014 Maison de la Chimie, Paris 7ème ‘Making Sense of BIG DATA’ Sous le Haut Patronage de Monsieur François Hollande, Président de la Républiq ue Alors qu'a commencé, de façon de plus en plus perceptible, une nouvelle et profonde révolution scientifique, technologique et sociétale, celle du big data, Technion France a choisi d'y consacrer son colloque scientifique annuel réuni le 15 décembre 2014 à la Maison de la Chimie à Paris. Sur le thème « Making Sense of Big Data », spécialistes de premier plan, utilisateurs, concepteurs, responsables, enseignants d'université ont balayé le champ de plus en plus en plus vaste du big data et ses implications profondes qui s'annoncent dans le quotidien des citoyens et leurs pratiques professionnelles. Geneviève Fioraso, ministre de l'enseignement supérieur et de la recherche, a ouvert les débats en traçant le périmètre dans lequel s'inscrit le big data. Il convenait de bien définir le phénomène et ses effets, assimilés à un véritable tsunami numérique ouvrant une nouvelle ère d'innovation. Big data se dit en français « mégadonnées », mot officiel depuis août 2013. Les termes de déluge ou de tsunami rendent bien compte de l'ampleur et de l'accélération extraordinaires du phénomène. Ils peuvent aussi évoquer le déferlement catastrophique contre lequel nous serions impuissants, voire victimes, et qu'il nous faudrait donc subir.

Informations

Publié par	ISN-numerique
Publié le	24 juin 2015
Nombre de lectures	10
Langue	Français

Extrait

Colloque Annuelde l’Association Technion France

Lundi 15 décembre 2014

Maison de la Chimie, Paris 7ème

‘Making Sense of BIG DATA’

Sous le Haut Patronage de Monsieur François Hollande, Président de la Républiq ue

Alors qu'a commencé, de façon de plus en plus perceptible, une nouvelle et profonde révolution scientifique, technologique et sociétale, celle du big data, Technion France a choisi d'y consacrer son colloque scientifique annuel réuni le 15 décembre 2014 à la Maison de la Chimie à Paris. Sur le thème « Making Sense of Big Data », spécialistes de premier plan, utilisateurs, concepteurs, responsables, enseignants d'université ont balayé le champ de plus en plus en plus vaste du big data et ses implications profondes qui s'annoncent dans le quotidien des citoyens et leurs pratiques professionnelles. Geneviève Fioraso, ministre de l'enseignement supérieur et de la recherche, a ouvert les débats en traçant le périmètre dans lequel s'inscrit le big data. Il convenait de bien définir le phénomène et ses effets, assimilés à un véritable tsunami numérique ouvrant une nouvelle ère d'innovation. Big data se dit en français « mégadonnées », mot officiel depuis août 2013. Les termes de déluge ou de tsunami rendent bien compte de l'ampleur et de l'accélération extraordinaires du phénomène. Ils peuvent aussi évoquer le déferlement catastrophique contre lequel nous serions impuissants, voire victimes, et qu'il nous faudrait donc subir. Mais les mégadonnées ouvrent des opportunités extraordinaires. Nous sommes à un tournant de l'histoire de l'économie des connaissances, à l'heure de l'éclosion de nouveaux savoirs ,de nouvelles formations, de nouveaux métiers et il nous faut prendre part pleinement et activement à ce mouvement. Pas pour le subir, mais pour le maîtriser au mieux et même pour rebondir grâce à son effet d'accélération. Le terme « Big data » n'est pas vraiment nouveau. Il a été utilisé la première fois en 1997 dans un article publié par deux chercheurs de la NASA, Michael Cox et David Ellsworth. La première dimension fondamentale du Big data c'est évidemment sa composante technologique, aboutissement de soixante ans de recherches et d'innovations en informatique. Cette discipline scientifique, un temps considérée comme des sousmathématiques, comme quelque chose qui « buguait » à côté de la noble physique, est maintenant Microsoft |Association Technion France–46 rue de l’Aŵiral HaŵeliŶ –75016 PARIS Tél: + 33 1 40 70 13 28–Fax: + 33 1 40 70 16 79 Email:muriel.touaty@technionfrance.orgSite:www.technionfrance.org

enfin reconnue comme une authentique discipline scientifique mise à l'honneur en France par l'attribution cette année de la Médaille d'Or du CNRS à un mathématicien devenu informaticien, Gérard Berry. Lorsqu’en 2008, les big data font la Une du prestigieux magazineNature,on les qualifie rapidement de « plus grande innovation de la décennie en informatique dans les domaines du commerce, de la science et de la société dans son ensemble ». Cette mise en données du monde s'appuie sur un ensemble d'innovations technologiques qui transforment profondément la façon dont les données sont générées, transmises, stockées, sélectionnées et utilisées. Les mégadonnées sont donc une vraie chance pour peu que l'on prenne la peine de réfléchir à la manière de « Making Sense of Big Data », comme l'indique l'intitulé du colloque d'aujourd'hui. Une étude du cabinet Transparency Market Research estime que le chiffre d'affaire mondial du marché des big data devrait connaître dans les années à venir une croissance annuelle supérieure à 30 % ce qui, dans le contexte économique actuel, fait réfléchir. De 8,9 milliards de dollars en 2014 à 23 milliards de dollars en 2016. En 2020, ce marché devrait représenter en France 9 milliard d'euros, et, pour l'Europe, 8 % du PIB. En terme d'emploi, le big data devrait représenter plus de 4 millions d'emplois en 2015 et l'on attend en France la création de 130 000 emplois dans les six prochaines années sans compter les emplois induits. On présente le big data comme un nouvel eldorado. Après le « search » qui a créé Google, après les réseaux sociaux qui ont créé Facebook, le big data pourrait donc créer un nouveau géant. Certains disent que ce géant est déjà en place. Qu'est ce qui caractérise de façon simple et pratique le big data ? C'est d'abord la digitalisation de toutes les données qui nous concernent, il y a la numérisation des services et l'étendue des activités numériques, il y a aussi la multiplication de capteurs de toute nature et l'émergence de ce que l'on appelle « l'Internet des objets » même si ce n'est pas encore très matérialisé ou concret pour beaucoup d'entre nous. C'est déjà une réalité puisqu'il y aura environ 50 milliard d'objets connectés en 2020, capteurs de lumières, capteurs de pression, de température, et tous ces capteurs sont des générateurs de données. Derrière tous ces enjeux du big data, il y a différends métiers, souvent confondus, de la création de données à la connexion de ces données, à la collecte de ces données, à leur analyse, leur valorisation, à l'émergence de nouveaux service portés par ces données voire de nouvelles industries puisque dans l'usine du futur, l'industrie 4.0, les big data sont au cœur de cette réflexion. Il est important , dès maintenant, de faire prendre conscience aux industriels de ce qu'est le big data et ses enjeux en termes industriels. Il s'agit de faire comprendre à de grands secteurs que l'on est dans une révolution industrielle qui mélange à la fois certaines caractéristiques de l'invention de la machine à vapeur, avec des notions de mobilité numérique nouvelles ou de mobilité tout court, d'autres, de l'invention de l'électricité, c'est le numérique pur, qui va avoir des impacts économiques profonds dans les domaines de l'industrie et des services. L'une des clés de cette révolution est la notion d'usage, et, notamment, d'usage grand public. Cette révolution génère des besoins importants en formation de spécialistes divers. Concrètement, on peut déjà mesurer à quel point les pratiques et les stratégies des entreprises sont en train de se modifier et quelles opportunités se profilent. Pour Veolia, par exemple, qui agit dans trois métiers : assainissement, services liés au cycle d'énergie, cycle propreté, de la collecte au traitement,. ce qui en train de changer c'est le rapport à celui auquel est délivré le service. Pour traiter les données recueillies auprès des usagers, un partenariat avec Orange et IBMa été initié.

L'objectif est d'avoir avec le client une relation non plus inerte mais dynamique. Le client devient un partenaire. Il gère par exemple lui même sa consommation d'eau. Certains fabricants de compteurs migrent vers l'utilisation intelligente de données et les barrières internes entre production et délivrance des services sont en train d'exploser. Même approche pour Alstom dans son activité « Energie » abordée par Ronan Stephan, Directeur de l'innovation qui voir dans le big data une possibilité d'aider à répondre à l'absolue nécessité de préservation de la planète. Il induit un champ d'opportunités pour créer de la croissance en créant des données et répondre aux grands enjeux d'optimisation en fourniture d'énergie. Il y a nécessité d'élaboration de modèles pertinents et efficaces à partir de données. L'acquisition de centrales de production d'électricité par des majors de la Silicon Valley, au prétexte de leur sécurité énergétique, n'est pas un hasard. On va vers la fourniture de systèmes globaux de fourniture d'énergie. Ce qui crée de la valeur c'est la donnée. Le big data révèle sa puissance dans des domaines industriels et/ou commerciaux où la quantité de données traitées est considérable. L'exemple de Total est, à cet égard significatif. Il est parfaitement décrit par JeanFrançois Minster, Directeur scientifique de Total. Les données sont un vecteur d'économies. Les économies sur les coûts font la marge et la marge fait le cash qui permet d'investir. Total surveille toutes ses machines. La société possède des milliers de machines tournantes, compresseurs, turbines etc. Ce sont des pièces très sensibles. Quand elles tombent en panne c'est très dangereux car elles explosent parfois. Elles sont par ailleurs un maillon essentiel d'une installation et toute panne arrête le fonctionnement du tout et ce sont des dizaines de millions de dollars par jour qui sont perdus. L'approche classique consiste à rester dans les spécifications des constructeurs, à respecter les cycles de maintenance des constructeurs donc d'être contraints par des prescriptions extérieures. Total a créé un service qui permet de pousser les machines à leurs limites mais de les surveiller en continu. A distance, avec du traitement sophistiqué de données, du croisement d'expérience d'une machine sur l'autre. Le retour, après plusieurs années, est que Total est capable de faire de la maintenance préventive, et les machines ainsi surveillées n'ont plus jamais d'accident. Le retour sur investissement est considérable. Deuxième exemple, aujourd'hui dans les traitements sismiques pétroliers, le volume des données est gros. Un relevé sismique sur 5000 kilomètres carrés ce sont 200 terabytes et ce n'est pas seulement du relevé sismique, c'est de l'étude tridimensionnelle de la propagation d'ondes dans un milieu hétérogène, et cela exige de grosses capacités de calcul. Le problème est que ne peut pas traiter ces données en ellemêmfaut les combiner avec d’autrese, il sources d'information qui ne sont pas toutes internes et qu'il faut renouveler ce traitement régulièrement. L'enjeu est de savoir où il faut forer...Et un forage offshore ce sont 100 millions d'euros. Économiser un forage rembourse n'importe quel ordinateur. Pendant longtemps l'étude n'était que de la sismique, mais maintenant le réservoir pétrolier luimême est une représentation d'objet complexe. Un réservoir est figuré, par exemple, en un milliard de cellules de modèles numériques. Un calcul numérique d'écoulement multiphasique en milieu poreux avec des hétérogénéités de structures, de milieux et le besoin de savoir ce qui se passe à l'échelle de tout le champ pour savoir comment on va structurer l'exploitation du champ pétrolier dans la

Microsoft|Association Technion France–46 rue de l’Aŵiral HaŵeliŶ –75016 PARIS Tél: + 33 1 40 70 13 28 -Fax: + 33 1 40 70 16 79 Email:muriel.touaty@technionfrance.orgSite:www.technionfrance.org

durée...cela fait quelques bytes…. Troisième exemple, dans le domaine du marketing. Total a beaucoup de clients. En gros 1,5 millions qui passent dans ses sites de vente par mois, ce qui représente environ 100 millions de transactions financières par an. Mais aujourd'hui il faut que le client soit incité à venir chez Total. La communication digitale directe avec le consommateur est nécessaire. Le client veut des services. Le modèle d'affaires de la stationservice c’est aujourd'hui par exemple le wifi offert. Total possède 5000 stationsservices en Afrique dans des zones où souvent, il n’y a pas de banque. Où il n'y a pas de cartes de crédit mais où il y a 800 millions de téléphones portables. Il faut donc permettre au client de gérer l'acte commercial à partir du téléphone portable d'où l'ebanking etc. On trouve immédiatement des solutions. On crée des partenariats avec des banques qui doivent gérer le transfert de fonds de migrants vers leur pays d'origine. Il y a besoin de transactions locales. Total crée donc une activité nouvelle entre le marché et le commerce. Le plus difficile est de créer ces points de vente. Il y a 78 startup aidées financièrement, techniquement. Cela permet de tirer de l'expérience du terrain une stratégie mondiale, de créer de vrais modèles d'affaires. Il faut des métiers nouveaux, des organisations, des relations nouvelles avec les clients mais aussi dans l'entreprise, des hiérarchies nouvelles. Les outils sont complexes pour l’exploitation des données. Dans une entreprise technologique, n'importe quelle technologie a des potentiels et il faut absolument les identifier assez tôt, même dans d'autres domaines et il faut faire de l'intelligence très ouverte. Dans cette partie « intelligence », le big data a aussi toute son utilité. Vendre les résultats du traitement des données détenues par l'entreprise, sous forme de services c'est une opportunité qu'Orange a décidé de saisir, comme l'expose Nathalie Boulanger,Directrice du programme Orange Start Up Ecosystem. Pour l'entreprise, le big data c'est du chiffre d'affaires en plus. Pour un tiers en terme d'augmentation du chiffre et pour deux tiers, des économies par amélioration des process. Chez Orange existe un outil appeléFlux Vision qui permet de collecter des données anonymisées de déplacement des téléphones portables. L'analyse de ces données est utile par exemple en matière d'équipement du territoire, de tourisme etc. Ce qui est important et ce qui fait la valeur deFlux Visionce n'est pas tant la masse des données que les algorithmes qui vont permettre leur analyse. Une autre offre nous permettra de mettre à disposition de nos partenaires des données d'entreprises qui s'enrichiront mutuellement de ces données par le big data. Le tout se déroulera bien sûr dans l'anonymisation. Dans l'approche du big data, on est confronté à trois types d'enjeux, souligne : d'abord un enjeu technologique, il est simple à résoudre car les solutions existent et c'est simplement une question de coût. Le deuxième enjeu traite de la donnée. Il y a là des enjeux de compréhension, d'algorithmie, de structuration, de rapprochement des données. Là aussi, on va identifier dans le big data quatre grandes catégories de données dont chacune apporte des problématiques différentes. Il y a la donnée issue de l'open data, massivement mises à disposition par des gouvernements, des organisations. C'est souvent du texte, des données non structurées, des tableaux etc. La deuxième grande source se trouve dans les objets connectés. Beaucoup d'objets vont nous envahir. Ils vont générer beaucoup d’informations. La troisième grande source est le mobile. Nous avons parlé de géolocalisation, par exemple. Et la quatrième est le web et en particulier les réseaux sociaux. Après la technologie et les données, le troisième volet ce sont les usages. Il faut réconcilier les trois. La question sera : y a til un usage derrière la technologie et les données ? Pour un État par exemple, dans le domaine particulier de la fraude, on peut enrichir les données pour

détecter la fraude au carrousel de TVA. Des données ouvertes sur le web, confrontées à des données de déclarations ont permis en Belgique de réduire de 95 % la fraude au carrousel de TVA. Les résultats sont extrêmement concrets. Dans ce cas il s'agit de trouver des liens entre des sociétés qui pratiquent ce système frauduleux. Pour le même État, on peut agir sur la fraude à la déclaration de biens vendus. Souvent minorés pour payer moins de droits. Il s'agit d'estimer la valeur réelle d'un bien en traitant les données disponibles qui sont nombreuses (ventes antérieures, transactions notariales, transactions chez les agents immobiliers etc.). Le big data permet de rapprocher tout cela pour le mettre en cohérence. Deuxième exemple, le secteur de la publicité. Question : comment, quand je mets de l'argent sur un site, suisje assuré que les clics sont bien réels ? Pour des États, comment éviter les récidives dans la délinquance à partir de l'analyse des comportements tels qu'ils figurent en données numériques ? Mes fournisseurs respectentils la loi en matière de travail des enfants, en matière d'écoloresponsabilité ? Le big data permet de répondre à ces questions. Concrètement, il y a des limites fixées par la loi. Par exemple, pour les voitures connectées, en France on n'a pas le droit de collecter la vitesse, en Italie oui. Les constructeurs internationaux intéressés par le traitement de ces données auront tendance à agir sur les pays qui brident les informations pour les pousser à s'ouvrir un peu plus. Autre problématique intéressante : Qui va être le partenaire d'un assureur qui veut proposer la tarification au kilomètre parcouru ? Le constructeur ? Google qui sait tout grâce à la géolocalisation ? Les équipementiers qui sont à bord de la voiture ? Ce sont des combats de titans qui s 'annoncent. On vient de le voir, le big data et sa puissance son riches d’opportunités pour les très grandes entreprises , y compris dans la partie la plus lourde de leur activité. Mais les entreprises moyennes ou petites ne sont pas exclues des bénéfices du big data. Ainsi, Kira Radinsky, dont l'excellence est internationalement reconnue, définit clairement l'activité de son entreprise, Sales Predict et ce qui l'inspire dans le domaine du marketing prédictif, une notion née grâce au big data : essayer de modifier la manière dont les entreprises mènent leurs affaires. Elle explique : « Nous allons « dénicher » des algorithmes sur la base de chaque transaction passée effectuée par la société. Nous allons essayer de déterminer la probabilité pour la société de conclure un contrat. Nous collectons ses données internes et tout ce qui est disponible sur le Web. Qui sont ses clients potentiels, quelles sont les données la concernant publiées dans la presse, les ventes réalisées par le passé, ce qui circule sur Twitter la concernant, en bref, une quantité suffisante de données pour élaborer un modèle définissant ses relations avec ses clients. Par exemple, nous cherchons à hiérarchiser la qualité de leurs contacts avec l'analyse par motsclés. L’algorithme saisit chaque information pertinente circulant sur le web ou sur Twitter et la fait entrer dans la base des données à analyser. On parvient ainsi à définir le degré de compréhension du client potentiel devant une offre et de proposer les mots clés qui feront mouche par rapport aux offres de produits concurrents. Les outils permettent également de définir des critères d'accord de crédit à des particuliers. L'objectif de ces prochaines années, audelà de l’entreprise, est de parvenir à dessimulations économiques qui permettent de valider rapidement des hypothèses et des actions sans avoir à attendre 20 ans pour avoir un retour d'expérience qui valide ou non une théorie. La simulation complexe à partir de données nombreuses sera un progrès considérable dans l’émergence de nouvelles théories économiques. Nous essayons

d'être les meilleurs avec nos algorithmes. Il n'y a pas de limite théorique à la pertinence de l'activité prédictive. Nous allons ainsi recueillir des données partout où elles se trouvent, Wikipedia, sites gouvernementaux etc, nous essayons de déceler les tendances et les usages à venir pour répondre aux questions comme « vatil y avoir des émeutes à tel endroit ? ». Nous identifions des phénomènes macroéconomiques et nous les associons à des données microéconomiques des entreprises qui permettent de construire des stratégies d'action.. La vision de Gilles Babinet, président de Captain Dash, n'est pas très éloignée. Son but est de permettre aux entreprises d'accéder à leurs propres données afin de les traiter et d'en tirer des informations utiles. Elles ne parviennent pas à obtenir une vision transversale de leurs données. La finance reste à la finance, les données du marketing restent au marketing etc. Il s'agit de réunir des données pour des entreprises qui ont un peu perdu le contrôle de la synthèse de ces données sur une longue période et de sortir un tableau de bord. C'est plus difficile qu'il y paraît car il faut utiliser des extracteurs de données qui permettent de les traduire dans un format permettant de les inclure dans des systèmes de données structurées ou pas. Nous rendons les donnés cohérentes les unes par rapport aux autres pour en avoir une vision synthétique. La révolution du big data est autant anthropologique que numérique car elle change l’organisation des entreprises. Quand on livre un tableau de bord aux entreprises, on a une sorte de mise en équilibre de la société avec le ressenti de la nécessité de repenser le business c'est à dire, d'abord, le rapport au client donc l'organisation de l'entreprise. 500 millions d'euros par an de budget marketing ont été réattribués par une entreprise sur la base des informations obtenues par cette méthode. Appliquée, pour une grande marque de produits de beautés, à une étude de rendement des « égéries », elle a donné des résultats surprenants. Le budget engagé peut aller jusqu'à 50 millions de dollars pour rémunérer des top modèles emblèmes de la marque. Toutes les données de ventes de produits, d'identité de la marque, de résonnance sur les réseaux sociaux, etc ont été traitées et le client a été très surpris de voir sur le tableau de bord des résultats très variables selon la saison, le temps etc. et selon les égéries. Ce tableau de bord, utilisé opportunément, a permis d'optimiser des engagements financiers qui sont de l'ordre 400 millions de dollars par an. Dans un secteur voisin du marketing, la publicité, le big data prend aussi toute son importance. Yannick Bolloré, Président d'Havas le confirme. En utilisant les bons algorithmes, en utilisant les bonnes données, les mégadonnées donnent des opportunités inespérées aux clients des publicitaires en utilisant des logiciels de marketing prédictif qui permettent de proposer au consommateur un message personnalisé sur le meilleur support à la meilleure heure. Pour les publicitaires, il y a la possibilité de mesurer beaucoup plus finement que par le passé l'impact des achats médias sur les ventes. Henry Ford disait « La moitié de mon budget média ne sert à rien. Le problème c'est que je ne sais pas laquelle... ». Aujourd'hui, grâce au big data, on est capable de mesurer l'impact de telle ou telle action média sur les ventes. Cela permet d'optimiser les budgets média. C'est une ère nouvelle pour les publicitaires. Avec une implication culturelle de taille : Les groupes de communication qui réussiront dans un avenir proche seront ceux qui auront réussi à créer l'harmonie entre trois types de populations : les créatifs, les commerciaux et les « data scientists » très technologiques.

Industrie, commerce, ce sont des domaines traditionnels fortement bousculés par le big data avec l'effet « wahoo » décrit par plusieurs orateurs, ce « wahoo » qui manifeste cette fascination émerveillée devant la puissance du phénomène. Que va ton dire devant les applications du big data dans le domaine de la santé au sens le plus large du terme. Pourquoi pas « wahoo ! Wahoo ! » ? Maya Said, Viceprésident Stratégie, politique scientifique et innovation interne de SANOFI décrit l'évolution de monde du médicament. L'évolution la plus profonde dans le domaine des pharmas mais plus généralement dans le domaine de la santé est, comme partout, liée aux données. On passe d'un monde où la génération des données était l'avantage compétitif, à un monde où les données sont partout et dans lequel l'avantage réside maintenant dans la compréhension de ces données. C'est l'accès et l'exploitation des données qui permettent désormais de faire de la R&D et de créer de l'innovation. Cela signifie que, désormais, on est dans un cycle d'innovation en continue durant la durée de vie commerciale du médicament, constamment nourrie par les données recueillies auprès du malade, du médecin etc. Et les budgets de R&D attribués à des médicaments déjà exploités est de plus en plus important. Et cela a des impacts considérables car, en cours de vie, un médicament peut, sur la base du traitement des données recueillies être amélioré dans ses effets thérapeutiques mais aussi recevoir de nouvelles indications. C'est ainsi le cas chez Sanofi d'un médicament développé pour le traitement de la sclérose en plaques et dont la molécule existait depuis un moment en oncologie. Le vrai problème est celui de l’intégration des données pour pouvoir les traiter. Il faudrait des médecins chercheurs technologistes qui aient l'intuition, proprement humaine, de la direction à prendre dans l'exploitation des données. La propriété intellectuelle des travaux et de leurs résultats pose aussi de nouveaux problèmes avec la recherche de données en milieu ouvert. La nécessité de la définition d'un écosystème adapté devient évidente. Autre illustration du big data utilisé dans le secteur de la santé. Elle est fournie par Mohammed Afshar, PDG de Ariana Pharmaceuticals. Il pointe la facilité de recueillir les données mais la difficulté de les interpréter. Problème de base : l'efficacité des traitements. Des traitements ne marchent pas, on le constate. L'implication financière d'un traitement économique de quelques centimes pour un comprimé basique à 40 000 euros ou plus pour une injection d'un produit en oncologie. Aujourd'hui, familièrement, on va chez le médecin puis au laboratoire d'analyses médicales. On ressort avec cinq feuillets de données simples qui permettent au médecin de vous situer par rapport à une norme. Imaginons que vous ressortiez non plus avec cinq pages mais avec 500 feuillets. Votre médecin va avoir beaucoup de mal à les analyser. On a alors besoin d'outils pour traiter ces informations et, en particulier, les combinaisons. D'où un nouveau business, celui de l'interprétation des données d'analyses biologiques, qui existe déjà. Un certain type d'analyse effectué en laboratoire par des méthodes traditionnelles donne cinq paramètres. Vous allez sur Internet et vous entrez ces paramètres sur un site web qui vous renvoie un score. Les deux actes sont facturés séparément. Pour certaines

affections, le rôle de la partie logicielle va devenir de plus en plus importante par rapport avec la partie clinique. Et cela se précise en chirurgie. Ariana Pharmaceuticals développe avec un partenaire un appareil qui mesure chaque minute 40 000 paramètres qui indiquent précisément au chirurgien s'il est bien dans la tumeur du cerveau qu'il opère. L'enjeu c'est de créer l'algorithme qui va, en temps quasi réel, donner l'information au chirurgien : vert, il est dans la tumeur, orange il est limite, rouge il est en dehors. Il y a donc partenariat entre un hôpital, CHU de Strasbourg, qui fournit les échantillons, une société d'appareillage pour diagnostic, et une société de traitement de données. La démarche est celle de l'avenir. Elle vaut pour la thérapeutique. Un projet international travaille sur un logiciel d'aide au médecin dans le choix d'une thérapeutique contre le cancer. 20 % des cancers peuvent être traités par une démarche ciblée à partir d'un test génétique simple. Pour 80 % des patients, il y a 300 protocoles, molécules etc. disponibles. Plus de 20 000 marqueurs divers peuvent être mesurés pour caractériser les tumeurs. La question est de mettre en correspondance ces 20 000 paramètres et les 300 traitements. Les cliniciens d'aujourd'hui vont privilégier les protocoles qu'ils connaissent, auxquels ils sont habitués ou qui sont en usage dans leur centre, et ce qui est élaboré en ce moment c'est un système qui dit au praticien « Pour tel patient donné, aujourd'hui, les traitements les plus efficaces sont les suivants... ». C'est la première fois qu'un tel logiciel se trouve en essai clinique multicentrique. Si la survie du patient est clairement améliorée, le logiciel prend une valeur thérapeutique qui dépasse sa fonction d'aide à la décision. Et cela crée de la valeur. Raison pour laquelle des firmes comme Google et Amazon s'intéressent à ce secteur. Dans la recherche fondamental le big data est bien sûr également sollicité, comme le souligne Shai ShenOrr, professeur à la faculté de médecine et à la faculté de biologie du Technion. Dans les sciences de la vie, nous mesurons l'immunité des systèmes. Dans un prélèvement de sang, on mesure les gènes, les protéines etc…et l'on voit comment ils interagissent ? Nous mesurons des centaines de paramètres qui partent du niveau clinique et vont jusqu'au niveau moléculaire. Chaque cellule donne 40 informations et les données de plusieurs millions de cellules sont recueillies. Chaque cellule a sa fonction. Nous recueillons les données, les traitons et déterminons le degré de réponse immunitaire probable du patient. Nous pouvons voir comment le patient réagit à un médicament. On détermine un modèle prévisionnel efficace. L'un des obstacles à l'utilisation du big data en matière de recherche médicale est l’absence de norme des données ouvertes en particulier concernant la langue. Par ailleurs, nous sommes capables de mesurer des paramètres sans en comprendre la signification avant traitement informatique. Mais on sait que nous connaîtrons l’importance de ces données dans un futur proche. Nous connaissons 20% du génome et nous les comprenons. Les 80 % restant sont un champ ouvert. Pour conduire cette révolution du big data, il va falloir des troupes nombreuses et qualifiées. Des ingénieurs, des techniciens, des théoriciens etc. en grand nombre. Il va falloir les former. Les universités, et pas seulement, se trouvent donc elles aussi fortement impactées. Peretz Lavie, Président du Technion, mesure l'ampleur des efforts à accomplir. Nous devons être prêts pour le big data,ditil. L'université doit former des ingénieurs qui sachent se servir des big data, les analyser, les présenter. Il faut former les

experts également. Collecter les données, les conserver, les utiliser sera leur rôle. Les MOOCS, cours universitaires sur Internet , seront un support important des cours nécessaires aux étudiants. Un mooc du Technion sur les nanotechnologies a été suivi, en anglais, par 30 000 étudiants et, en arabe, par 7500 étudiants dont certains en Syrie. Mais, si vous avez dans l'avenir des universités qui rassemblent en ligne 500 000 étudiants, comment allez vous faire passer des examens ? Comment allezvous recueillir des informations concernant ces 500 000 étudiants ? Si l'on propose un cours comme celui sur les nanotechnologies en chinois, on va avoir 3 millions d'étudiants. Imaginez ! Comment faire avec toutes les données concernant 3 millions d'étudiants ? En 2010, le Technion a été sollicité pour participer à un concours pour la création d'une université à New York. J'ai réuni six présidents d'université et je leur ai dit qu'il nous faudrait être très créatif si nous voulions remporter le concours. Ils ont suggéré à la ville de New York d'ouvrir trois centres de recherche. L'un sur les médias connectés qui serait donc adapté à l'industrie de la publicité et au secteur financier, le deuxième, à la vie urbaine et le troisième à la santé avec un dénominateur commun qui serait le big data, à l'époque encore un peu nébuleux. Chacun de ces centres aurait des scientifiques chargés d'extraire les données et de les traiter, les présenter, les analyser. Nous avons remporté le concours et le campus sera prêt en 2017. Google s'est présenté à nous et nous a accordé un espace libre. Google a dit aussi payer électricité pendant plusieurs années ; Eric Schmidt a justifié cette générosité de la façon suivante : « Vous êtes en train de prévoir le futur et je veux être près de vous. ». Les données vont peut être perdre un peu de leur romantisme.Ce que je veux dire, précise Peretz Lavie,bibliothèque, tout estc'est que quand on va dans une numérisé, on peut trouver les vieux bouquins sur son ordinateur mais cela ne se compare pas avec l'odeur des livres. Les barrières qui séparent depuis des siècles certaine disciplines scientifiques entre elles ou avec des matières nouvelles sont en train de chanceler sous les coups de boutoir du big data. C'est un thème dont importance n'a pas échappé aux participants au débat conduit pat Cédric Villani, mathématicien, professeur, Directeur de l'Institut Raymond Poincaré et Médaille Fields 2010. Cédric Villani évoque, pour illustrer l'ouverture nouvelle des sciences fondamentales, la mise à concours par le CERN de l'équipe qui pourrait trouver le meilleur algorithme qui identifierait automatiquement le boson de Higgs parmi les monceaux de données que génèrent les expériences du CERN. Les orateurs valident cette nouvelle manière de faire vivre ensemble des sciences qui se découvrent de nouvelles complémentarités, avec les conséquences qui en découlent sur la formation. Le big data est une science qui peut contribuer aux autres sciences. De quelle façon peut elle contribuer à la bio informatique, à la médecine personnalisée ? Elle est en train de contribuer à l'étude du climat, mais il y a une science dure qui lui est ouverte et qui consacre lorsque l'on fait ses preuve dans son domaine, c'est la physique. L’accélérateur de particules du CERN permet de provoquer une collision entre deux protons et d'analyser les débris pour y trouver la trace du fameux boson de Higgs...qui a fait l'actualité l'an passé. Les données qui sont recueillies appartiennent au big data. Il y a cent millions de collisions par seconde entre protons

et les données font plusieurs petabytes par an et la question est de savoir si nous pouvons aider les physiciens à identifier la région de l'espace où se trouvent les bosons. Pour la première fois, le CERN a mis à disposition du grand public les données. Les physiciens se sont donné une peine extrême pour arriver à construire des données abordables par des mathématiciens « normaux ». Un énorme effort a été mis dans la construction des données et dans les mesures qui permettaient de dire aux participants au challenge s'ils faisaient bien ou pas. Ce mariage entre la physique théorique et le machinelearning a été un succès. Un champ scientifique est en train de s'ouvrir qui consiste à analyser des problèmes de très très grande dimension. Ces problèmes contiennent des milliers ou des millions de variables et il va falloir agréger ces variables pour obtenir un nombre, prendre une décision comme dans le cas du chirurgien qui agit sur une tumeur au cerveau. On se retrouve devant des problèmes mathématiques extrêmement difficiles car le volume de l'ensemble des possibles est absolument énorme. Et quand bien même on a énormément de données, on n'en n'a pas assez pour explorer cet énorme espace. On va donc essayer de comprendre ce que sont les structures et comment les reconnaître à l'intérieur des données. Cela signifie que les variables ne vont pas varier de façon complètement aléatoire par rapport les unes des autres. On a beaucoup pensé ces problèmes de structures sous forme de règles. Si l'on pense à l'intelligence artificielle des années 80, aux systèmes experts, cela consiste essentiellement à trouver les bonnes règles et à les appliquer à des données. Ce qui est apparu ces quinze dernières années c'est que l'explosion de la complexité implique une explosion du nombre de règles et il faut donc regarder ces problèmes différemment. Le point fondamental qui apparaît c 'est qu'il va être très important de comprendre quelles sont les distances, quelles sont les analogies, quelles sont les relations entre les structures et comment l'on peut construire de telles distances et c'est là que l'on voit beaucoup de domaines de mathématiques qui sont très différents. D'abord la géométrie pour comprendre dans quel domaine les données habitent, mais aussi tous les domaines de l'aléatoire, des probabilités, des théories de groupes etc. Ce qui est intéressant dans ces problèmes c'est qu'en apparence, ils sont très différents, mais l'une des beautés des mathématiques c'est de trouver la correspondance, de trouver que derrière ces phénomènes en apparence très différents (son, parole, diagnostic etc.), il y a des structures très similaires qui expliquent que le même type d'algorithme générique permet d'attaquer tous ces problèmes. Il y a quelque chose de très joli dans ce domaine, c'est qu'il y a une avance considérable actuellement due aux gens qui travaillent directement sur les données c'est à dire les ingénieurs, les algorithmiciens. Les mathématiques sont encore loin derrière. Il y a des choses superbes qui ont été faites parfois avec des outils très ésotériques, comme ce que l'on appelle les réseaux de neurones regardés par le passé d'un air un peu méprisant. « On ne comprend pourquoi ça marche»…, certes mais les avancées sont incroyables. Actuellement des voitures circulent de manière complètement autonome. Elles font de la reconnaissance d'image, de son, de langage naturel et elles fonctionnent sur ces structures de réseaux de neurones. Cette avancée pose beaucoup de questions scientifiques à commencer par : pourquoi ça marche ? Les mathématiques deviennent très fondamentales à ce niveau là ? Parce que tant qu'on n'a pas compris, on n'est jamais tout à fait sûr que ça va toujours marcher. Et l'on s'aperçoit que parfois, ça ne marche pas. Autre point fondamental, notamment dans le domaine industriel, c'est que tant qu'on reste empiriques il faut énormément de temps pour développer quoi que ce soit. Les mathématiques permettent d’accélérer la phase d'expérimentation pour aller vers des solutions efficaces. Les industriels en sont conscients, mais il n'y a pas encore assez de personnes formées. Beaucoup d'étudiants français partent vers de grandes

sociétés américaines comme Google. Il n'y a pas assez de gens qui font à la fois des mathématiques, de l'informatique et qui ont « les pieds dans les données ». Il y a des gens qui sont à la fois mathématiciens et informaticiens, qui veulent se libérer des données pour les dominer. Le big data génère des data scientists dont la première qualité doit être le discernement. Les mathématiques connaissent un vrai regain d'intérêt et l'on voit qu'aux USA le nombre d'étudiants en mathématiques augmente fortement. C'est provoqué sans doute par cette arrivée des données en grand nombre. Cela permet aux étudiants de discerner clairement l'utilité pratique des mathématiques. Les données sont une force de cohésion entre toutes les disciplines. L'enseignement des statistiques, des probabilités doit survenir plus tôt dans le cursus. Elles sont d'une utilité évidente dans le traitement et l'interprétation des données. Il n'y a pas assez d'ingénieurs formés sur les big data. Il est important de donner d'abord les bases de ce qui fait une donnée, de ce qu'elle est, de ce qu'est sa duréede vie par exemple. Après quoi il sera plus facile à l’ingénieur de traiter de manière pertinente un type particulier de données comme les données médicales par exemple. Il est aussi nécessaire de créer des formations continues qui permettent à des professionnels des mathématiques et de l'informatique de se convertir aux métiers des big data. Pouvons nous former les ingénieurs en quantité suffisante ? Pas seulement des docteurs. Il faut former les étudiants dès le début de leurs études à se passionner pour les données et leur maniement. Et Comment initier les enfants au big data ? L'école sert à former les enfants à s'insérer dans la société actuelle et à les former aux métiers qu'ils exerceront. Les formations ne peuvent donc plus être celles du 20ème siècle. L'éducation doit suivre des sciences qui ont changé. Tous les métiers utilisent l'informatique et les bases de données. Les enfants doivent apprendre les outils qui correspondent au monde d'aujourd'hui. On peut familiariser les enfants au traitement des données, à l'utilisation d'algorithmes dès le collège. Il faut aussi faire tomber cette séparation entre lettres et sciences. Il s'agit non seulement de former des spécialistes mais aussi des citoyens qui appréhendent bien tous les enjeux sociétaux de l’utilisation des big data. Le big data n'est à l'évidence pas neutre en matière de respect de la vie privée. C'est une activité très intrusive et elle va provoquer une adaptation importante des dispositifs législatifs de protection de la vie privée. Quelques exemples concrets pour illustrer le propos. Dans un pays étranger à la France, un propriétaire de Ferrari cherche à se faire rembourser sa voiture accidentée. L'assureur lance une analyse de données concernant ce client et remonte des données qui montrent, sur les comptes sociaux de ses amis, que le soir de l'accident il était à une soirée, qu'il a bu beaucoup (photos sur un réseau social le montrant en train de boire abondamment) etc. L'assureur a pu négocier le montant du remboursement. Yannick Bolloré raconte un souvenir personnel. A son arrivée à l'aéroport de San Francisco, il rallume son smartphone et il reçoit un texto qui lui dit « Près de votre hôtel, 30 % de réduction sur les sushis saumon ». Il se demande immédiatement