OWNI http://owni.fr News, Augmented Tue, 17 Sep 2013 12:04:49 +0000 http://wordpress.org/?v=2.9.2 fr hourly 1 Un état des lieux de l’Open Data http://owni.fr/2011/11/02/etat-des-lieux-open-data-eaves/ http://owni.fr/2011/11/02/etat-des-lieux-open-data-eaves/#comments Wed, 02 Nov 2011 07:24:42 +0000 David Eaves http://owni.fr/?p=85024

Où en est l’Open Data ? Au cours de mon récent discours d’inauguration à l’Open Data Camp (qui se tenait cette année à Varsovie), j’ai tenté de poursuivre l’intervention que j’avais faite lors de la conférence de l’an passé. Voici l’état des lieux que j’en dresse.

Le franchissement du gouffre

1. Davantage de portails Open Data

Une des choses remarquables de l’année 2011 est la véritable explosion des portails Open Data à travers le monde. A ce jour, plus de 50 catalogues de données gouvernementales [en] sont recensés et d’autres devraient suivre. Le plus notable de ces catalogues est sans doute l’Open Data kényan [en], qui démontre à quel point le mouvement de l’Open Data a évolué.

2. Une meilleure compréhension et davantage de demande

Ces portails sont le résultat d’un mouvement d’ensemble plus vaste. De plus en plus de personnalités politiques, en particulier, sont curieux de comprendre l’Open Data. L’idée n’est pas de parler d’une compréhension radicalement modifiée, mais de nombreuses personnes situées dans les sphères gouvernementales (et plus globalement politiques) connaissent désormais le terme, pensent qu’il y a là quelque chose d’intéressant, et souhaitent en savoir davantage. Ainsi, dans un nombre de lieux de plus en plus importants les réfractaires diminuent. Plutôt que devoir hurler de loin, nous sommes désormais souvent invités à nous exprimer.

De plus en plus de personnalités politiques, en particulier, sont curieux de comprendre l’Open Data. [...] Plutôt que devoir hurler de loin, nous sommes désormais souvent invités à nous exprimer.

3. Plus d’expériences

En définitive ce qui est également passionnant, c’est le nombre croissant d’expériences dans la sphère Open Data. Le nombre d’entreprises et d’organisations tentant de pousser leurs utilisateurs vers les données ouvertes est croissant. ScraperWiki, DataHub, BuzzData, Socrata, Visual.ly font partie de ces ressources qui ont apparu dans l’univers des données ouvertes. Le genre de projets de recherche qui émergent – de la traque des irruptions volcaniques en Islande à l’arrivée des hackers et de leurs œuvres, aux micro-projets (comme Recollect.net que je dirige) ou bien encore les travaux qui conduisent à démontrer que l’Open Data pourrait générer des économies de 8,5 millions de livres par an aux institutions de la région de Manchester [en] – sont profondément encourageants.

A l’heure actuelle : un point d’inflexion

Ce qui est excitant avec l’Open Data, c’est que nous sommes de plus en plus nombreux qui aident – fonctionnaires, personnalités politiques, patrons d’entreprises, simples citoyens – à imaginer un avenir différent, plus ouvert, plus efficace et plus avenant. Notre impact est encore limité, mais nous ne sommes qu’au début de l’aventure. Ce qui est plus important c’est que grâce à nos succès (cf. le point 2 ci-dessus) notre rôle change. Qu’est-ce que ça signifie pour le mouvement, maintenant ?

Vu de l’extérieur, le travail que nous accomplissons est tout simplement de plus en plus pertinent. Notre époque est celle d’un échec institutionnel. Du Tea Party à Occupy Wall Street, nous constatons que nos institutions ne nous servent plus suffisamment. L’Open Data ne peut pas résoudre le problème, mais il fait partie de la solution. Le défi de l’ordre ancien et des organismes qu’il favorise, c’est que son principe d’organisation est articulé autour du contrôle des processus, après avoir appliqué le modèle de production industrielle à l’administration. Cela veut dire qu’il ne peut se déplacer aussi vite et, à cause de sa forte tendance au contrôle, qu’il ne peut se permettre autant de créativité (et d’adaptation).

L’Open Data, c’est placer un libre flot d’informations au cœur de la gouvernance – à la fois interne et externe – avec le but d’augmenter le métabolisme du gouvernement et de décentraliser la capacité des entreprises à faire face à leurs problèmes. Notre rôle n’est pas évident pour les personnes appartenant à ces mouvements, et c’est pourquoi nous devrions le rendre plus clair.

Vu de l’intérieur, nous devons relever un autre grand défi. Nous sommes à un point d’inflexion critique. Pendant des années, nous avons été dehors, hurlant l’importance de l’Open Data. Maintenant nous sommes invités dedans. Certains voudraient que nous nous y précipitions, désireux d’avancer, d’autres souhaiteraient se retenir, par peur d’être récupérés. Pour réussir, il est essentiel que nous devenions plus performants à progresser sur ce terrain miné : collaborer avec les gouvernements pour les aider à prendre les bonnes décisions, mais ne pas être manipulés en sacrifiant à nos principes. Choisir de ne pas nous engager serait – à mon avis – fuir nos responsabilités de citoyens et d’activistes de l’Open Data. C’est une transition difficile, mais il sera plus simple de commencer par l’assumer et de nous soutenir les uns les autres.

Le défi majeur : la prochaine étape

En regardant à travers le prisme Open Data, j’ai le sentiment que nous sommes devant trois défis pour lesquels le mouvement Open Data doit faire face s’il ne veut pas compromettre les succès déjà accumulés.

1. Le piège de la conformité

Un risque majeur pour l’Open Data, c’est que tout notre travail soit réduit à n’être qu’une initiative pour la transparence et aurait par conséquent pour unique objet de mettre en conformité des structures gouvernementales. Si c’est ainsi que se joue notre destin, je suspecte que dans 5 à 10 ans les gouvernements, désireux de pratiquer des coupes budgétaires, n’inscrivent les portails Open Data dans la liste des économies à réaliser.

Notre objectif n’est pas de devenir un élément de conformité. Notre but est de faire comprendre aux gouvernements qu’ils sont des structures de gestion de données et qu’ils ont besoin de gérer leur patrimoine “data” avec la même rigueur qu’ils gèrent le patrimoine concret comme les routes et les ponts. Nous donnons autant d’importance à la gouvernance des données qu’à l’Open Data. Cela signifie que nous avons besoin d’une vision pour un gouvernement dans lequel la donnée devient une couche de l’architecture gouvernementale. Notre objectif est de réaliser une plate-forme de données sur laquelle, non seulement les citoyens s’appuient, mais également sur laquelle le gouvernement refonde son appareil politique, et prioritairement son système informatique. En mettant ceci en place, nous nous assurons que l’Open Data est fermement connecté aux services de l’État et qu’il ne peut être facilement stoppé.

Notre but est de faire comprendre aux gouvernements qu’ils sont des structures de gestion de données et qu’ils ont besoin de gérer leur patrimoine “data” avec la même rigueur qu’ils gèrent le patrimoine concret comme les routes et les ponts.

2. Les schémas de données

Cette année, à l’approche de l’Open Data Camp, la fondation Open Knowledge a créé une carte des portails Open Data à travers le monde. C’était marrant à regarder, et je pense que ça devrait être la dernière fois que nous le faisons.

Nous arrivons à un point où le nombre de portails Open Data devient de moins en moins pertinent. Ouvrir davantage de portails ne permettra pas à l’Open Data de se déployer davantage. Ce qui va nous permettre de nous déployer sera d’établir des structures de données communes leur permettant de fonctionner transversalement aux juridictions. Le seul format de données de gouvernance ouverte largement utilisé concerne les données de transport urbain qui, parce qu’elles ont été standardisées par le GTFS, sont désormais disponibles à travers des centaines de juridictions. Cette standardisation a non seulement poussé les données dans Google Maps (générant des millions d’utilisations quotidiennes) mais a également conduit à une explosion d’applications de transports urbains dans le monde. Des standards communs nous permettront de nous déployer. Nous ne pouvons pas l’oublier.

Arrêtons donc de faire la comptabilité des portails Open Data, commençons plutôt à dresser la liste des jeux de données qui adhèrent à des schémas communs. Étant donné que l’Open Data est regardé de plus en plus favorablement par les gouvernements, la création de ces schémas est actuellement, à mon sens, le défi majeur du mouvement Open Data.

3. Élargir le mouvement

Je suis impressionné par les centaines et les centaines de personnes présentes ici à l’Open Data Camp à Varsovie. C’est vraiment sympa de pouvoir reconnaître autant de visages, le problème c’est que je peux reconnaître trop de visages. Nous devons faire grandir le mouvement. Il existe un risque que nous devenions complaisants, que nous nous réjouissions du mouvement que nous avons créé et, encore plus, de notre rôle en son sein. Si cela devait arriver, nous aurions un problème. Malgré nos succès, nous sommes loin d’avoir atteint une masse critique.

La question simple que je nous pose c’est : où sont United Way, Google, Microsoft, l’Armée du salut, Oxfam et Greenpeace ? Nous saurons que nous sommes en train de progresser lorsque des entreprises – grandes et petites – tout autant que des associations sans but lucratif, commenceront à comprendre combien les données de gouvernance ouverte peuvent rendre le monde meilleur et voudront ainsi nous aider à faire progresser la cause.

Chacun de nous se doit maintenant d’aller engager la discussion avec ces types d’organisations et les aider à se figurer ce nouveau monde et son potentiel à faire de l’argent et à faire progresser leurs propres problématiques. Plus nous parviendrons à nous inscrire dans les réseaux des autres, plus nous recruterons des alliés et plus forts nous serons.


Article original paru sur le blog de David Eaves sous le titre The State of Open Data 2011
Photo via FlickR Dan Slee [cc-by-nc] et Sebastiaan ter Burg [cc-by-sa] remixées par Ophelia Noor /-)
Traduction : Nicolas Patte



]]>
http://owni.fr/2011/11/02/etat-des-lieux-open-data-eaves/feed/ 11
Données libérées, chercheurs débridés, société impliquée http://owni.fr/2010/12/08/donnees-liberees-chercheurs-debrides-societe-impliquee/ http://owni.fr/2010/12/08/donnees-liberees-chercheurs-debrides-societe-impliquee/#comments Wed, 08 Dec 2010 09:22:30 +0000 Antoine Blanchard http://owni.fr/?p=38606 Jusqu’à très récemment, les données étaient les parents pauvres de la recherche scientifique, particulièrement en biologie. S’accumulant dans les laboratoires et les centre de séquençage du génome, isolées sur le disque dur des chercheurs, elles étaient invisibles et difficilement accessibles — enfouies sous la montagne d’articles scientifiques auxquels elles contribuent à donner naissance. Et si les acteurs ont pris conscience de la nécessité de libérer leurs publications, notamment à travers l’accès libre aux résultats de la recherche (open access), ils avaient encore négligé leurs données.

Données libérées

Mais que sont exactement ces données ? Ce sont les résultats des expériences ou observations menées par les chercheurs, préludes à de nouvelles découvertes, à de nouvelles théories explicatives et à des publications scientifiques. Depuis la Révolution scientifique, elles étaient conservées consciencieusement afin de garantir la transparence inhérente à la recherche, mais rarement mises en commun. À ce titre, les publications scientifiques faisaient état des résultats de l’analyse de ces données sans jamais mettre les données elles-mêmes, brutes, à disposition. Ou quand elles le faisaient, elles étaient “emprisonnées” dans le format étroit et inutilisable du papier. Seuls des contacts informels entre chercheurs permettaient de s’échanger des données qu’Internet, désormais, permet de mettre à disposition de tous d’un seul clic.

Avec Internet, nous assistons en effet au développement de l’e-Science. Sous ce terme se cache un phénomène général d’appropriation par les chercheurs des technologies de l’information afin de démultiplier les possibilités d’analyse, de stockage, de publication et de partage des données mais aussi des articles, et autres résultats de la recherche ; sous ce nom se cache aussi des programmes institutionnels de promotion de cette nouvelle ère de la science, comme en Allemagne ou en Grande-Bretagne (National e-Science Center). C’est ainsi que l’on voit grossir les rangs des bases de données accessibles sur Internet, des chercheurs qui stockent leurs articles en accès-libre sur le serveur de leur laboratoire, des logiciels libres (open source) qui permettent d’exploiter ou d’analyser les résultats d’une puce ADN ou d’une analyse phylogénétique.

Ce mouvement a véritablement décollé lorsque les généticiens du Consortium international de séquençage du génome humain se sont réunis aux Bermudes en février 1996 pour convenir, ensemble, du mode de publication de la séquence du génome humain. Ils se mirent d’accord sur la diffusion automatique (et si possible sous 24h) des séquences de plus de mille bases, la publication immédiate des séquences annotées, le tout en accès libre. Ces “principes des Bermudes” régissent depuis lors (avec quelques modifications) les projets de séquençage financés sur fonds publics et sont les fondements de la publication de données génomiques sur Internet.

Dans la perspective de l’e-Science, les données autant que les articles doivent être ouverts, libérés. C’est d’une importance croissante avec la collaboration d’équipes à travers le monde entier, dans des projets pharaoniques comme l’étude du virus de la grippe aviaire H5N1. D’autant que les données nécessaires sont rapidement volumineuses, comme l’ont appris à leurs dépens les chercheurs en génétique, neurosciences et plus largement des sciences de la complexité.

Parmi elles, la biologie intégrative cherche à corréler les données issues de différents niveaux d’observation et donc à croiser des données tierces pour les mettre en perspective, les fouiller par des méthodes de fouille de données (data mining) etc. Cette nécessaire libération des données se joue à trois niveaux : l’accessibilité des données, qu’encouragent notamment les revues qui imposent aux auteurs de déposer leurs données — moléculaires, génétiques, écologiques… — dans les bases de données disponibles sur Internet, et qui s’opposent parfois à l’appropriation de droits de propriété intellectuelle ; l’inter-compatibilité des nombreuses bases de données et l’existence de métadonnées standardisées permettant de connaître leur origine, le contexte de leur obtention, etc., défendue par les bio-informaticiens ; et enfin, l’absence de frein légal à la réutilisation des données, par exemple en utilisant une licence libre de type Science commons comme le fait UniProt, la plus grande base de données sur les protéines.

Chercheurs débridés

Les chercheurs, acteurs de ce mouvement, en sont aussi les premiers bénéficiaires et ont y vite vu l’occasion de débrider leur créativité, comme le montrent de nombreux exemples récents. En 2005, le lancement de la base de données de structures chimiques ouverte PubChem gérée par la National Library of Medicine américaine, a augmenté la visibilité et l’accessibilité de ce type de données sur Internet. Une aubaine pour le chercheur qui dispose ainsi d’un offre plus grande, en terme de contenu et de moyen d’accéder à l’information qui l’intéresse. Ou encore, la mise à disposition du logiciel d’images satellitaires et données géographiques Google Earth — qui couvre toute la planète avec une excellente ergonomie et précision — a inspiré de très nombreuses utilisations originales. Le journaliste de Nature Declan Butler a par exemple construit une représentation spatiale des foyers de grippe aviaire (fichier .kml), en croisant la puissance de Google Earth avec les données de l’Organisation mondiale de la santé et de l’Organisation des Nations Unies pour l’alimentation et l’agriculture.

On nomme cette intégration automatisée de données complémentaires en provenance de plusieurs sources le “mash-up”, sur lequel parient aussi les écologues avec leur projet iSpecies qui intégre, pour chaque espèce recherchée, des données bibliographiques issues de Google Scholar, des données iconographiques issues de Yahoo Images et des données taxinomiques du National Center for Biotechnology Information. Le mash-up autorise aussi l’intégration des disciplines et échelles biologiques pour mieux comprendre des systèmes biologiques complexes comme le cerveau ou la biodiversité ; ces deux thématiques font l’objet d’une politique d’incitation dans ce sens, sous l’impulsion d’un rapport d’un groupe de travail de l’OCDE. Dans le second cas, cela se concrétise notamment à travers l’initiative Global Biodiversity Information Facility.

L’ouverture des bases de données et la standardisation des normes de stockage et d’annotation permet d’envisager la fouille de données, utile pour faire parler des données volumineuses et en tirer des informations complètement nouvelles, par exemple sur les relations entre gènes et maladie, facteurs environnementaux et maladie ou autres. Sans compter que ces pratiques émergentes vont se développer en même temps qu’elles se banaliseront et que les outils existants s’y adapteront.

Enfin, l’existence de bases de données ouvertes est aussi un espoir pour les chercheurs des pays en voie de développement qui ne peuvent se payer l’accès aux bases de données privées et payantes. Ainsi, l’apparition du PubChem comme possible alternative gratuite à l’incontournable base Chemical Abstracts a été vécue comme un soulagement dans ces pays, et combattue avec vigueur par l’American Chemical Society qui gère Chemical Abstracts.

Société impliquée

De manière plus inattendue, l’ouverture des données issues de la recherche peut contribuer à impliquer de nouveau la société civile dans la science. D’abord parce que c’est une manière de lui retourner les résultats de la recherche qu’elle finance indirectement par ses impôts. Ensuite parce que c’est un moyen d’intéresser le public à la science, comme le suggère l’engouement incroyable autour du logiciel Google Earth et son appropriation par le jeu des mash-ups (voir des exemples sur le Google Earth Blog ou Ogle Earth. À ce titre, la transposition par la France (avec plus d’un an de retard) de la directive européenne Inspire qui prévoit l’ouverture des données géospatiales est révélatrice d’un changement de mentalités.

On peut y voir aussi un facteur d’implication des citoyens dans les processus de décision de la recherche et de l’avènement d’une démocratie scientifique. Dans un modèle de science entièrement ouverte comme l’expérimente le forum Synaptic Leap, des chercheurs du privé et du public travaillent ensemble sur des médicaments contre certaines maladies tropicales négligées, notamment le paludisme et les schistosomoses ; tout le projet est mené en ligne, les données y sont publiées et les résultats sont sous licence libre. Et les citoyens de proposer des thèmes de recherche, comme la chikungunya.

Cliquer ici pour voir la vidéo.

Ou encore, s’ils s’engagent dans des débats de plus en plus complexes scientifiquement, ils gagnent à avoir accès aux mêmes données que les chercheurs — à condition qu’ils aient la culture scientifique nécessaire à une bonne interprétation de ces données. L’affaire du “climategate” marquée par le piratage des serveurs d’un laboratoire de recherche sur le climat en Grande-Bretagne, a montré que la science avait plus à perdre — notamment en terme de confiance — à cacher ses données qu’à les rendre publiques. Après avoir refusé à plusieurs reprises d’obtempérer à des demandes relevant du Freedom of Information Act, ce laboratoire a lancé une réflexion sur l’ouverture de ses données, en partenariat avec le British Atmospheric Data Centre, habitué de la publication des données sur le climat.

Finalement, après l’accès libre aux articles scientifiques qui se dessine depuis le début des années 2000, l’accès libre aux données de la recherche est la deuxième étape de cette ouverture de la science en marche. Il ne fait aucun doute que ce mouvement va s’amplifier et s’imposer dans le futur, et il appartient aux chercheurs mais aussi aux citoyens de le soutenir. L’étape suivante sera l’accès libre aux technologies — à commencer par les biotechnologies —, mise en commun nécessaire pour sortir du piège du “tout-brevet”. Cette étape s’ébauche déjà à travers quelques projets et devrait avoir in fine un impact considérable sur la science mais aussi l’économie et la société.

Pour en savoir plus

>> Article initialement publié sur le blog “Mon bouillon”

>> Illustration CC Unhindered by Talent, ldodds et Jerrycharlotte

>> Retrouvez tous les articles d’OWNIsciences

]]>
http://owni.fr/2010/12/08/donnees-liberees-chercheurs-debrides-societe-impliquee/feed/ 4