À défaut de réduire la collecte des données, comment les altérer?

Le 5 février 2011 Hubert Guillaud

Des chercheurs ont créé un algorithme qui altère des données génétiques ou médicales afin de les anonymiser tout en permettant aux chercheurs de les utiliser.

Toutes les données sont devenues personnelles, écrivions-nous il n’y a pas si longtemps, montrant combien anonymiser les données devenait difficile, à l’heure où les champs de données eux-mêmes génèrent de l’identifiabilité. Paul Ohm (blog, [en]), dans un article important sur l’étonnant échec de l’anonymisation [en] annonçait déjà, qu’il n’y aurait pas de solutions miracles : “les mesures qui sont prises augmenteront la confidentialité ou réduiront l’utilité des données, mais il n’y aura aucun moyen de garantir à la fois une utilité maximale des données et une confidentialité maximale.”

Dans la Technology Review [en] on apprend que des chercheurs du Laboratoire de protection des renseignements médicaux [en] de l’université Vanderbilt ont créé un algorithme pour altérer des données génétiques ou médicales afin de les anonymiser tout en permettant aux chercheurs de les utiliser.

Les enregistrements médicaux comportent de nombreuses informations sur les patients, allant de leur âge à leur historique médical. Quand ces données sont utilisées par des chercheurs, elles sont “anonymisées”, c’est-à-dire qu’on enlève les identifiants directs comme le nom ou l’adresse, mais pas bien sûr les diagnostics et leurs historiques. Le problème est qu’il n’est pas difficile d’utiliser ces historiques pour ré-identifier une personne. Dans l’article publié dans Proceedings of the National Academy of Sciences par Bradley Malin [en] et ses collègues, ceux-ci estiment qu’ils sont capables d’identifier 96 % des patients en se basant seulement sur leurs historiques médicaux.

Pour résoudre ce problème, l’équipe du Laboratoire de protection des renseignements médicaux a conçu un algorithme capable de chercher dans une base de données les combinaisons de diagnostic qui distinguent un patient d’un autre et de les substituer par d’autres. Ainsi, le code qui distingue une ostéoporose post-ménopause pourrait devenir une simple ostéoporose… L’algorithme injecte des informations altérées afin de rendre les enregistrements des patients non identifiables. L’algorithme serait également capable d’ajuster le niveau d’anonymisation aux besoins des chercheurs, selon leurs recherches.

Quelques limites

Cette nouvelle approche comporte néanmoins quelques limites estiment les chercheurs : le système fonctionne mieux quand les chercheurs ont un but précis, afin que les bonnes données, qu’ils cherchent à exploiter, soient préservées par le système. Ce qui signifie qu’une même extraction ne pourrait pas servir à plusieurs recherches. Inversement, accéder à plusieurs extractions d’un même ensemble devrait certainement permettre, en les croisant, de rétablir les données altérées…

Si l’avenir de la science dépend de la façon de tirer parti d’informations existantes dans des silos de données, l’anonymisation de l’information demeure une question primordiale. Comme souvent, les chercheurs semblent pragmatiques : il leur faut maximiser le bénéfice scientifique tout en contrôlant les risques quant à la vie privée.

L’intérêt en tout cas de l’algorithme mis au point par les chercheurs, est de permettre d’aller plus loin qu’une fausse anonymisation des données et de montrer que la science prend le problème au sérieux. Reste que plutôt que d’augmenter la confidentialité des données, on devine que c’est l’autre option sur laquelle tout le monde va travailler : trouver les moyens d’en réduire l’utilité à minima. C’est la piste que tracent ces premières recherches… Il est possible que ce ne soient pas les dernières.

—

Article initialement publié sur InternetActu en avril 2010

Image CC Flickr sombraala

Voilà à quoi pourrait ressembler la commande d’une pizza en 2015…

Internet, grand absent de la littérature contemporaine

Facebook♥ Twitter♥ ♥ RSS

Un
commentaire Fermer

Laisser un commentaire

Derniers articles publiés

Une Vive Internet! Inédit • 14 décembre 2012

[Infographie] 10 ans de Creative Commons

par Sabine Blanc

Cette semaine, Creative Commons fête ses dix ans dans le monde entier. Une décennie d'alternative à une vision maximaliste de la propriété intellectuelle qui a su conquérir le grand public. Owni, un des rares médias en CC en France, vous retrace cette histoire en une infographie interactive.

Twitter Facebook 188

creative commons, droit d'auteur, Lawrence Lessig

Graphisme Chronique • 14 décembre 2012

Charte de confidentialité : des icônes pour informer

par Geoffrey Dorne

Personne - ou presque - ne lit les politiques de confidentialité. Pour simplifier les choses et rendre compréhensible ce que fait chaque site avec vos données, designers, citoyens et experts soutenus par la fondation Mozilla ont mis en place une liste d'icônes. Tour d'horizon de l'initiative.

Twitter Facebook 223

Art, CGU, création, design, graphisme, icone, icônes, picto, pictogramme, vendredi-graphism, vie privée

droit Chronique • 14 décembre 2012

Les Creative Commons hackent le droit d’auteur !

par Lionel Maurel (Calimaq)

Toute la semaine, ce sont les dix ans des Creatives Commons. L'occasion pour notre chroniqueur Calimaq de revenir sur le projet : réussites, limites et défis à relever.

Twitter Facebook 344

#cc10, creative commons, droit d'auteur, licences libres

Une Vive Internet! Édito • 13 décembre 2012

Offrez-vous un Owni

par Media Hacker

Des milliers de témoignages de réconfort et de soutien, et beaucoup évoquant le souhait de participer financièrement. Il nous reste à déterminer si cette somme de bonnes intentions peut effectivement transformer notre modèle économique et faire vivre le média.

Twitter Facebook 602

42, financement, Internet, médias, owni

Presse Enquête • 13 décembre 2012

Google : chêne ou roseau?

par Andréa Fradin

Google et les éditeurs de presse belges ont enfin trouvé un accord. Pour Le Monde, cela veut dire que "la presse peut faire plier Google" et que les titres français peuvent espérer profiter d'un effet "boule de neige". En fait, c'est un poil plus compliqué. Explications.

Twitter Facebook 78

belgique, Copie presse, éditeurs de presse, Google, IPG, Laurent Joffrin, lex google, médiation

L'auteur

Hubert Guillaud

Suivre sur Twitter

En savoir +

Tags pour cet article:

algorithme, anonymisation, données personnelles, sciences

Du même auteur:

Open Data, un premier bilan français

Six mois après le lancement du portail gouvernemental de libération des données publiques Etalab, de nombreuses initiatives ont fleuri partout dans l'hexagone. Ces projets foisonnants permettent à Hubert Guillaud de dresser un premier bilan de la situation de l'Open Data en France sur Internet Actu, dans un papier que nous republions ici.

210

Sceptiques des TICE

Présentées par certains comme la dernière panacée, les Technologies de l'Information et de la Communication pour l'Enseignement ne font pas l'unanimité. Exemples aux États-Unis.

104

Loisir: bricolage (numérique)

Dans une société numérique où les objets de consommation ne sont pas toujours conçus pour interagir entre eux, comment adaptons-nous nos usages? L'ethnographe Philip Ely a étudié ce do-it-yourself moderne.

Est-ce que la technologie désurbanise la ville ?

Retour sur un des thèmes abordés dans le cadre de la conférence Lift France. La sociologue et économiste américaine Saskia Sassen a, entre autres, exposé son point de vue.

213

Le papier contre le numérique

Pour certains, la cause est entendue : en changeant de support, nous avons perdu de notre capacité à nous plonger dans de longs textes. Un point de vue trop simpliste, comme en témoignent les analyses présentées dans ce texte.

324

Voir tous les articles