Préservation numérique : léguer le savoir | Février 2013


Garantir l’accessibilité du passé au futur

La préservation numérique assure la réutilisation future des données stockées face aux effets néfastes de l’obsolescence des technologies. C’est même devenu un enjeu capital dans un environnement où les technologies sont remplacées, de plus en plus rapidement, par des solutions de plus en plus performantes.

Aussi importante soit-elle, la préservation numérique est un concept que peu de personnes connaissent mais impliquant chacun d’entre nous.

À l’ère d’internet pour tous, la majorité des informations sont numériques : albums photos, notes, lettres, films, comptabilité, documents. De l’entreprise à l’individu, les données numériques sont devenues notre lien avec le passé et leur conservation, une priorité. 

Le volume de données créées directement sur ordinateur ou numérisées s’accroit de manière exponentielle et accélérée. Dans ce monde virtuel en mutation permanente, avec ses nombreuses activités complexes et ses changements rapides d’environnement technologique, la mise en place de mesures de gestion et de conservation, en vue d’utiliser efficacement les ressources numériques depuis leur création, est nécessaire. 

Leur préservation est l’ensemble des activités liées à la gestion du cycle de vie des données pour assurer la transmission des informations aussi longtemps que nécessaire. Elle doit également prendre en compte la durée de vie limitée des supports de stockage (data rot) et les changements logiciels et matériels.

 

Du papier au numérique

Depuis des millénaires, la société humaine a utilisé des supports matériels tangibles, tels la roche, le tissu, le parchemin ou le papier…, comme bases d’archivage de la mémoire, préservant ainsi des informations précieuses pour les générations futures. Ces supports présentent l’avantage de ne nécessiter aucun équipement pour les lire et de se conserver longtemps.

À titre d’exemple, la grotte de Lascaux a permis aux archéologues contemporains d’établir, sur la base de dessins ornant les murs, des interprétations sur les modes de vie d’une civilisation ayant existé il y a environ 17 000 ans.

En 1995 déjà, Jeff Rothenberg, un des principaux partisans de la préservation numérique, attirait l’attention du public sur l’obsolescence rapide des supports et la récupération difficile des informations présentes sur des bandes magnétiques ou sur des disquettes par les générations futures.

Cet avenir sombre, sujet à controverse, est nommé en anglais Digital Dark Age, qui provient de Dark Age décrivant une période allant de la chute de l’empire Romain au début de la Renaissance pour laquelle peu d’écrits sont disponibles.

La révolution internet a engendré un phénomène voulant que l’information ne soit plus sur support  papier. Aujourd’hui, bien que nous ne soyons pas encore dans un Digital Dark Age, nous rencontrons cette problématique liée à cette absence de support physique. La fragilité ainsi que l’aspect éphémère des contenus en ligne l’accentuent.

De nombreux sites internet, avec leurs contenus associés, disparaissent déjà suite à leur incompatibilité technologique avec de nouveaux équipements tels que les Smartphones et Tablettes.

 

Le tsunami de données

L’accélération du tempo technologique, combiné aux nouveaux usages sociaux numériques, engendre une explosion du volume d’informations numérisées et de facto un phénomène d’ « infobésité » : l’humanité produit autant d’informations en deux jours qu’elle ne l’a fait en deux millions d’années, et d’ici huit ans, cette masse vertigineuse devrait être cinquante fois supérieure.

Face à ce volume de données croissant, de nouvelles techniques et pratiques numériques apparaissent afin d’identifier les données devant être préservées ou supprimées. La préservation numérique est l’une de ces nouvelles techniques. 

Plus qu’un simple processus, la préservation numérique tire parti des trends  technologiques actuels tels que les Big Data, la Curation, le Cloud Computing, le Knowledge Managament et/ou les médias sociaux et le Business Intelligence : les Big Data pour traiter les informations , la Curation pour gérer les informations,  le Cloud Computing pour stocker les informations de manière sûre, le Knowledge Management et/ou les médias sociaux pour partager et faire évoluer les données et connaissances,  le Business Intelligence pour exercer veille informative.

De nombreuses structures, notamment des entreprises, mettent en place des systèmes participatifs et collaboratifs pour gérer, conserver et faire évoluer leurs données et connaissances.

La préservation numérique est un enjeu capital afin que les informations d’hier et d’aujourd’hui contribuent aux développements futurs de l’entreprise. En effet, la compréhension ou la réutilisation des informations anciennes peuvent se révéler aujourd’hui très utiles pour l’entreprise.

Certaines données sont également soumises à un cadre légal imposant une durée de conservation. En Suisse, cette durée est généralement de 10 ans. Toutefois, il est recommandé de conserver à vie des documents importants, tels que les statuts d’une société ou des actes de succession, à titre de preuves, afin d’éviter tout litige futur éventuel.

 

Les données numériques en héritage

Si, comme nos ancêtres, nous souhaitons transmettre des informations à travers le temps pour qu’elles puissent être réutilisées, la durabilité des supports de stockage et la capacité de lire ces informations sont primordiales.

La préservation numérique regroupe donc l’ensemble des activités liées au cycle de vie des données incluant notamment la curation et la préservation.

La curation englobe les activités de conceptualisation, création, réception, évaluation/sélection, diffusion/partage des données.

La préservation englobe les activités d’archivage, stockage, migrations technologiques, accessibilité et transformation des données.

La préservation numérique lie ces deux activités distinctes en un seul cycle de vie itératif. Pour la curation, l’archivage, l’accessibilité, la réévaluation et la transformation des données permettent aux données soit d’avoir un nouveau cycle de vie, soit d’être supprimées.

 

Des implications insoupçonnées

Le paradigme a radicalement changé depuis Gutenberg. En effet, les documents ne sont plus aussi  statiques. Ils sont modifiables rapidement et peuvent être copiés rapidement d’un support à un autre.

Aujourd’hui, un document est constitué ou créé à partir de connaissances provenant d’autres documents ou sources. Ce nouveau paradigme est également amplifié par l’hypertexte d’internet.

En effet, chaque lecteur a une vision différente en fonction de l’utilisation qu’il fait des différents liens à disposition.

Ce changement de paradigme transforme également la manière dont nous devons préserver les documents. Il est donc fondamental, pour que la préservation numérique soit efficace, de s’interroger depuis la conception, sur la manière et sur les informations qui seront conservées en lien avec le document principal. Il est en effet important pour le lecteur de s’approprier toutes les connaissances acquises depuis le début de la lecture du document.

Encore plus primordiales sont la définition et la description du contenu lui-même : des études démontrent que des utilisateurs suppriment des fichiers archivés, parfois importants, de manière totalement arbitraire ou sur la seule base du nom de fichier sans en consulter le contenu.

La préservation numérique est bien plus qu’une prise de conscience de l’obsolescence technologique. Elle requiert une attention continue et répétée dans le temps sur tous les objets stockés.

 

L’importance des métadonnées

Les informations descriptives d’un fichier appelées métadonnées permettent d’identifier et d’accéder rapidement au contenu sans devoir prendre connaissance de son intégralité.

La création des métadonnées est réalisée lors de la phase de conception. Un des problèmes souvent rencontrés est leur traitement minimaliste voir leur inexistence, et ce , malgré le fait que la plupart des logiciels et applications en ligne permettent d’insérer des métadonnées de contenu comme le titre, le sujet, les mots clés, la catégorie et le statut du document. 

 

La valeur des données

Au niveau du grand public, la valeur attribuée à un document est principalement sentimentale ou légale. Pour les entreprises, la préservation numérique a certes des aspects légaux, mais également des composantes économiques et marketing, donnant ainsi une échelle de valeur à la donnée numérique.

La préservation numérique est issue d’une demande dérivée, terme marketing qui désigne l’effet d’une demande d'un autre produit ou service. La demande initiale est dans l’accessibilité et l’utilisation des données dans le futur.

 

Les dimensions économiques des données

Au niveau économique, la valeur des données numériques  peut être divisée en trois catégories :

- biens de consommation non riveaux

- amortissements durables

- dépedance au sentier

Les données numériques peuvent être assimilées à des biens de consommation et/ou ressources non rivaux, terme économique qui désigne un bien pouvant être consommé par plusieurs acteurs en même temps. En théorie, cette consommation n'a pas de coût. S’il y a coût, il est lié à la technologie et à la main d'œuvre mises en place pour garantir le cycle de vie. 

Les données numériques stockées/archivées sont donc aussi apparentées à des biens amortissables sur le long terme dans l'entreprise. Elles perdent graduellement de leur valeur jusqu’à ce qu’elles soient réévaluées ou modifiées dans leur cycle de vie, leur estimation étant alors réajustée.

Une autre notion est la dépendance au sentier. Cette théorie explique que les décisions passées influencent les décisions futures.

Cette relation entre le comportement actuel, les possibilités futures, le coût et la qualité associée à cette utilisation, est affectée par notre activité présente. Lorsqu’une stratégie de préservation numérique est décomposée, le temps est alors le mieux compris : le temps ici n’est pas sous forme d’un calendrier, mais d’un concept tel le modèle du cycle de vie de l’information (information lifecycle model).

Dans ce modèle, le temps est compressé en tranches imprécises, telles que maintenant, bientôt et plus tard ou en tranches de processus telles que création, utilisation/réutilisation et stockage.

C’est lors de la phase de création que la décision de valeur à long-terme est évaluée et fixée, mais c’est également à ce moment qu’il faut prendre aussi la décision de conserver ou supprimer ce bien après son utilisation.

 

La maîtrise de la préservation numérique

Ce dernier point soulève une voire deux interrogations : si, un jour, la machine devenait supérieure à l’intelligence humaine comme l’avance la théorie de la singularité technologique, quelles seraient les données à conserver ou à supprimer ? Qui déciderait ? Et si le problème n'était pas l'obsolescence technologique mais la capacité de l’être humain à gérer les données qu’il a créées ?

Pour en prolonger la réflexion - nos sources :

-Blue Ribbon Task Force, sustainable digital preservation and access, [en ligne], 2010, http://brtf.sdsc.edu/biblio/BRTF_Final_Report.pdf, [consulté le 28 janvier 2013] ;
-Kurt D. Bollacker, Avoiding a digital dark age, American Scientist, Volume 98 [en ligne], 2010, http://www.americanscientist.org/issues/pub/avoiding-a-digital-dark-age/1, [consulté le 28 janvier 2013] ;
-CBS News, Keeping up with Data Rot, [en ligne], 2009, http://www.youtube.com/watch?v=jtqsCm-ZKYY, [consulté le 28 janvier 2013] ;
-Angela Dappert et Markus Enders, Digital preservation, National Information Standards Organization (NSIO), [en ligne], 2010 ; http://www.loc.gov/standards/premis/FE_Dappert_Enders_MetadataStds_isqv22no2.pdf, [consulté le 28 janvier 2013] ;
-DCC, DCC Curation Lifecycle Model, [en ligne], 2013, http://www.dcc.ac.uk/sites/default/files/documents/publications/DCCLifecycle.pdf, [consulté le 28 janvier 2013] ;
-Digital Preservation Coalition, Digital Preservation Handbook, [en ligne], 2013, http://www.dpconline.org/advice/preservationhandbook/introduction, [consulté le 28 janvier 2013] ;
-Catherine Marshall, Challenges and opportunities for personnal digital archiving, [en ligne], 2011, http://www.csdl.tamu.edu/~marshall/I-Digital-Marshall.pdf, [consulté le 28 janvier 2013] ;
-Jeff Rothenberg, Ensuring the longevity of Digital Documents, Scientific American, Volume 272, [en ligne], 1995, http://www.clir.org/pubs/archives/ensuring.pdf, [consulté le 28 janvier 2013] ;
-Gabriel Siméon, Données le vertige, Libération, [en ligne], 2012, http://www.liberation.fr/economie/2012/12/03/donnees-le-vertige_864585, [consulté le 28 janvier 2013] ;
-Rebecca Webster, Sorting, appraising and metadata creation for deposited personal collections, [en ligne], 2012, http://wiki.opf-labs.org/display/SPR/Sorting%2C+appraising+and+metadata+creation+for+deposited+personal+collections, [consulté le 28 janvier 2013] ;

Source image (consultée le 28 janvier 2013) :

DCC, DCC Lifecycle Model, Creative Common Attribution License [en ligne], http://www.dcc.ac.uk/sites/default/files/lifecycle_web.png, [consulté le 28 janvier 2013] ;


dossier préparé par:


Thierry Boudol, Romano Hotz, Cyrille Lacroix