Skip to main content
SearchLogin or Signup

Voir le littéraire : la visualisation de données et le Projet des Registres de la Comédie-Française

Traduit de l'anglais par Grégoire Menu

Published onOct 07, 2020
Voir le littéraire : la visualisation de données et le Projet des Registres de la Comédie-Française
·
key-enterThis Pub is a Translation of

L’éclatante réussite technologique du Projet des Registres de la Comédie-Française (RCF) suscite une question banale : et maintenant ? En d’autres termes, maintenant que les registres des recettes quotidiennes tenus par la troupe du Français entre 1680 et 1793 ont été mis en ligne à la disposition du public, quelles questions chercheurs et amateurs du théâtre de la première modernité peuvent-ils poser à cette mine de sources historiques désormais facilement accessibles dans une base de données1 ? Bien entendu, cette question, qui n’a que l’apparence de la banalité, trouve dans un premier temps une réponse évidente. Le Projet RCF permet de classer rapidement un très grand nombre de données selon des paramètres de recherche qui révèlent des tendances récurrentes dans les activités quotidiennes du théâtre. Ces questions peuvent aller des plus attendues – quelles pièces étaient le plus souvent jouées ? Qui en étaient les auteurs ? Combien de places étaient vendues à chacune de leurs représentations ? – aux plus subtiles – est-il « possible de retracer la radicalisation des sujets de la monarchie au cours du [XVIIIe] siècle en étudiant leurs goûts théâtraux2 » ? Ainsi le Projet RCF est-il un outil inestimable pour l’enquête et l’analyse historiques.

Cette question « et maintenant ? » engage néanmoins une série d’enjeux plus complexes relatifs à la culture de l’imprimé, à l’analyse de données, à la phénoménologie de l’observation scientifique, à la production du savoir, voire à la nature même des sciences humaines. Certes, les recherches permises par le Projet RCF ont toujours été possibles. Les registres de comptes, disponibles depuis bien longtemps à la Bibliothèque-Musée de la Comédie-Française, ont donné lieu à des analyses extrêmement productives, bien que plus conventionnelles. En ont découlé des travaux d’importance, tels que La Comédie-Française : histoire administrative (1658-1757) de Jules Bonnassies au XIXe siècle, The Comédie-Française, 1680-1701. Plays, Actors, Spectators, Finances (1941) de H. C. Lancaster et, du même auteur, l’ouvrage de référence en neuf volumes A History of French Dramatic Literature in the Seventeenth Century (1929-1942). Plus récemment, on pourrait citer La Mise en scène du répertoire à la Comédie-Française (1680-1815) de Sabine Chaouche et l’étude de Jan Clarke sur le théâtre Guénégaud, antérieur à la Comédie-Française3. Cependant, le Projet RCF a la spécificité de nous offrir quelque chose de différent. En appliquant aux relevés comptables les nouvelles technologies numériques – imagerie haute définition, classification algorithmique, classements croisés, extraction de données et outils de visualisation – le Projet RCF permet de faire apparaître, au sein de ces registres, des tendances et des structures qui n’auraient peut-être pas pu être décelées par des recherches en archives plus traditionnelles. De manière alléchante, il autorise à penser qu’un nouveau type de connaissance est à notre portée, non seulement en ce qui concerne l’histoire de la Comédie-Française mais aussi, plus largement, les principes même d’investigation en sciences humaines. En effet, les débats au sujet de ce champ en pleine évolution que sont les jeunes humanités numériques ont fait naître l’idée que la modélisation informatique met au jour des mécanismes jusque là imperceptibles dans les arts et les sciences humaines de manière analogue à ce que permirent le microscope et le télescope pour les sciences physiques à la Renaissance4.

Dans la présentation qui suit, je voudrais faire deux observations simples : premièrement, que les projets d’archives numériques comme le Projet RCF incitent à produire des visualisations qui rendent compte des informations qu’elles abritent et, deuxièmement, que ces visualisations ont la capacité de nous dire quelque chose de nouveau que nous ne pouvions percevoir auparavant et que nous ne savions peut-être même pas chercher. Dans le cas du Projet RCF, les visualisations s’appuient sur des données dites « brutes », rassemblées à partir de reproductions numériques haute définition des registres des recettes quotidiennes [Fig. 1]. Ces informations ont été extraites et le site du projet en propose une transcription visuelle sous forme de graphiques5 [Fig. 2].

Figure 1. Registre R12, Saison 1680-81. Flipbook du Projet RCF.

<p>  </p><p>—</p><p>Figure 2. <a href="https://www.cfregisters.org/app">Tableau croisé dynamique</a>, Projet RCF.</p><p></p>

Figure 2. Tableau croisé dynamique, Projet RCF.

Lorsque l’on regarde la visualisation que propose la Figure 2, on découvre, par exemple, la fréquence, par décennie, à laquelle étaient représentées les pièces d’un auteur mentionné dans les registres. Si l’on utilise un autre ensemble de variables associées à un autre ensemble de questions, les recettes par auteur en fonction des revenus moyens annuels nous sont présentées [Fig. 3].

<p>  </p><p>—</p><p>Figure 3. <a href="https://www.cfregisters.org/app">Tableau croisé dynamique</a>, Projet RCF.</p>

Figure 3. Tableau croisé dynamique, Projet RCF.

Si l’on se concentre sur la production d’un auteur en particulier, disons Molière, la répartition de ses pièces par année et par jour de la semaine apparaît [Fig. 4].

<p>  </p><p>—</p><p>Figure 4. <a href="https://www.cfregisters.org/fr/nos-données/faceted-browser">Recherche par facettes</a>, Projet RCF.</p>

Figure 4. Recherche par facettes, Projet RCF.

Dans chacun de ces exemples, l’action de voir que nous effectuons est qualitativement différente, du moins en surface, de celle qui caractérise habituellement le travail en archives et qui consiste à trier, à compiler, à passer au tamis – en un mot, à lire. Je voudrais montrer que voir des données (littéraires) n’est pas un acte scientifique et conceptuel anodin. Est-il possible de concevoir pour les études littéraires une approche fondée sur des données qui serait dépourvue d’outils de visualisation rendant ces données lisibles ? Quelle forme d’être ont les données si elles ne sont pas données à voir ?

Je voudrais examiner les enjeux de la forme visuelle singulière que les projets en humanités numériques, à l’instar du Projet RCF, ont tendance à prendre et me demander si la prédominance d’interfaces visuelles ne serait pas l’occasion de reconsidérer les principes de l’enquête en littérature, notamment les modalités de l’interprétation et de la construction du sens, mais aussi la rationalité, la subjectivité, la conscience, voire la conception même de l’humain. Bernard Stiegler a récemment écrit qu’un capitalisme numérique et purement informatique en est venu à définir l’anthropocène du XXIe siècle, de sorte qu’un futur s’opposant à ce qu’il appelle l’entropie d’une autonomisation numérique totale exige des manières nouvelles d’imaginer la richesse et la valeur6. Dans le même ordre d’idée, je voudrais étudier comment l’usage des technologies numériques dans les sciences humaines pourrait nous inviter à imaginer de possibles futurs à notre conception et notre étude du littéraire. Pour le formuler de façon schématique, les méthodes numériques de visualisation d’informations ne sont-elles qu’un outil permettant de voir le littéraire ou bien constituent-elles les conditions d’émergence d’une nouvelle compréhension des études littéraires ? La visualisation spécifiquement littéraire a-t-elle une esthétique ? A-t-elle, en tant qu’image, le pouvoir de produire des affects, par exemple ? A-t-elle sa propre agentivité ? Ou encore, comme le théoricien des nouveaux médias Matthew Fuller le demande au sujet de l’artiste Kurt Schwitter, a-t-elle une poétique matérielle ? Est-ce qu’elle « fait le monde, y joue un rôle et, en même temps, synthétise, empêche ou rend possible d’autres mondes [qui] s’immiscent subrepticement dans ceux où nous nous satisfaisons apparemment de vivre, les amplifiant ou les transformant7 [?] » Selon les termes de Mark Hansen, « plutôt que de trouver l’instanciation dans une forme technique privilégiée (y compris l’interface informatique) », comment accepter que l’image numérique « caractérise désormais le processus même suivant lequel le corps donne forme à l’information, ou l’in-forme, en relation avec les différents dispositifs permettant de la rendre perceptible8 [?] » Autrement dit, la visualisation est-elle non pas seulement représentative, mais aussi constitutive des objets de l’enquête littéraire9 ?


I. Inquiétantes données

Je voudrais insister sur un fait que de nombreux chercheurs ont déjà mis en évidence : l’analyse numérique est bien loin d’être prothétique. Ce n’est pas un outil critique que l’on projette sur des données historiques et textuelles ou que l’on applique à ces données sans les altérer. (À cet égard, il ne semble pas inutile de répéter que l’analyse informatique n’est pas différente de son ancêtre traditionnel, l’archive.) De très nombreuses études démentent l’hypothèse qui prévaut dans les médias non spécialisés selon laquelle les données elles-mêmes seraient d’une certaine manière pré-analytiques, pré-factuelles, pré-idéologiques, et qu’aujourd’hui l’analyse du big data présage la révélation de vérités demeurées jusqu’ici invisibles à l’observation humaine10. Comme Rob Kitchin le remarque, les données dites « brutes » et les infrastructures qui les hébergent ne sont en fait jamais « brutes » mais situées socialement, politiquement et matériellement. Elles sont « des systèmes sociotechniques complexes qui s’inscrivent dans des paysages institutionnels plus larges impliquant des chercheurs, des institutions et des entreprises. Ils constituent ainsi des outils essentiels à la production de connaissance, d’autorité et de capital11 ». Les données ne prennent sens que dans la mesure où on leur attribue ce que l’on pourrait appeler une forme narrative. Comme l’ont montré plusieurs penseurs, il faut établir des corrélations et des liens entre les « événements de données » pour leur donner du sens. Par exemple, le big data « concerne moins des données qui seraient importantes que la capacité d’explorer, d’agréger et de croiser des ensembles importants de données12 ». La possibilité de prédictions précises, véritable graal pour les analystes de données (possibilité anticipée – et problématisée – dans Minority Report, la nouvelle de Philip K. Dick sur la police prédictive), dépend précisément des dérivations algorithmiques de structures récurrentes à partir de données personnelles régulièrement et automatiquement collectées13.

Toutefois, l’application du numérique aux arts et aux sciences humaines met en lumière et, comme je voudrais le montrer, distille en leur sein une inquiétude épistémologique fondamentale, qui mine la promotion actuelle de l’analyse de données et des promesses de progrès qu’elle porte pour la recherche scientifique, les grandes entreprises et la sécurité nationale. Les modes d’investigation propres aux sciences humaines ne relèvent pour la plupart pas de la quantification et constituent de la sorte un point d’achoppement des technologies liées à la gestion des données. Nombreux sont les chercheurs et les experts à avoir identifié ce que l’on pourrait appeler une altérité épistémologique tapie dans la neutralité et l’objectivité apparentes des connaissances générées par la « révolution du big data ». À chaque article publié dans le magazine Wired annonçant que la pensée théorique est obsolète, qu’hypothèses et expérimentations sont désormais dépassées, et que les inférences de la logique causale ont été remplacées par les vérités de la corrélation algorithmique – « avec suffisamment de données, les nombres parlent d’eux-mêmes14 » – répond une série de mises en garde soulignant qu’« il n’y en aura jamais assez15 », selon la juste formule de Kate Crawford. Google collecte des données et ses algorithmes révèlent des récurrences, mais nous ne savons pas toujours ce qu’elles veulent dire ; nos agences de sécurité n’auront jamais suffisamment de données pour prédire le prochain complot terroriste, ou elles en auront tellement qu’elles ne pourront que se lancer dans une chasse aussi effrénée qu’inutile. Ainsi que l’écrit Frank Pasquale, alors que notre « botte de données » grandit indéfiniment de manière exponentielle et automatique, nous ne pouvons qu’espérer « qu’apparaisse un jour une aiguille [dans la botte]16 ». La collecte de données nécessite des mécanismes pour « faire face à l’abondance, à l’exhaustivité et à la variété, à la rapidité et au dynamisme, au désordre et à l’incertitude, à une haute interconnexion et au fait que la plupart [des données] sont générées sans que l’on ait une question spécifique en tête17 ». Que faire de toutes ces données (question à laquelle les réseaux sociaux et les entreprises de marketing ne répondent que trop volontiers)18 ? En d’autres termes, et pour en revenir à notre question de départ, et maintenant ?

Une fois cela posé, les sciences humaines semblent offrir une chance unique d’éprouver les gains et les limites d’une recherche fondée sur l’analyse de données. Le matériau culturel rassemblé sous l’étiquette « sciences humaines » est peut-être la meilleure expression du charme séducteur du big data. Car si les phénomènes conceptuels faisant de l’art ce qu’il est sont par définition non quantifiables et de ce fait impossibles à cartographier, une application réussie des technologies numériques aux mystères de l’art peut bénéficier à un niveau épistémologique aussi bien aux chercheurs en sciences humaines qu’aux apologistes du big data : les premiers peuvent espérer résoudre des difficultés herméneutiques qui, jusque-là, semblaient insolubles voire impossibles à formuler, quand les seconds peuvent louer les découvertes sans précédent permises par les modèles algorithmiques. Et si l’effet affectif de la couleur rouge pouvait être déduit de sa mesure dans un ensemble de données exhaustif ? Et si le sublime kantien pouvait être exprimé par un line graph ou un nuage de points ? À coup sûr, nous retrouvons ici les ambitions qu’avait formulées de manière provocante Franco Moretti lors de la publication de son Atlas du roman européen (1800-1900) en 199819. « [N]ous n’avons jamais vraiment essayé de lire la production littéraire passée dans toute son étendue », écrit Moretti une décennie plus tard. « L’analyse quantitative », conclut-il, « est un petit pas dans cette direction20 ».

Pour se faire une idée de l’espoir euristique que procure l’analyse de données mais aussi de l’anxiété épistémologique qui accompagne ses usages, il n’y a qu’à regarder très brièvement quelques études récentes qui suivent l’influent exemple Moretti et reprennent nombre de ses méthodes d’analyse. (Pour être tout à fait clair, je précise que mon intention n’est pas de remettre en cause la valeur de ces recherches innovantes et éclairantes. Au contraire, je souhaite utiliser ces travaux pour illustrer ce que je pense être quelques-unes des questions les plus intéressantes que nous puissions poser au présent et au futur des études littéraires – ainsi qu’à leur passé. Et bien qu’il y ait beaucoup de choses à dire à ce sujet, je ne vise pas à ouvrir ici la discussion avec ceux qui invitent à complexifier la critique et l’histoire littéraires fondées sur l’analyse de données, voire qui en questionnent la validité. Sont laissés de côté, dans le contexte du présent article, les problèmes – cruciaux – relatifs à la situation des humanités numériques dans l’économie néolibérale de l’Université, aux rôles de la critique culturelle et politique dans le recours aux données en sciences humaines, à la relation entre théorie et informatique, à la nécessaire historicisation de l’imaginaire social véhiculé par la culture numérique, et à ce qui est peut-être le plus important selon moi : la nature de la « littérarité » elle-même21).

Dans sa belle analyse des poétiques victoriennes, Natalie Houston a par exemple montré ce que nous pouvons apprendre sur l’histoire culturelle des textes de cette période, ainsi que sur leurs codes bibliographiques, visuels et linguistiques, en transformant les métadonnées provenant des catalogues qui répertorient des centaines de livres du XIXe siècle en des bases de données que l’on peut interroger et visualiser. Les chercheurs peuvent découvrir, écrit-elle, « quels sont les modèles récurrents de croissance ou de déclin dans la publication de poésie ; comment la proportion de poétesses et de poètes varie d’une décennie à l’autre en fonction d’un éditeur ou des genres poétiques ; et selon quelles modalités la poésie se répartit dans l’ensemble de la culture imprimée victorienne22 ». La visualisation que propose Houston nous donne le pouvoir de dépasser les limitations perceptives imposées par notre condition : la lecture numérique est une méthode « de recherche littéraire et d’interprétation qui tire parti de l’analyse informatique pour aller au-delà des limites humaines de la vision, de la mémoire et de l’attention23 ». Ainsi, ces visualisations incarnent ce que Catlijne Coopmans a appelé la capacité des logiciels d’analyse visuels « à dévoiler ce qui était resté caché jusqu’ici, à rendre accessible ce qui était autrement inaccessible24 ». En d’autres termes, la visualisation des données littéraires révèle ce à quoi nous n’aurions pas eu accès autrement ; les méthodes numériques mises au point par N. Houston rendent visibles les tendances qui traversent l’édition de poésie.

De la même façon, la visualisation proposée par Matthew Wilkins, qui s’est intéressé aux milliers de textes fictionnels parus aux États-Unis entre 1940 et 2010, constitue une démonstration graphique de nos limites humaines. Il est absolument impossible de lire l’immense production de livres publiés chaque année et M. Wilkins estime que les œuvres relativement peu nombreuses qui constituent notre canon littéraire et sur lesquelles nous nous appuyons traditionnellement ne peuvent prétendre nous dire quoi que ce soit de représentatif sur une ère de production littéraire et culturelle donnée. « Notre temps est fini », nous dit-il, à juste titre bien sûr, et de ce fait…

[n]ous devons faire moins d’explications de texte et plus de tout le reste, à savoir tout ce qui pourrait nous aider à extraire des informations des textes mais aussi des informations sur ces derniers, indicatives de problèmes culturels plus larges. Cela inclut la bibliométrie et la recherche en histoire du livre, la prospection de données et l’analyse de texte quantitative, l’étude économique du marché du livre et des autres industries culturelles, l’analyse géospatiale, etc.25

M. Wilkins touche ici à l’impossibilité pratique de l’idéal savant de minutie, de totalité, d’exhaustivité – bref, de maîtrise – entretenu depuis bien longtemps. Nous devrions faire « plus d’analyses algorithmiques et quantitatives d’ensembles de textes bien trop importants pour être approchés “directement” ». De cette manière, nous dit-il, nous pourrons « nous affranchir » du canon littéraire restreint et arbitrairement choisi sur lequel nous nous appuyons pour en arriver à ce qui compte vraiment : penser les tendances culturelles à grande échelle.

Autre cas : le travail réalisé par un groupe de chercheurs du Stanford Literary Lab met non seulement en évidence les découvertes qu’il est possible de faire grâce aux analyses statistiques de corpus littéraires numérisés dont la taille croît rapidement, mais il participe aussi du même espoir de maîtrise que celui qui anime M. Wilkins dans son essai. Dans l’une de leurs enquêtes, les chercheurs de Stanford ont classé les romans britanniques publiés entre 1770 et 1830 en fonction des critères de « popularité » et de « prestige ». En partant de la bibliographie de Raven et de Garside, les auteurs ont comparé, d’un côté, le nombre de romans réédités dans les îles britanniques durant cette période, combiné à celui de leurs traductions en français ou en allemand (une mesure, écrivent-ils, de « popularité »), avec, d’un autre côté, les travaux critiques du XXe siècle portant sur ces œuvres et répertoriés dans le Dictionary of National Biography et dans la base de données de la Modern Language Association (une indication, cette fois, de « prestige »). Les résultats de cette comparaison, présentés sous la forme de deux visualisations, prouvent que « dorénavant, une cartographie empirique du champ littéraire n’est plus seulement un doux rêve26 ».

Cette visualisation de données réalise avec succès ce à quoi n’étaient pas parvenus Pierre Bourdieu et son célèbre diagramme du champ littéraire français de la fin du XIXe siècle27, auquel les chercheurs de Stanford comparent leurs propres visualisations. Ils remarquent que l’influent modèle bourdieusien est artificiellement régulier dans sa distribution parce qu’il n’inclut aucune preuve empirique. Le travail du Stanford Literary Lab, par contraste, « fait “voir” le processus par lequel une œuvre intègre le canon littéraire28 » : les mesures permettent littéralement de visualiser la baisse de popularité au fil des années, le long de l’axe horizontal, pendant que leur prestige augmente le long de l’axe vertical. À l’instar d’un laboratoire d’astronomie traditionnel, le Stanford Literary Lab est sur le point de faire une découverte révolutionnaire : « nous travaillions jusqu’ici sur environ deux cents romans du XIXe siècle mais nous pouvons désormais en analyser des milliers, des dizaines de milliers, et demain des centaines de milliers. C’est un moment d’euphorie pour l’histoire littéraire quantitative. C’est comme avoir un télescope vous découvrant des galaxies complètement inconnues jusqu’alors29 ». La nature double du canon littéraire du XIXe siècle est ainsi rendue « visible30 » par le dévoilement de transformations auparavant imperceptibles.


II. Une résistance à la théorie

Le travail de Franco Moretti comporte nombre de ce qu’il nomme graphes, cartes et arbres littéraires. C’est, comme à son habitude, dans les termes les plus frappants que Moretti souligne l’importance de la visualisation des données littéraires. Dans un pamphlet de 2011 intitulé « Network Theory, Plot Analysis », provenant du Stanford Literary Lab et publié par la suite dans la New Left Review, Moretti s’intéresse à Hamlet et dit découvrir avec surprise qu’« Horatio a une fonction dans la pièce mais pas de motivation. Pas de but, pas d’émotions – pas de langage, en vérité, digne d’Hamlet. Je ne peux pas penser à un autre personnage aussi central dans une pièce shakespearienne et aussi plat dans son style31 ». Cette observation, écrit-il, est tirée de ce qu’il appelle la théorie des réseaux, « qui étudie les connections au sein de larges groupes d’objets32 ». Dans le cas d’Horatio, Moretti se demande, par une question rhétorique, s’il avait vraiment besoin de la théorie des réseaux pour en arriver à cette découverte. Il répond par la négative :

Je n’avais pas besoin de la théorie des réseaux mais j’avais probablement besoin des réseaux. Je pensais à Horatio depuis un certain temps – mais je n’avais jamais « vu » sa position dans les champs de force de Hamlet jusqu’à ce que j’en regarde les réseaux. « Vu » est le mot-clé ici. J’ai moins emprunté à la théorie des réseaux des concepts qu’une visualisation : la possibilité d’extraire des personnages et des interactions d’une structure dramatique et de les transformer en un ensemble de signes que je pouvais embrasser d’un coup d’œil, dans un espace en deux dimensions.33

L’essai de Moretti inclut cinquante-sept visualisations qui ont pour but de mettre au jour un certain nombre de relations indiscernables auparavant et des motifs récurrents dans l’intrigue de la pièce de Shakespeare.

Il serait injuste vis-à-vis de Moretti de suggérer que les modes de mesure et les instruments de visualisation qu’il propose font jouer les diagrammes et les graphes contre la théorie – en particulier parce qu’il défend ailleurs les implications proprement théoriques de l’informatique appliquée au littéraire et parce que ses analyses sont bien plus subtiles que ce que j’en présente ici. En outre, son travail n’est ni représentatif des humanités numériques aujourd’hui ni de la visualisation d’informations, de sorte qu’il me faut admettre l’utiliser pour défendre mon argument comme une sorte d’épouvantail bien commode34. La proposition de Moretti – à savoir que l’on peut se passer de la théorie parce que la quantification et sa visualisation constituent l’action véritable – rappelle un essai fameux de 2008 publié par Chris Anderson dans Wired et appelé « The End of Theory ». À l’ère du « déluge de données », Ch. Anderson nous dit que nous pouvons renoncer à la recherche de modèles : « la disponibilité inédite d’immenses quantités de données, accompagnées d’outils statistiques pour les traiter, offre une toute nouvelle manière de comprendre le monde. La corrélation supplante la causalité et les sciences peuvent aller de l’avant, même sans modèle cohérent, sans théorie unifiée, voire sans explication mécanique du tout35 ». Le travail de Moretti manifeste quelque chose de la séduction épistémologique exercée par le big data. Comme le remarquent danah boyd et Kate Crawford, le big data est un phénomène défini non seulement par des technologies et par des méthodes d’analyse spécifiques, mais aussi par une mythologie culturelle. Il pousse à l’extrême « le pouvoir de calcul et la précision algorithmique » pour identifier des motifs récurrents au sein d’une quantité immense d’informations numériques. Cependant, il propage aussi, selon les deux chercheuses, « la croyance répandue qu’un grand ensemble de données permet d’accéder à des formes supérieures d’intelligence et de connaissance à même de générer des observations jusqu’alors impossibles avec l’aura de la vérité, de l’objectivité et de la précision36 ». D’où la promesse et la menace du big data, à la fois en ce qu’il pourrait résoudre des problèmes jusqu’alors insolubles dans le champ de la médecine ou du changement climatique par exemple, mais aussi en ce qu’il constitue la source d’intrusions inquiétantes dans la vie privée et l’origine d’un contrôle accru par l’état et les entreprises.

Dans le champ de l’enquête littéraire, les analyses de Moretti proposent d’apporter ordre et rigueur à ce qui était jusque-là « aléatoire et sans systématicité37 ». Non sans provocation, Moretti écrit au tout début des années 2000 que l’explication de texte est « un exercice théologique – le traitement solennel d’un nombre restreint de textes examinés avec le plus grand sérieux – alors que ce dont nous avons vraiment besoin, c’est de faire un pacte avec le diable : nous savons comment lire des textes ; maintenant apprenons comment ne pas les lire ». Le terme « théologique » est intéressant ici, non seulement parce qu’il porte une touche de mysticisme et renvoie donc au non-quantifiable, mais aussi parce qu’il transcrit l’espoir paradoxal et souvent partagé par les promoteurs du big data que la quantification et l’analyse algorithmique ouvrent la voie à une nouvelle déité : la possibilité d’une connaissance totale. Je proposerais cependant pour ma part l’idée que, malgré tout le savoir quantitatif qu’elle génère et la vitesse à laquelle elle le fait, la visualisation de données qui découle de l’analyse algorithmique pourrait être comprise de manière plus féconde : comme le lieu où nous parvenons à circonscrire l’ineffable capacité du littéraire à créer du nouveau, et où les études littéraires servent à créer, à partir d’objets passés, de nouveaux concepts pour le présent et des images possibles du futur.


III. L’événement du nouveau

Selon les normes d’aujourd’hui, les informations que le Projet RCF met à notre disposition ne peuvent être qualifiées de big data. À une époque où le trafic IP mensuel mondial se situe autour de cent millions d’EB (un EB, ou exabit, est égal à un million de TB, ou térabits), les données que contiennent les registres de la Comédie-Française, tenus sur une période de cent treize ans, ne pèsent pas bien lourd en comparaison38. Pour cette raison, les ressources du Projet RCF ne portent bien sûr pas avec elles les promesses révolutionnaires du big data du XXIe siècle, à savoir de mettre en question et de transformer, ainsi que le suggèrent Viktor Mayer-Schönberger et Kenneth Cukier, « notre compréhension la plus basique des modalités de la prise de décision et de l’appréhension de la réalité39 ». Il n’en demeure pas moins que les projets en humanités numériques comme le Projet RCF reposent sur l’idée qu’ils génèrent du nouveau, tout comme le font plus généralement les analyses de données. Par nouveau, je ne veux pas (seulement) dire que ce type de projet offre à ceux qui étudient le théâtre français une nouvelle plateforme d’informations permettant d’examiner des données historiques. Je ne veux pas (seulement) dire non plus qu’ils annoncent, ainsi que le proposent les auteurs de Digital_Humanities, « un changement fondamental dans la perception des activités créatrices au cœur de notre expérience sur Terre selon laquelle les valeurs et les connaissances des sciences humaines seraient essentielles pour façonner tous les domaines de la culture et de la société ». Pour poursuivre avec les mêmes auteurs, je ne m’arrête pas davantage à l’idée que les humanités numériques actuelles mettent en question la primauté du texte, en tant qu’objet de l’enquête, tout en privilégiant le design, « en tant qu’élément à part entière de la recherche, les croisements entre médias et une conception étendue du sensorium de la connaissance humaine40 ». De manière bien plus générale, je me réfère plutôt aux conditions ontologiques par lesquelles les convergences entre technologies numériques et pratiques littéraires organisent l’événement du nouveau41.

En tant que matrice émergente de modes évolutifs de la connaissance, l’analyse de données dans les études littéraires ne révèle pas ce qui est déjà  – « des vérités » dissimulées dans des archives numériques, par exemple – mais elle exprime plutôt les conditions auxquelles les forces d’origine humaine et non humaine, organique et inorganique, créent du nouveau, ce qui n’est pas sans similarité avec la production artistique. Elizabeth Grosz formule cette idée d’une belle manière dans Chaos, Territory, Art lorsqu’elle écrit que l’art ne suscite pas tant…

[…] des représentations, des perceptions, des images déjà à portée de main, facilement reconnaissables, directement interprétables et identifiables, à l’instar du cliché ou de l’opinion populaire, du bon sens ou du calcul, mais [il] produit et génère plutôt des sensations inconnues jusqu’ici, des perceptions de ce qui n’a jamais était perçu auparavant ou peut-être de ce qui ne saurait être perçu autrement.42

Concevoir l’archive de données numériques comme un « événement du nouveau » invite à interroger son statut d’objet donné, déjà présent dans le monde, proprement dit de datum, dans son sens étymologique de « ce qui est donné43 ». Considérer les bases de données en sciences humaines comme la création du nouveau selon les termes définis par E. Grosz revient à dissocier les données du sujet, et à abstraire leurs usages dans la recherche comme des singularités, comme des instances d’un devenir, comme ce que Gilles Deleuze appelle des « expressions ». Le concept d’« expression » que Deleuze travaille tout au long de sa carrière, par exemple dans Spinoza et le concept de l’expression, est peut-être le plus clairement décrit dans son premier livre sur le cinéma, L’Image-mouvement, où il le met en relation avec l’image. Empruntant au logicien C. S. Peirce sa compréhension du concept, Deleuze suggère que l’expression n’est pas l’expression de quelque chose pour quelqu’un mais plutôt expression compris comme le pouvoir d’exprimer. Incarnée dans l’image, et plus spécifiquement dans l’image-affection cinématographique illustrée par le gros-plan, l’expression est dépourvue de toute actualisation spatio-temporelle. Au contraire, elle est pure potentialité pour l’événement du nouveau44. Ainsi que le formule Brian Massumi, les images sont incomplètes quand on ne les comprend qu’en termes sémantiques ou sémiotiques et qu’on échoue à les voir comme des expressions-événements45.

En considérant les visualisations de données comme des événements de « notre culture capitaliste récente fondée sur l’information et sur l’image46 », nous les distinguons aussi bien de leur objet que de leur sujet de représentation, pour les concevoir comme la problématisation de la relation même entre l’objet et le sujet. Elles ne sont ni une image de ni une image pour, mais plutôt l’ouverture du nouveau et vers le nouveau. Ainsi que l’écrit Jussi Parikka, le logiciel est la « potentialité de nouvelles connections » entre des agentivités humaines et non-humaines, entre la matérialité non-humaine des ordinateurs et les perceptions humaines de l’imagerie numérique. « Le code », poursuit J. Parikka, « promulgue, favorise et produit effets et affects : des relations à différentes échelles, s’appuyant sur les relations sociales humaines, sur les relations avec les machines et sur les relations qui sont internes aux machines – le code, mais aussi les “événements logiciels” (software events) […]. De la sorte, le logiciel n’est pas seulement une boîte noire recevant des informations mais il constitue également en lui-même une méthode de modulation, la poétique d’une potentialité en action47 ». Wendy Hui Kyong Chun a ainsi montré que les lois sur le copyright régissant la commercialisation de logiciels au XXe siècle étaient fondées sur l’idée que leur immatérialité pourrait être repensée comme « une chose » extérieure à l’individu et de ce fait interroger la distinction entre intérieur et extérieur, tangible et intangible, sujet et objet48. En considérant le logiciel comme une chose, nous prenons conscience non pas d’un monde d’objets mais de relations sujet-objet comprises dans leur contingence comme le produit de réseaux, de relations, de matérialités et de concrétisations historiquement situés49. Comme le formule Heidegger, le terme anglais thing retranscrit le plus fidèlement le latin res en tant qu’objet de discours, « ce qui concerne l’homme : l’affaire, le litige, le cas50 ». En un mot, c’est un événement.

Dans le vocabulaire du calcul numérique, la génération du nouveau, de nouveaux concepts, pourrait prendre la forme d’interfaces graphiques, ce dont la visualisation de données est un exemple important. Nous avons tendance à penser l’interface comme la forme matérielle de ce qui s’affiche sur les écrans de nos ordinateurs, ou comme les barres de menu et les icônes d’applications que le code des logiciels organise et retranscrit visuellement afin qu’il soit possible de naviguer à travers l’abstraction des processus informatiques. Toutefois, ainsi que l’ont montré Johanna Drucker et d’autres chercheurs ayant étudié la théorie des interfaces et leur conception, l’interface n’est pas spécifique aux technologies de l’information, tout comme la visualisation n’est pas l’apanage des analyses quantitatives. Comme l’écrit J. Drucker, l’interface constitue plutôt la condition même pour aller à la rencontre du monde, un espace-frontière « à travers lequel nous imaginons la réalisation de nos vies et donnons ses formes d’expression à la connaissance51 ». Pour reprendre les mots de la chercheuse, ce n’est pas un portail à travers lequel passent les informations comme le fait un plat à emporter à travers la fenêtre d’un fast-food. Dans la mesure où elle est le fruit d’une conception, l’interface utilise « des méthodes algorithmiques pour jouer avec les textes – de façon expérimentale, générative ou “déformative” – afin de découvrir », comme l’écrit Alan Liu, « des manières alternatives de produire du sens, dont le caractère vrai ne provient pas tant de signaux préexistants que de variations sur ces derniers. Le but commun est d’abolir, ou du moins de différer l’idéation humaine jusqu’au moment où l’interprétation prend forme52 ». Avant de signifier, les visualisations de données expriment. Comment les comprendre par rapport à ce qu’elles produisent ou à ce qu’elles font, plutôt que selon ce qu’elles représentent ? Quand M. Fuller écrit qu’« un logiciel aura besoin d’être vu pour accomplir sa fonction et non celle de quelque chose d’autre53 », nous entendons un écho à Deleuze lorsqu’il cite Jean-Luc Godard et écrit que l’image cinématographique n’est « pas une image juste, juste une image54 ».

Une interface met en contact le champ de l’interprétation et celui de l’ingénierie. Si l’on conçoit la visualisation comme un espace-frontière créatif et non comme un simple outil d’identification de récurrences, le travail interprétatif et le flux d’information fonctionnent de concert tel un système qu’il convient de comprendre, selon moi, non pas seulement comme un mode hybride d’analyse, combinant herméneutique et informatique, mais également comme un mode de collaboration scientifique. Cette collaboration relève de ce que Katherine Hayles appelle dans ses travaux les plus récents « le non-conscient cognitif » : au-delà de son identification habituelle à la pensée,

la cognition peut dans certains cas se situer dans le système plutôt que dans un participant donné, ce qui constitue un changement important par rapport à un modèle où le sujet est conçu comme le noyau de la cognition. En tant que concept général, le terme de « non-conscient cognitif » ne précise pas si la cognition a lieu à l’intérieur du monde mental du participant, entre les participants ou au sein du système en tant que tout. […] Il […] engage l’ensemble des agents cognitifs (humains, animaux, appareils techniques…) et transcende leurs distinctions.55

Si l’on suit ces chercheurs en humanités numériques qui considèrent les interfaces graphiques comme une forme d’action et de production plutôt que comme un mode de transcription figé, il semble qu’une pratique de la visualisation littéraire soucieuse de ses processus permet de promouvoir et de cultiver un système cognitif global, où le travail en archives constitue un geste relevant des technologies de l’information et où un diagramme représentant des données constitue un acte de pensée appartenant de plein droit aux sciences humaines.

Comments
0
comment

No comments here