Bienvenue dans le monde de merveilleux des dumps Wikipédia ! ;) J'ai utilisé le fichier dump (sur la page https://dumps.wikimedia.org/frwiki/20211101/) nommé "frwiki-20211101-stub-articles.xml.gz" 493.5 MB (3GB décompressé - Attention il vous faut un programme éditeur de texte qui puisse ouvrir ce lourd fichier xml. Personellement j'utilise Emeditor sous Windows - Oubliez de suite Word ou Notepad++). [Pour info pour vous y retrouver dans le nom des fichiers dump : -articles-: Only pages in main name space. (...) not available with -history-. -stub-: Metadata without page content, like IDs of pages and revisions and users, page sizes, time stamps, and edit summaries. https://meta.wikimedia.org/wiki/Data_dumps/FAQ#Why_is_the_en_wp_stubs_meta_history_27_file_so_much_larger_than_the_rest? ] Il ("frwiki-20211101-stub-articles.xml") contient environ 98 millions de lignes et regroupe uniquement certaines métadonnées de tous les articles disponibles sur fr-wiki au 01/11/2021. Exemple 1: Antoine Meillet 0 3 187506576 186838677 2021-10-28T08:32:20Z RSVartanian 2386066 wikitext text/x-wiki qb09rh6to0spy8psk4fite0y75ubaar Exemple 2: Algèbre linéaire 0 7 187490035 186382961 2021-10-27T16:52:18Z DreZhsh 3998696 v2.04 - [[P:CS|Correction syntaxique]] ([[P:CS/501|Orthographe et typographie]]) wikitext text/x-wiki a3293aqqu09fpkg37j2f2z2vjb02s7q Exemple 3: Catégorie:Abbaye dans le Lot 14 1312447 136021523 135861009 2017-04-02T08:41:54Z Harrieta171 59436 Modification de la catégorie [[Catégorie:Monument du Lot]] ? [[Catégorie:Monument dans le Lot]] wikitext text/x-wiki jnwtd8i9kltgfjva26ji6ax0tev2mfj Dans l'exemple 1, vous pouvez noter la balise "0" qui correspond à l'espace de nom (namescpace) = 0. Il contient en gros uniquement les articles de l'espace principal de l'encyclopédie (https://fr.wikipedia.org/wiki/Aide:Espace_de_noms). (ex d'autres namespace disponibles : 1 = Discussion ,10 = Modèle, 14 = Catégorie etc..) Dans l'exemple 2, vous pouvez remarquer la balise "" qui correspond au commentaire (com de diff) laissé par l'utilisateur (ici le commentaire laissé par un robot). En résumé voici parmi les 5 millions de lignes comportant un espace de nom, leur occurence : 0,4007002 14,512094 10,220693 6,65816 2600,65625 100,60688 4,55650 102,46925 828,41807 104,1830 12,1432 8,1345 Afin de ne garder que les 4 millions de 'fichiers' (commençant par la balise "" et finissant par la balise "") comportant la ligne "0" , j'utilise une regex (Regular expression) avec la fonction Rechercher/remplacer dans Emeditor: Find: ((?:(?!).)*?{{0.*?) Replace with: \1 And in Advanced... : search in 30 lines Après 10 minutes de calculs, il me reste donc environ 77 millions de lignes comportant que les 4 millions d'espaces de nom = 0 (j'ai appellé ce fichier résultat xml "frwiki-20211101-stub-articles_77millions_lignes_que_ns0.xml" - 2.3GB). Et là il y a comme un hic, car comme vous le savez, il y a environ 2,3 millions d'articles sur fr-wiki (au 30/10/2021 : Pages de contenu : 2 370 299 https://web.archive.org/web/20211030012324/https://fr.wikipedia.org/wiki/Sp%C3%A9cial:Statistiques). Et j'ai mis très longtemps à comprendre pourquoi lorsque l'on choisi espace de nom = 0, on n'arrivait pas directement sur 2,3 millions d'articles ! En fait c'est simple selon les wikis, ns=0 comporte également les pages d'Homonymie, les pages de Redirection et les articles de liste. ("But not all pages in the article namespace are considered by all to be articles. Pages in mainspace that are not usually considered articles-proper are: - the Main Page (a WP:Portal) ; - thousands of disambiguation pages, which are used to resolve naming conflicts; - many millions of redirect pages, including soft redirects, which are used to re-route one page to another page;" https://en.wikipedia.org/wiki/Wikipedia:What_is_an_article%3F#Namespace) Sur fr-wiki 0 (4 007 001 lignes) comporte : Liste 44 608 Donc sur fr-wiki pour retrouver les 2,370 millions d'articles il faut enlever uniquement les redirections : 4 007 001 - 1 636 128 = 2 370 873. ;) J'enlève donc les rédirections avec une regex : Find: ((?:(?!).)*? Replace with: (vide!) Il reste un fichier comportant les métadonnées de tous les 2,3 millions d'articles de fr-wiki (je le nomme frwiki-20211101-stub-articles_77millions_lignes_que_ns0_sauf_redirections.xml - 1,4GB et 47 millions de lignes). Ensuite j'ai extrait tous les commentaires (lignes commençant par "") (frwiki-20211101-stub-articles_77millions_lignes_que_ns0_sauf_redirections_que_comments.xml - 183MB et 2 019 452 lignes). Il y a une difficulté, car je me suis aperçu si je voulais trouver par la suite plus facilement les commentaires vides, il fallait enlever les noms de sous section ajoutés automatiquement dans certains commentaires lorsque l'on clique sur le bouton modifier d'une sous section. Exemple 4: /* Économie */Correction de la largeur du tableau Le "vrai" commentaire ajouté par l'utilisateur est "Correction de la largeur du tableau". J'ai donc utlisé une regex Remplacer [/][*].*[*][/] par rien (frwiki-20211101-stub-articles_77millions_lignes_que_ns0_sauf_redirections_que_comments_apres_sup_sous_sections_automatiques.xml - 173 MB et 2 019 452 lignes) => Donc sur 2 370 873 commentaires : 351 421 sans commentaire (en fait il y avait 2 370 873 lignes articles le 01/11/2021, mais seulement 2 019 452 lignes avec un commentaire) ; 270 590 sans commentaire (mais avec un nom de sous section repris dans le commentaire) ; reste = 1 748 862 (2 370 873 -351 421 -270 590) articles, soit 74%, qui sont des commentaires de robots ou des commentaires ajoutés manuellement (et donc par différence 26% de commentaires vides ; 351 421 + 270 590 = 622 011). Sur 2 370 873 d'articles au 01/11/2021, il y a 622 011 commentaires vides (26%). J'ai essayé de retirer les commentaires laissés par des robots afin de pouvoir enfin avoir une meilleure idée des commentaires laissés par des humains. ;) [ Sup bot etc. J'ai ajouté des chiffres entre parenthèses car j'avais oublié de les noter la première fois. Ils sont donc approximatifs car je les ai juste compté la deuxième fois et non pas supprimé ce qui requiert un peu plus de manipulation): v2. (118779) v1. (10487) bot (192543) Révocation (21062) [[Catégorie: (239874) [[Modèle: 39725 Nouvelle page 27544 Annulation 16726 Révocation des modifications de 1142 Retrait de [[ 897 ??'? Amélioration de références : 622 [[Discussion 125029 [[WP:Bot 7444 [1.0] 863 [[Projet: 3463 [[Wikipédia:Bot/ 39000 ?? Amélioration de références : 4588 [[P:HOM| 140 |File renamed 3043 [[WP:WPC|WPCleaner 1442 [0. 1727 ???? Amélioration de références : 87 [[Spécial: 1682 [[Projet: 34 [Bot] 4898 ] Il reste 950 631 lignes avec quasiment uniquement les commentaires laissés par des humains (950 631 / 2370 873 = 40 % ). Donc 798 231 (33 %) au moins effectués par des robots (2 370 873 - 622 011 - 950 631). Je vous mets en partage ici ces 950 631 commentaires https://www.transfernow.net/dl/20211114iNqs2n3S. Il y deux fichiers (au format .xml que vous devriez pouvoir ouvrir dans un éditeur de texte. Par ex. Notepad++) : Le premier pèse 60MB et se nomme "frwiki-20211101-stub-articles_77millions_lignes_que_ns0_sauf_redirections_que_comments_apres_sup_sous_sections_automatiques_sup_bot_etc.xml". Il y a aussi un petit fichier comportant les 10 000 premières lignes les plus utilisées : "frwiki-20211101-stub-articles_77millions_lignes_que_ns0_sauf_redirections_que_comments_apres_sup_sous_sections_automatiques_sup_bot_etc_top10000.xml". Vous pouvez voir qu'il reste encore des commentaires de robot, mais désolé j'arrivais à saturation ! Si je reprends mes mots clés (que j'ai utilisé dans mon message précédent https://fr.wikipedia.org/wiki/Wikip%C3%A9dia:Le_Bistro/6_novembre_2021#Nombre_d'articles_dont_le_sour%C3%A7age_s'est_am%C3%A9lior%C3%A9_par_jour_? ) sauf le premier qui ne détecte pas les commentaires mais les modifs : Ajout sources 59 ; Ajout de sources 207 ; sourcé 813 (dont non sourcé 473 , pas sourcé 45 ; ajout sourcé 33) ; ajout ref 315 ; sourçage 614 (dont auto-sourçage 12 , Mois du sourçage 283) ; ajout source 203 ; ajout sources 59 ; ajout sourcé 33 ; Ajout source 203 ; Ajout sources 59 ; Ajout sourcé 33 ; "+ sources" 120 ; "+ source" 391 ; "Ajout de source(s)" 0 ; "Ajout de source" 84 ; "Ajout de sources" 208 ; "+ article et ouvrages" 0 ; "+ articles et ouvrages" 0 ; "ajout ouvrages" 2 ; "+ ouvrages" 5 ; "ajout livres" 0 ; "Ajout bibliographie" 70 ; "Ajout biblio" 29 ; "+ article" 65 ; "+ articles" 40 ; "ajout articles" 40 . Total : 2 111 soit 0,22% du total (2 111 / 950 631) Ex d'autres mots clés disponibles : + référence 117 ; +ref 337 ; + ref 1866 ; http 752