ARCHÉOLOGIE DU "COPIER-COLLER": * SERIALS PLAGIAIRES [1] : signatures et profils des plagiaires.

NOUVELLE VERSION DU BLOG

10 commentaires (cliquer). Le commentaire n° 9 a été envoyé par Majed Sanan, auteur de la thèse-plagiat analysée dans cet article.

* 1ère mise en ligne de ce texte: 12 avril 2010 . Dernières modifications le 2 mai.
Articles précédents : Les pieds dans le plagiat et La lutte contre le plagiat à l'Université est mal partie.
L'étude sur la thèse de M. Sanan sera complétée par un second article: "AUTOPSIE D'UNE THÈSE-PLAGIAT, SUITE". Il sera mis en ligne en mai, avec deux autres articles.

* *
- Dans le cadre de ce travail, nous n'avançons qu'avec prudence et toujours en présentant des éléments de preuves que chacun est en mesure de vérifier et apprécier. Notons que dans le cas de plagiats avérés, et plus encore sous sa forme particulière du copier-coller, l'exposé précis des faits laisse peu de place au doute.

- Dans les cas présentés, les responsabilités des doctorants en cause paraîtront presque secondaires en comparaison des responsabilités de ceux qui ont laissé se mettre en place ce système qui produit des thèses-plagiat.
Les premières victimes des plagiaires sont d'abord les étudiants qui ne plagient pas puisqu'on leur délivre les mêmes diplômes dévalués qu'aux plagiaires. Les plagiés risquent aussi un jour, surtout s'ils poursuivent une carrière universitaire, de se voir reprocher d'avoir plagié leur plagiaire. Enfin, le petit monde du plagiat facile porte aussi un tort considérable, à l'échelle des universités, des écoles doctorales, des laboratoires, des UFR et des départements, à tous les universitaires, la grande majorité, qui ne tolèrent pas le plagiat.

- Si cette étude, et les suivantes (Serials plagiaires [2], [3], [4]...), pouvaient seulement convaincre qu'Internet, corne d'abondance des plagiaires, peut aussi se retourner contre eux ce serait déjà un premier résultat satisfaisant.

* *

Dans les études publiées sur ce blog, la présentation de quelques thèses-plagiat permettra de montrer la diversité des modes opératoires mis en œuvre aussi bien pour la production de plagiats dans les travaux universitaires que pour leur reconnaissance. Ces études dégageront quelques "profils" et "signatures" de plagiaires. À chaque type de plagiat correspondent des traces textuelles et discursives spécifiques et, par conséquent, des moyens et techniques différenciés de repérage.

Ces études illustreront donc aussi l'erreur manifeste qui consisterait à confier aux seuls logiciels dits "anti-plagiat" le soin de distinguer les travaux universitaires digne de ce nom des travaux-plagiat (cf. article :

La lutte contre le plagiat à l'Université est mal partie).

Le cas de deux thèses, de Sang-Ha SUH et Majed SANAN, a déjà été évoqué dans des articles publiés sur ce blog (Cache-cache plagiat et Les pieds dans le plagiat).
Le jury de soutenance qui a accordé les félicitations à Sang-Ha Suh était présidé par Gilles Bernard (Paris 8). Patrick Curran (directeur de recherche et rapporteur, Paris 8), Guy Chapouillié (rapporteur, Toulouse Le Mirail), Jacques Rubenach (examinateur, Paris 13) et Bernard Rignault (examinateur, Musée de l'Air et de l'Espace) complétaient le jury.
Outre Kaldoun Zreik, directeur de recherche, le jury de soutenance de la thèse de Majed Sanan était composé de Mohamed Hassoun (rapporteur, ENSSIB, Lyon), Said Tazi (rapporteur, Université de Toulouse) et Imad Saleh (examinateur, Paris8).

Ces deux thèses ont fait l'objet d'une étude par une "Commission de déontologie" mise en place le 11 février 2010 par le Conseil scientifique de l'Université Paris 8. Concernant la thèse de M. Sanan dirigée par Kaldoun Zreik, on lit ceci dans le relevé des libérations du Conseil scientifique du 25 mars 2010 :

Suite au cas de plagiat déjà abordé au CS, Elisabeth Bautier rappelle que le Conseil du 11 Février a voté la mise en place d’une Commission de déontologie et que par la suite une expertise a été faite sur la thèse en question. L’analyse de la thèse fait apparaître un pourcentage de texte original de l’ordre de 35%, en ce cas le diplôme peut être annulé. La proposition d’engager une démarche d’annulation est mise au vote.

Le CS vote à l’unanimité l’annulation du diplôme.

Soulignons d'abord que Paris 8 n'a pas l'apanage des thèses-plagiat et qu'il faut donc mettre cette annulation au crédit de cette université. En effet, et sauf erreur de notre part, depuis l'arrivée d'Internet, l'annulation d'une thèse pour plagiat est une première dans l'Université française (le cas d'une dé-qualification décidée par le CNU en 2007, et confirmée par le Conseil d'État en 2009, étant mis à part).
Nous commenterons à la fin de cet article ce délibéré du Conseil scientifique, mais notons dès à présent que, comme l'atteste l'étude ci-dessous, nous avons déjà documenté pour cette même thèse un pourcentage de plagiat supérieur à 90%, donc sensiblement supérieur à celui de 65% de "l'expertise" diligentée par la Commission de déontologie.

LE PLAGIAT EN PARTAGE

Nous commencerons donc par l'étude de la thèse soutenue par Majed Sanan. Intitulée Étude des méthodes de la recherche d'information et de l'indexation sur les documents électroniques : cas de la langue arabe, cette thèse a été soutenue en septembre 2008 (mention très honorable).
Cette thèse d'un étudiant libanais, aujourd'hui enseignant à l'Université de Beyrouth, a pu se faire dans le cadre d'un protocole de coopération entre l'Université libanaise et l'Université de Caen. Rédigée sous la direction de Kaldoun Zreik, ancien professeur en Informatique à Caen, cette thèse a été soutenue à Paris 8, à la suite de la mutation de K. Zreik dans cette université comme professeur en Sciences de l'information et de la communication.
Cette thèse porte donc la mention "informatique" (27e section du Conseil National des Universités), bien que 3 des 4 membres du jury de soutenance appartenaient à la 71e section du CNU (Sciences de l'information et de la communication).

Cette thèse a été mise en ligne par la Bibliothèque universitaire de Paris 8 en 2009 et y était toujours le 9 avril 2010. L'accès à la forme numérique de ce document a facilité le repérage de ses plagiats, avec la seule aide de Google, et donc sans faire appel aux logiciels dits "anti-plagiats".
Les "copier-coller" stricts, c'est-à-dire presque sans aucune modification des documents sources, constituent la majorité des plagiats de cette thèse. Cette thèse est donc du type de celles qui, soumises au seul contrôle d'un logiciel anti-plagiat, apparaissent rapidement pour ce qu'elles sont.

1) Les sources plagiées

Table des matières, bibliographie et annexes comprises, cette thèse est d'une dimension modeste, 129 pages dont 95 pour le texte stricto sensu de la thèse.
À la table des matières et à l'introduction, succèdent 3 parties : "Recherche des textes", en quelque sorte, la partie théorique (pages 21 à 45), "Langue arabe", l'étude des spécificités de cette langue et de leurs implications dans le cadre de recherche proposé (pages 47 à 62) et "Expérimentation", l'application expérimentale à un corpus en langue arabe (textes du parlement libanais) des résultats des recherches présentées dans la première et la seconde partie de la thèse (pages 64 à 109).

Cette thèse, en cela différente de la thèse-plagiat de Sang-Ha Suh que nous analyserons ultérieurement, plagie des sources cohérentes : des thèses, mémoires, et articles scientifiques qui paraissent à première vue, pour le non spécialiste que nous sommes de ce domaine particulier, d'un bon niveau scientifique.
Remarquons aussi que les copier-coller sont présents dès l'introduction de la thèse, et occupent l'essentiel de sa conclusion. Dans cette thèse, il est plus difficile de distinguer, sans risque de se tromper, les quelques paragraphes originaux qui seraient de la seule main de l'auteur Majed Sanan, que les longs copier-coller et quelques traductions qui en constituent l'essentiel.

La Partie I de la thèse est subdivisée en 4 chapitres. Dans l'introduction à cette partie et le premier chapitre (6 pages au total), tout est plagié sous forme de copier-coller facilement identifiables avec Google. Ceci à l'exception d'une conclusion de 4 lignes, apparemment de la main de Majed Sanan.
Les textes empruntés l'ont surtout été aux thèses d'informatique de Mathieu Stricker (1) et Ambroise Ingold (2), et accessoirement à Wikipedia et à un glossaire "technoscience".

Les 2e, 3e et 4e chapitres de cette première partie doivent quasiment tout aux copier-coller de la thèse d'informatique de Radwan Jalam (3), à l'exception de la conclusion du chapitre 4, empruntée à un article co-signé par Radwan Jalam et Jean-Hugues Chauchat (4), et de la conclusion du chapitre 3 qui est probablement de la main de Majed Sanan.
On notera que certains emprunts de M. Sanan à la thèse de Radwan Jalam sont, à l'occasion, eux-mêmes des paraphrases par Radwan Jalam de textes de la thèse de Mathieu Stricker, déjà citée. Cette même thèse de Mathieu Stricker étant en effet directement plagiée par Majed Sanan dans son chapitre 1 (voir ci-dessus).

Les conclusions aux chapitres 1 et 3, qu'il est raisonnable d'attribuer à M. Sanan, ont en commun, outre quelques maladresses (style, orthographe, ponctuation, phrases confuses) la répétition de l'expression "en faite".
Cette expression fautive, à nouveau répétée, facilitera le repérage de quelques uns des autres paragraphes attribuables au seul M. Sanan : pp. 58, 59, 64 et 113 (cette dernière occurrence figurant dans les annexes).

Pour s'en tenir à un exemple, la conclusion du chapitre 4, empruntée à l'article co-signé par Radwan Jalam et Jean-Hugues Chauchat, est intéressante sous 4 aspects :

Conclusion Majed Sanan : Nous proposons pour cela un algorithme qui extrait des candidats-mots-clés spécifiques à un sous-ensemble de textes. Une application est réalisée sur 2667 documents du journal officiel libanais (voir Partie III). La méthode donne des résultats encourageants ; les mots qui ont en commun des n-grammes sont sélectionnés. Nous proposons ensuite une méthode pour réduire les mots parasites, fondée sur la fréquence des mots et la proportion de n-grammes qu’ils contiennent. Cette méthode s’avère efficace, bien qu’elle travaille sur les fichiers de textes bruts, sans aucune analyse linguistique préalable.

Conclusion Jalam et Chauchat (texte source) : Nous proposons pour cela un algorithme qui extrait des candidats-mots-clés spécifiques à un sous-ensemble de textes. Une application est réalisée sur 6709 dépêches classées en 10 classes (les classes les plus représentées dans la collection Reuters). La méthode donne des résultats encourageants ; les mots qui ont en commun des n-grammes significatifs sont sélectionnés. Nous proposons ensuite une méthode pour réduire les mots parasites, fondée sur la fréquence des mots et la proportion de n-grammes significatifs qu’ils contiennent. Cette méthode s’avère efficace, bien qu’elle travaille sur les fichiers de textes bruts, sans aucune analyse linguistique préalable.

1) Majed Sanan, s'est contenté de copier-coller le texte source en remplaçant le corpus de Radwan Jalam et Jean-Hugues Chauchat (les "6709 dépêches classées" de Reuters) par le sien ("2667 documents du journal officiel libanais").
2) Cette conclusion affiche par ailleurs à deux reprises le déictique "nous", renvoi répété à l'énonciateur (passages soulignés en vert), qui atteste de la mauvaise foi et de la fraude de M. Sanan : il ne se contente pas de présenter la méthode d'un autre, qu'il jugerait pertinente et adaptée, pour traiter son propre corpus de textes. Majed Sanan présente cette méthode comme sienne, comme si elle était issue de ses propres recherches réalisées dans le cadre de cette thèse : "Nous proposons pour cela un algorithme..." "Nous proposons ensuite une méthode...".
3) À elle seule, une incohérence flagrante aurait du alerter les membres du jury de la thèse de M. Sanan: "La méthode donne des résultats encourageants" "Cette méthode s'avère efficace". Ces affirmations faites à ce stade, dès la partie 1 de la thèse de Majed Sanan, sont totalement incohérentes avec son organisation générale où toute "l'expérimentation" se fait à la partie 3.
Dans l'article Jalam et Chauchat, le texte source, cette conclusion vient précisément en aval de la présentation d'un "exemple d'application" sur les dépêches de Reuters, et non pas en amont comme c'est le cas dans la curieuse thèse de Sanan où les conclusions tirées des résultats des expériences arrivent avant même l'expérimentation.
Ces incohérences sont d'autant plus fréquentes dans les travaux issus de copier-coller que les plagiaires, dans la majorité des cas, ne lisent pas eux même attentivement les textes qu'ils copient-collent.
4) Ce corpus de "2667" documents issus du parlement libanais est un peu l'Arlésienne de cette thèse. Il est régulièrement cité (6 occurrences de "2667"), pour donner un accent d'authenticité à ces pseudo-recherches, sans que l'on en sache jamais beaucoup plus à son propos.

Notons que le repérage des copier-coller de cette partie 1 nous ont amené à la découverte incidente d'une autre thèse-plagiat soutenue en 2004 à Rouen [les plagiats en cascade sont des cas fréquents rencontrés dans ce type de situation (nous en publierons bientôt des exemples assez étonnants, toujours repérés à partir du travail réalisé sur le corpus principal des thèses du Laboratoire Paragraphe de Paris 8)].

La Partie 2 de la thèse de M. Sanan, "La langue arabe", comprend une brève introduction et deux chapitres (chapitre 5 et 6). L'ensemble de cette 2e partie est quasi exclusivement constitué d'emprunts à des textes déjà en ligne sur le web.
Si on exclue quelques rares lignes vraisemblablement de la main de Majed Sanan et une demi-page copiée depuis Wikipedia, tout le reste de cette deuxième partie est constitué d'alternances d'emprunts au mémoire d'informatique "Résumé automatique de texte arabe" de Fouad Soufiane Douzidia (5) et à un article publié dans les actes en ligne du 10e colloque CIDE (Colloque international sur le document électronique), "L’accès Multilingue à l’information scientifique et technologique : limitations des moteurs de recherche en langue Arabe" (6).
Des emprunts à Fouad Soufiane Douzidia introduisent et concluent (conclusion du chapitre 6) cette partie 2.
L'autre article (actes du 10e CIDE) est signé par Majed Sanan, Mahmoud Rammal et Kaldoun Zreik, c'est-à-dire, l'auteur même de la thèse (M. Sanan), son directeur de thèse (K. Zreik) et M. Rammal, enseignant à Beyrouth et présenté dans les remerciements de M. Sanan comme son co-directeur de thèse, bien qu'il ne figure pas dans le jury de soutenance :

"Je remercie Pr. Khaldoun ZREIK et Dr. Mahmoud RAMMAL pour m'avoir offert l'opportunité de réaliser ma thèse sous leur direction. Le cadre de travail offert et la liberté que m'a laissée M. ZREIK et M. RAMMAL m’ont permis d'explorer des domaines de recherche connexes à ma thèse et d'établir des collaborations avec d'autres chercheurs."

Cet article n'est pourtant nullement mentionné en tant que tel, pas plus dans ce chapitre que dans le reste de la thèse et, en particulier, n'apparaît pas dans la bibliographie, ou du moins pas sous la forme de référencement qui s'imposait. Nous verrons plus en avant ce que l'on peut penser de ce copier-coller et de son référencement très spécial.

La partie 3 de la thèse, "L'expérimentation", comprend 4 chapitres, numérotés de 7 à 10.
L'introduction à cette 3e partie correspond au style de M. Sanan (cf. une occurence de "en faite") et commence d'une façon, assez cocasse, qui aurait du intriguer le jury : "Dans cette partie on va présenter notre travail et contribution dans cette thèse".
Le détail de cette "contribution" :
Le premier chapitre de cette 3e partie (le chapitre 7) est intitulé : "Moteurs de recherche courants dans la RI arabe" (RI signifie recherche d'information). Introduction et conclusion comprises, et mis à part quelques déplacements de paragraphes, le texte de ce chapitre est rigoureusement identique à une partie de l'article cité précédemment, mis en ligne et co-signé par les trois auteurs Sanan, Rammal et Zreik. Notons que l'intégralité de cet article co-signé à trois se retrouve (inégalement réparti entre les 4 chapitres de la partie "expérimentation") dans la thèse signé du seul M. Sanan.

Le chapitre 8, "Approche statistique pure dans la RI arabe", commence par une introduction d'une page de la main de M. Sanan, quoique avec quelques inclusions de phrases empruntées ici et là. La phrase "Une caractéristique intéressante de notre logiciel est qu'il n'a pas besoin de faire un traitement spécifique du langage" prend un certain relief dans cet environnement.
Dans ce chapitre 8, comme dans le chapitre 10, il reste encore quelques pages-plagiat non attribuées avec précision. On y trouve aussi bien du Wikipedia que quelques extraits traduits d'un article de Xu, Fraser et Weischedel, "Empirical studies in strategies for arabic retrivial" (7). C'est la méthode des "invariants", exposée sur ce blog dans l'article "Le briquet de Darwin" qui nous a facilité la découverte du texte source de cette traduction. On trouve aussi dans ce chapitre les premiers extraits, aussi traduits depuis l'anglais, d'"Arabic supervised learning method using N-gram", article qui sera mis à contribution pour la rédaction de la totalité du chapitre suivant.

Le chapitre 9, "Classification automatique en utilisant la méthode N-gramme" est entièrement issu de la traduction vers le français d'une part importante de l'article, "Arabic supervised learning method using N-gram" (8) cité précédemment. Cet article est paru en 2008 dans la revue en ligne "Interactive Technology and Smart Education" sous les signatures de M. Sanan, M. Rammal et K. Zreik.
À vrai dire, nous avions d'abord attribué ce chapitre de sa thèse au seul Majed Sanan. Mais c'est la présence inexpliquée dans une énumération d'un passage intempestif à l'anglais, "Discriminated factorial analysis", qui nous a mis sur la piste d'une traduction plutôt que d'un texte original du signataire de la thèse. L'application de la méthode du "briquet de Darwin", a fait le reste.
Nous reviendrons dans un prochain article sur ce texte "Arabic supervised learning method using N-gram". Il accorde lui même une place considérable aux emprunts non référencés, c'est-à-dire aux plagiats, d'articles en anglais.

Le Chapitre 10, "Création d'un lexique avec N-gramme et approche distributionnelle pour la RI Arabe", renoue avec le caractère composite. La conclusion emprunte quelques lignes à "Arabic supervised learning method using N-gram".

Les "conclusion et perspectives" sont très cohérentes avec le reste de la thèse puisqu'elles réunissent essentiellement du copier-coller.
"La Perspective 1 : Approche sémantique", qui occupe une pleine page, appartient à Haïfa Zargayouna et Sylvie Salotti (9).
La "Perspective 2, Approche hybride", la plus courte (moins de 5 lignes), est probablement de la propre main de Majed Sanan.
la "Perspective 3 : Les ontologies dans la recherche d'information", une demi page, est empruntée à un cours de Chantal Reynaud de l'Université Paris XI Orsay : "Ontologies et recherche d'Information" (10).

Que la conclusion de cette thèse, soutenue à la fin de l'année 2008, s'achève sur une "perspective" qui est un copier-coller d'un cours donné en 2001 se passe de commentaire...

Avant d'aborder la bibliographie qui conclut la thèse de Majed Sanan, dressons à ce stade la liste des sources plagiées déjà repérées, soit en quelque sorte la bibliographie des plagiats:

Bibliographie des plagiats

(1) STRICKER Mathieu (2000). Réseaux de neurones pour le traitement automatique du langage : conception et réalisation de filtres d'informations. Thèse (informatique) soutenue à l'Université Paris 6 (Pierre et Marie Curie). [En ligne] site de "Paris Tech, "Graduate School" : http://graduateschool.paristech.fr/these.php?id=752 /

(2) INGOLD Ambroise (2002). Expérience de couplage entre bases de données factuelles et bases de données bibliographiques. Thèse (informatique) soutenue à l'Université Aix-Marseille 3.[en ligne] site personnel d'Ambroise Ingold : http://ingold.free.fr/statique/t%E9l%E9chargement_th%E8se.htm

(3) JALAM Radwan (2003). Apprentissage automatique et catégorisation de textes multilingues. Thèse (informatique) soutenue à l'Université Lumière - Lyon 2. [en ligne] site agrocampus-ouest : http://www2.agrocampus-ouest.fr/math/jalam/these/these_radwan.pdf

(4) JALAM Radwan et CHAUCHAT Jean-Hugues (2002). Pourquoi les n-grammes permettent de classer des textes ? Recherche de mots-clefs pertinents à l’aide des n-grammes caractéristiques. [en ligne] Site de l'Université Sorbonne-nouvelle Paris-3 : http://www.cavi.univ-paris3.fr/lexicometrica/jadt/jadt2002/PDF-2002/jalam_chauchat.pdf

(5) DOUZIDIA Fouad Soufiane (2004). Résumé automatique de texte arabe. Mémoire en vue de l'obtention du titre de Maître es Science en Informatique. Université de Montréal (Québec, Canada). [en ligne] site du Laboratoire en recherche appliquée en linguistique informatique : http://rali.iro.umontreal.ca/Publications/files/DouzidiaMemoire.pdf

(6) SANAN Majed, RAMMAL Mahmoud et ZREIK Khaldoun (2008) L’accès Multilingue à l’information scientifique et technologique : limitations des moteurs de recherche en langue Arabe. Actes du 10e CIDE (colloque international sur le document électronique). Paris, Éd Europia productions. [En ligne] Site du CIDE, http://lodel.irevues.inist.fr/cide/index.php?id=136 .

(7) XU Jinxi, FRASER Alexander, WEISCHEDEL Ralph (2002). Empirical studies in strategies for arabic retrivial. [en ligne] site de l'Université de Stuttgart :
http://www.ims.uni-stuttgart.de/~fraser/pubs/fraser_sigir2002.pdf

(8) SANAN Majed, RAMMAL Mahmoud et ZREIK Khaldoun (2008) Arabic supervised learning method using N-gram, in revue "Interactive Technology and Smart Education" (volume 5, issue 3, pp 157-169). [Réf. en ligne] site de la revue:
http://www.emeraldinsight.com/Insight/viewContentItem.do?contentType=Article&contentId=1740779

(9) ZARGAYOUNA Haïfa et SALOTTI Sylvie (2004). Mesure de similarité sémantique pour l'indexation de documents semi-structurés. [en ligne] site du Laboratoire d'informatique de Paris-Nord (LIPN) : http://www-lipn.univ-paris13.fr/seminaires/AtelierRaPC/Articles/haifa.pdf

(10) REYNAUD Chantal (2001). "Ontologies et recherche d'information", cours donné en 2000 et 2001. [en ligne] site de l'Institut de recherche en informatique de Toulouse (IRIT) : http://www.irit.fr/GRACQ/article.php3?id_article=93

Plagiats de premier ordre et de deuxième ordre
Une remarque sur cette qualification de "bibliographie des plagiats". Il serait en réalité plus précis, et plus prudent, de parler de "bibliographie des plagiats de premier ordre". En effet, les documents cités ci-dessus sont ceux dont nous étions à un moment convaincu qu'ils ont été les textes à partir desquels ont été réalisés les "copier-coller" ou les traductions que l'on trouve dans la thèse de M. Sanan.
Mais, par exemple, les deux articles co-signés M. Sanan, M. Rammal et K. Zreik (Arabic supervised learning method using N-gram et L’accès Multilingue à l’information scientifique et technologique : limitations des moteurs de recherche en langue Arabe) se sont eux mêmes avérés, depuis l'établissement de cette "bibliographie des plagiats", riches en plagiats. Il faudra donc ultérieurement compléter cette bibliographie "de premier ordre" par une "bibliographie des plagiats de deuxième ordre". Le mieux serait d'arriver pour chaque cas de plagiat au texte source premier, celui qui mérite d'être qualifié d'original.
Ainsi, c'est après avoir établi la "Bibliographie des plagiats" telle qu'elle apparaît ci-dessus, que nous nous sommes rendu compte que l'article de "Xu Jinxi, Fraser Alexander, Weischedel Ralph (2002)" qui y figure a d'abord été plagié pour rédiger les 2 articles co-signés que nous venons d'évoquer. Et ce sont ces deux articles co-signés M. Sanan, M. Rammal et K. Zreik que M. Sanan a "copier-coller" ou traduit pour rédiger sa thèse (chapitres 8, 9 et 10). Pour des considérations que nous développerons ultérieurement, il est probable que M. Sanan n'a donc pas eu un accès direct à l'article de Xu, Fraser et Weischedel. C'est pourquoi cet article devrait donc être référencé dans une "bibliographie de plagiats de deuxième ordre".

2) La bibliographie de la thèse de Majed Sanan

La partie bibliographie d'un travail de plagiaire n'a, par principe, aucune raison d'échapper aux plagiats. Cependant, le contenu des bibliographies qui suivent les travaux des plagiaires est très variable.
On observe essentiellement deux attitudes : soit les sources des plagiats, non citées à la place où elles auraient du l'être dans le corps du texte, sont intégrées avec soin dans la bibliographie du plagiaire, soit la bibliographie n'y fait aucune référence.

La première attitude est celle des plagiaires qui pensent se couvrir d'une éventuelle accusation de plagiat en faisant référence au moins une fois à la source du plagiat quelque soit l'endroit de cette mention [dans un "Rapport 2009 - Session qualification" (déjà cité dans l'article précédent), récemment mis en ligne par la section "Droit public" (2e section) du Conseil National des Universités (http://www.cpcnu.fr) on trouve une excellente description de la stratégie plagiaire que nous venons d'évoquer]. Dans son ouvrage Plagiats, les coulisses de l'écriture, Hélène Maurel-Indart analyse ainsi les cas d'Alain Minc et d'Henri Troyat à qui il est arrivé d'adopter cette tactique, sans pour autant échapper à la condamnation pour contrefaçon.
La bibliographie est parfois le seul lieu où le plagiaire place son "alibi". On parlera alors de "bibliographie-alibi".

La seconde attitude consiste au contraire à ne citer aucune des sources des plagiats, ni au hasard du texte, ni dans la bibliographie, afin d'en limiter les traces.

Qu'en est-il, du point de vue de la bibliographie, du profil plagiaire de Majed Sanan ?
Si la thèse de M. Sanan est courte, sa bibliographie est longue. Elle occupe 8 pleines pages et s'impose ainsi au lecteur non averti comme la marque d'un travail de recherche important.
La "bibliographie des plagiats" (voir plus haut) comporte les 11 références principales des plagiats présents dans la thèse et déjà repérés. À ces 11 références, correspondent 14 auteurs nommés, dont M. Sanan lui même, M. Rammal et K. Zreik.
Des 14 auteurs cités dans ces 11 références de la bibliographie des plagiats (certains articles sont co-signés), donc des 14 auteurs plagiés, le nom de 8 d'entre eux n'apparaissent jamais, ni dans la thèse de Majed Sanan, ni dans la bibliographie de cette thèse. Seuls apparaissent dans la bibliographie de la thèse les noms de Mathieu Stricker, Radwam Jalam, Khaldoun Zreik, Jinxi Xu, Alexander Fraser et Ralph Weischedel.
Dans la bibliographie de la thèse de M. Sanan, le nom de Mathieu Stricker est associé au titre de sa thèse (Réseau de neuronnes pour le traitement automatique du langage...), repéré comme source d'un plagiat de M. Sanan et qui figure donc dans la bibliographie des plagiats; il en est de même des noms de J. Xu, A. Fraser et R. Weichedel, associés à l'article qu'ils ont co-signé, Empirical studies in strategies for arabic....
Le nom de R. Jalam est lui associé dans cette bibliographie à un article co-signé avc O. Teytaud; et celui de K. Zreik l'est à 3 articles co-signés avec D. Nguyen. Ces travaux ne font pas partie des sources repérées de plagiats.

Une étude attentive de la bibliographie de la thèse de M. Sanan permet de résoudre cette apparente incohérence qu'est la présence de 2 sources plagiées, sur 11, dans cette bibliographie.
L'hypothèse s'impose vite que la bibliographie de la thèse de M. Sanan, qui semble ignorer l'essentiel des sources plagiées (9 sur 11), doit reprendre sous forme de plagiat, ou même de copier-coller, des références des bibliographies de ces mêmes travaux plagiés.
Pour le vérifier, il suffit de sélectionner quelques références de la bibliographie de la thèse-plagiat, à l'évidence fautives (faute de typographie, coquille, incohérence) et voir si elles ont leur équivalent dans les bibliographies des travaux plagiés. Ainsi ces deux références :

[Lefèvre, 2000] Lefèvre, P. (2000). La rechreche d’information - du texte intégral au thésaurus. Hermès Science, Paris.

[Lewis, 1992b] Lewis, D. D. (1992b). Representation and learning in information retrieval. PhD thesis, Department of Computer Science, University of Massachusetts, Amherst, US. Available from World Wide Web : http://www.research.att.com/~lewis/papers/lewis91d.ps.

Dans le premier cas, c'est la coquille dans "rechreche" qui nous a fait sélectionner cette référence test dans la bibliographie de M. Sanan, et pour le second test, la mention "1992b" dans une référence qui renvoie à Lewis, en l'absence de toute référence antérieure "1992a" qu'aurait imposée une bibliographie cohérente.

Vérifications faites, ces deux références ont bien été directement "copier-coller" depuis la bibliographie de Radwan Jalam qui affiche, comme prévu, le chaînon manquant "[Lewis, 1992a]".
De la comparaison des bibliographies menée à son terme, il s'avère que 53 des 83 références bibliographiques de la thèse de M. Sanan ont été strictement "copier-coller" depuis la bibliographie de la thèse de R. Jalam.
Les référencements de la thèse de M. Stricker et de l'article de Xu, Fraser et Weischedel dans la bibliographie de la thèse-plagiat sont donc arrivés dans la bibliographie-plagiat, non pas en terme de références-alibi, mais bien en tant que copier-coller issu de la bibliographie de la thèse plagiée de R. Jalam.
5 autres références sont des "copier-coller" depuis la bibliographie associée à l'article "Résumé automatique de texte arabe" de Fouad Soufiane Douzidia.
Le reste de la bibliographie a été complétée, pour l'essentiel, de références empruntées aux bibliographies des articles co-signés par M. Sanan, M. Rammal et K. Zreik.
Ni la thèse de Radwan Jalam, la première source de ses plagiats, ni le mémoire de Fouad Soufiane Douzidia, ni la thèse d'Ambroise Ingold ne sont mentionnées dans la bibliographie du plagiaire. Preuve est ainsi faite que, concernant la bibliographie, M. Sanan a bien choisi la seconde stratégie plagiaire, celle de l'effacement des traces, et non pas la première, la bibliographie-alibi.

3) Plagiés et plagiaires

En complément de la bibliographie, M. Sanan affiche la "Liste des publications", c'est-à-dire ses propres publications. Nous la reproduisons ci-dessous (en rouge), avec pour chaque référencement un complément d'informations (code noir et gras, précédé de 3 astériques "***") :

Liste des publications

*Workshops: - ESCWA Activities for the world summit on the information society, Legal Informatics An Arab Perspective , "Smart Search Engines", United Nations House, Beyrouth, 12-14 Décembre 2005. (http://www.escwa.org.lb/wsis/meetings/12dec05/doc_e.html)
*** Cette intervention de "Majed. SANAN, PhD student, Caen University (France), Lebanese University" était faite sur la base d'un document powerpoint entièrement issu de "copier-coller"; document ppt accessible à l'adresse internet signalé par Majed Sanan.

- The 2nd International Workshop on New Trends in Information Technology, "Application of text mining Techniques on Lebanese official Journal",18-20 Avril 2006, Homos, Syrie.( http://ntit2006.info.unicaen.fr/prog-ntit2006.pdf)
*** Cette intervention, le 19 avril 2006, en ouverture d'une cession présidée par Khaldoun Zreik" semble concerner la première présentation de l'"expérimentation", la partie 3 de la thèse de M. Sanan.

- Arab content on the web Workshop, “Le contenu arabe sur le web”, 13 Avril 2008, Damas, Syrie. - Digital arabic content, UNESCWA,29-30 Avril 2008, Beyrouth, Liban.
*Conférences : - CIDE10,"10 ème Colloque International sur le Document Electronique","L’accès multilingue à l’information scientifique et technologique : limitations des moteurs de recherche en langue arabe, NANCY/ INIST , 2 - 4 Juillet 2007. (http://cide10.inist.fr/article.php3?id_article=14)
Dans les actes de ce colloque, l'article intitulé "L’accès multilingue à l’information scientifique et technologique: limitations des moteurs de recherche en langue arabe" est co-signé Majed Sanan, Mahmoud Rammal et Khaldoun Zreik.
Cet article est disponible en ligne sur le site du CIDE 10 : http://lodel.irevues.inist.fr/cide/index.php?id=136 ;
Les actes de ce colloque ont aussi été publiés aux éditions "Europia" (http://europiaproductions.com/edition/livres/doc/Cide10.htm). L'entreprise "Europia productions", a été fondée et est dirigée par K. Zreik.

- ICTTA08, The 3rd International Conference on Information & Communication Technologies, “Internet Arabic search engines studies” , Damas,7-11 Avril, 2008. IEEE communications society.( http://conferences.enst-bretagne.fr/ictta/images/stories/Final_Program08.pdf)
*** Dans les actes de cette conférence, mis en ligne le 28 mai 2008, l'article intitulé "Internet Arabic search engines studies" est co-signé Majed Sanan, Mahmoud Rammal et Khaldoun Zreik.
Cet article est référencé sur le site de la "Digital library IEEEXplore", émanation de l'IEEE. (http://ieeexplore.ieee.org/xpl/freeabs_all.jsp?arnumber=4530003).

-SITA’08, 5ème conférence sur les Systèmes Intelligents : Théories et Applications, « Utilisation de N-gramme dans la recherche d’information arabe », Rabat, 5-6 Mai 2008.( http://www.inpt.ac.ma/~sita08/prograsita082.pdf)
*** Cette intervention a été publié sous la forme d'un article intitulé "Utilisation de N-Gramme dans la recherche d'information arabe" co-signé Majed Sanan, Mahmoud Rammal et Khaldoun Zreik (in "Systèmes intelligents : théories et applications", sous la direction de Mostafa Bellafkih, Mohammed Ramdani et Khaldoun Zreik. Éditions Europia. (cf. site des Éditions Europia : http://europiaproductions.com/edition/livres/cogn/SystemesIntelligents.htm)

-ICHSL6, 6th International Conferences on Human System Learning, ”Arab Document Classification using N-gram”, Organized by LAAS-CNRS, Toulouse , 14-16 Mai, 2008, IEEE France Section.(http://www.laas.fr/ichsl6/sessions.pdf)
*** Dans le document pdf signalé ci-dessus, cette intervention à l'ICHSL6 est présentée dans le programme du colloque comme conjointe à Majed Sanan, Mahmoud Rammal, et Khaldoun Zreik.
Dans les actes de ce colloque publiés par les éditions Europia, l'article est intitulé "Arabic documents classification using N-gram" et il est co-signé par M. Sanan, M. Sanan et K. Zreik.

*Revues: -Interactive Technology and Smart Education, “Arabic supervised learning method using N- gram” Volume 5, Issue 3, 2008.
*** Cet article "Arabic supervised learning method using N-gram" est en réalité cosigné Majed Sanan, Mahmoud Rammal, et Khaldoun Zreik (cf. site Emerald : http://www.emeraldinsight.com/10.1108/17415650810908249).

Des commentaires que nous avons ajoutés à la liste de ces publications, il ressort que Majed Sanan a systématiquement masqué dans cette annexe à la bibliographie que les interventions, actes et articles dont il s'affirme le seul auteur ont, dans leur quasi totalité, été co-signés avec ceux qu'il reconnaît comme ses deux directeurs de thèses, K. Zreik et M. Rammal.

Par ailleurs ce sont bien ces articles, tout particulièrement "L’accès multilingue à l’information scientifique et technologique: limitations des moteurs de recherche en langue arabe" et "Arabic supervised learning method using N-gram" que Majed Sanan a plagiés (copier-coller et traduction) pour la rédaction de la partie 3 ("Expérimentation") de sa thèse.

Ceci rend donc d'autant plus incompréhensible que le directeur de recherche en titre de cette thèse, Kaldoun Zreik, ne se soit pas rendu compte de ces plagiats, au moins de ceux là, à la lecture de la thèse de M. Sanan.
Notons qu'il était aussi difficile à l'un des deux rapporteurs de cette thèse, S. Tazi, de méconnaître ces 2 articles. En effet, S. Tazi a co-présidé, avec K. Zreik, l'ICHSL6 et a présidé la séance où ont été présentés ces travaux co-signés à trois. S. Tazi a aussi été co-responsable, avec K. Zreik, de la publication, aux Éditions Europia et sous le sigle de l'IEEE, des actes du colloque où figurent un des deux articles en question.

* *

Revenons au résultat de l'expertise du Conseil scientifique, et reprenons une formulation du texte du délibéré qui laisse perplexe : "L’analyse de la thèse fait apparaître un pourcentage de texte original de l’ordre de 35%". Par définition, une expertise de plagiat ne peut faire apparaître qu'un taux, ou un pourcentage, de plagiat et non pas un "pourcentage de texte original". Plus précisément même, l'expertise évalue un taux de plagiat minimum. Il aurait donc été plus rigoureux, et plus prudent, d'affirmer que cette expertise avait fait la preuve d'un taux de plagiat d'au moins 65%.

En réalité, "l'expertise" évoquée par le Conseil scientifique s'est limité à reprendre, sans aller chercher plus loin, des résultats très provisoires de notre étude, en l'occurrence un document de travail qui avait été communiqué à la Vice-présidente du CS fin janvier 2010. Aujourd'hui, et quoique notre étude ne soit pas encore totalement achevée, nous pouvons d'ores et déjà affirmer que le taux de plagiat de la thèse de Majed Sanan est d'au moins, pour rester sur un chiffre rond, de 90%. La part du "texte original" de cette thèse est donc, par voie de conséquence, nettement inférieure au tiers de celle estimée par l'expertise de la Commission de déontologie.
La formulation du délibéré du Conseil scientifique selon laquelle l'expert aurait distingué dans cette thèse 35% de "texte original", alors que ces 35% se révèlent être, pour probablement plus des 3/4, du plagiat est donc très maladroite.
Ceci devrait conduire la Commission de déontologie de Paris 8 à affiner ses méthodes pour l'expertise des prochaines thèses qu'elle aura à évaluer, dont celle de Sang-Ha Suh. Le fait que l'on ne dispose pas de version numérique de cette dernière thèse rendra son analyse plus fastidieuse [une prochaine étude montrera comment, dans ce cas notamment, l'exploitation de singularités de la "typographie fine" peut aider à la détection de plagiats (l'idée nous en a été donnée, dans le cadre d'un enseignement sur l'usage des ressources issues d'Internet, par Julien Gargot, un étudiant féru de typographie du master-pro "Création et édition numérique, CEN")].

* *

La suite de cet article, intitulée "AUTOPSIE D'UNE THÈSE-PLAGIAT, SUITE" paraîtra sur ce blog en mai. On en saura plus sur le contexte de publication et la nature des deux articles cités ci-dessus, co-signés par M. Sanan, M. Rammal et K. Zreik et intégrés sans plus de précautions, par copier-coller et traduction, par Majed Sanan dans sa thèse.

Jean-Noël Darde

* * *

12 commentaires:

alain_alcouffe a dit...: Bravo pour cette étude
le plagiat est une plaie que l'obsession bibliométrique va aggraver; 12 avril 2010 à 00:35
Michelle Schatzman a dit...: Je viens de découvrir cette page de blog. Vous faites un excellent travail. Continuez, bravo, et à bientôt!; 12 avril 2010 à 10:42
Jean-no a dit...: Bonjour.
Je me permets de signaler ici mes modestes réflexions sur le sujet, publiées sur mon blog sous le titre De l'originalité des mémoires universitaires. Indépendamment de la question de l'honnêteté envers la communauté universitaire, qui n'est pas une question négligeable bien entendu, le plagiat me semble poser pour le plagiaire un problème d'honnêteté envers lui-même, ce qui est la trahison ultime.
Sur ce point, je me demande quelle est la responsabilité du cadre universitaire.
(Mon expérience personnelle se limite aux devoirs et aux mémoires de niveau Licence et Master).

Jean-noël Lafargue (Maître de conférences associé, Université Paris 8 / Arts plastiques ; Professeur de l'école supérieur d'art du Havre ; Professeur à l'école régionale des Beaux-Arts de Rennes).; 14 avril 2010 à 02:00
Ambroise Ingold a dit...: Je vous remercie pour m’avoir prévenu de vos travaux. Je trouve très intéressant que de tels travaux existent. La science, comme toute activité humaine, a besoin de la critique pour s’améliorer. Je vous encourage donc à continuer et vous souhaite beaucoup de succès.; 16 avril 2010 à 01:49
Jean-Noël DARDE a dit...: Michelle BERGADAÀ, Professeur à l'Université de Genève, traite notamment de ce blog dans sa dernière "lettre", mise en ligne le 13 avril 2010.
http://responsable.unige.ch/index.php?main=b-1-1#l31
* * * * * * * *

"ENCORE UN (GROS) EFFORT POUR LIMITER LE PLAGIAT UNIVERSITAIRE"

Hélène MAUREL-INDART, Professeur de Littérature à l'Université François-Rabelais à Tours, a mis ce nouvel article en ligne sur son site "Le Plagiat". Elle y parle de ce blog.
http://www.leplagiat.net/Page005.html

Hélène Maurel-Indart a écrit deux ouvrages importants sur le plagiat (les références de ces livres figurent dans mon article La lutte contre le plagiat à l'Université est mal partie).

JND; 16 avril 2010 à 07:49
Jean-Noël DARDE a dit...: J'ai bien noté le "mal à l'aise" de Jean-Noël Lafargue, un collègue de Paris 8. L'article "Les pieds dans le plagiat" répond pour une grande part à sa question très respectable.

Dans un article ultérieur, que j'envisage d'intituler "Bien être", je reviendrai dans le détail sur cet aspect de mon blog.

On aura cependant déjà remarqué que dans les articles de ce blog, quand un personnage est cité dans un contexte qui ne lui est pas favorable (à l'exception des auteurs des thèses-plagiats), son prénom est limité à l'initial. Ceci afin de limiter le caractère invasif de la "googolisation" de son nom à laquelle JN Lafargue fait allusion.; 17 avril 2010 à 02:08
Unknown a dit...: Bonjour, et merci pour cette étude, qui dévoile cette plaie qu'est le plagiat. Il faut aussi, à ce propos, dénoncer l'irresponsabilité de certains jurys. Je me souviens d'avoir participé (comme président), il y a deux ou trois ans, à un jury d'une thèse de linguistique, à Bordeaux 3. Dès la première lecture de l'ouvrage, j'ai pu repérer des cas flagrants de copie de paragraphes entiers d'une étude parue quelques années auparavant. Immédiatement alerté, le directeur de recherche n'a pas jugé bon de réagir. Lors de la soutenance, mon intervention a largement porté sur la dénonciation de ces passages, sans la moindre réaction de la part de mes collègues. Tout cela est consigné dans mon rapport, que je tiens à vore disposition si vous le jugez utile.
Bien cordialement,
Paulo de Carvalho
Professeur émérite; 22 avril 2010 à 00:11
Jérôme Gouy a dit...: Félicitations pour cette étude.
Je suis effaré de ces pratiques qui, à tout niveau universitaire sont monstrueuses, spécialement à un niveau de recherche.
C'est une tromperie intellectuelle, un acte vol, un accaparement des fruits du travail intellectuel d'autrui, profondément méprisable.
Comment expliquer que les jury de thèse n'aient pas adopté depuis longtemps des mesures rigoureuses mais assez élémentaires pour repérer les plagiats et ne pas leur donner un label scientifique...
Il en va de la valeur et de la reconnaissance des universités.; 26 avril 2010 à 07:41
msanan a dit...: Pour ceux qui commentent, je vous signale que n'importe quel nom qui a ete signale dans ce blog de diffamation sera pris en consideration par mon avocat pour me defendre contre la diffamation en toutes ses formes (raciste,...)que M. Darde l'a fait, et selon la loi LEN francaise ce message sera considere comme avertissement d'enlever ce blog(art. 29 de la loi du 29 juillet 1881 sur la liberté).
C'est votre racisme qui parle et pas votre cerveau, supposons que j'ai copie coller tout l'etat de l'art ou est le programme (moteur de recherche) que j'ai developpe en milliers de lignes de code ???? qui a forme le coeur de ma these, ma faute est dans les derniers mois de la these j'ai fait la redaction rapidement en croyant que ce n'est rien que d'exprimer mes idees que j'ai trouve dans d'autres memoires.
En tout cas pour les professeurs francais, votre cerveau vous dit meme si copier-coller pour vous (avec la grande difference culturelle entre nos pays) est un crime, vous n'avez pas le droit de diffamer le criminel sur internet,La diffamation est un crime plus dangereux selon votre loi encore (si vous la connaissez).
Le M. De ce blog a des "choses" personnelles avec mon directeur, et il cherche comment l'attaquer.
Selon moi, sur internet je ne discute pas mon memoire je discute la diffamation qui est maintenant devenue une attaque personnelle.
Je m'excuse pour ce message.
N.B.: Ce message sera considere comme avertissement de ma part M. Sanan, pour enlever ces blogs et commentaires (suite a la 1ere etape de la loi francaise, sinon on passe a la 2eme etape).; 30 avril 2010 à 23:35
Unknown a dit...: Ah le "racisme"! Il fallait s'y attendre: on le met à toutes les sauces! C'est bien commode pour couvrir des turpitudes…
Paulo de Carvalho; 23 mai 2010 à 02:09
RF a dit...: Je me permets de signaler à l'auteur du blog, de même qu'à la personne qui le menace de procès en diffamation au nom de la loi 2004-575 du 21 juin 2004, que cette même loi contient aussi la disposition suivante, à son article 6, I, 4° :

"Le fait, pour toute personne, de présenter aux [hébergeurs du site] un contenu ou une activité comme étant illicite dans le but d'en obtenir le retrait ou d'en faire cesser la diffusion, alors qu'elle sait cette information inexacte, est puni d'une peine d'un an d'emprisonnement et de 15 000 EUR d'amende."

Autrement dit, si une procédure légale avérait le plagiat évoqué par l'auteur du blog, celui-ci aurait moyen de saisir la justice du commentaire laissé par "msanan", car ce commentaire est passible d'une peine très lourde.; 20 juin 2010 à 13:41
Lou Albessard a dit...: Incroyable. Il ne s'agit pas ici d'une "différence culturelle" (ne retirons pas le crédit des auteurs libanais honnetes, M. Sanan...). D'ailleurs, étudier a l'étranger suppose une familiarisation avec les lois/pratiques locales, a laquelle se soumettent de nombreux étudiants chaque année (moi-meme incluse). Je suis atterée de découvrir avec ce blog la facilité avec laquelle certains se voient conférer le grade de Docteur. Et moi qui m'inquiétais de ne pas trouver de sujet de these...; 14 juin 2012 à 06:36