Critique : l'étude de Chen 2023 sur les hormones sexuelles croisées présente de multiples biais
- Magali Pignard
- 13 avr.
- 9 min de lecture
Dernière mise à jour : il y a 4 jours

L’étude de Chen et al. (2023) est fréquemment brandie comme une preuve de l’efficacité des hormones sexuelles croisées chez les mineurs (ex. : tribune de Libération janvier 2025, rapport Yale débunké à multiples reprises). Pourtant, elle présente de nombreuses limites méthodologiques : HARKing (modification des hypothèses après que les résultats soient connus), biais de publication, absence de groupe de contrôle, facteur de confusion.
Elle illustre comment une étude fragile peut néanmoins peser dans le débat public sur la médicalisation de jeunes s'identifiant transgenres.
📄 Étude : Psychosocial Functioning in Transgender Youth after 2 Years of Hormones, New England Journal of Medicine, janvier 2023
🔍 Une simple recherche sur Internet révèle que la majorité des auteurs soutiennent fermement l'approche trans-affirmative et sont intimement convaincus des bienfaits des hormones et des bloqueurs de puberté pour les mineurs.
Cette étude prospective observationnelle (sans groupe de comparaison) évalue le fonctionnement psychosocial au cours des deux années suivant le début des hormones sexuelles croisées dans une cohorte de 315 jeunes (de 12 à 20 ans) aux États-Unis.
Selon cette étude, « Pendant la période d'étude, la congruence de l'apparence, l'affect positif et la satisfaction de vie ont augmenté, et les symptômes de dépression et d'anxiété ont diminué. L'augmentation de la congruence de l'apparence était associée à une augmentation concomitante de l'affect positif et de la satisfaction de vie et à une diminution des symptômes de dépression et d'anxiété ».
➥ Je me suis plongée dans cette étude et dans les critiques très détaillées réalisées par :
Jesse Singal (deux articles en janvier et février 2023, regroupés en un seul document traduit en français,
DIAG : Democrats for an Informed Approach to Gender, dont les extraits principaux sont traduits en français dans ce post.
Voici ce que j'en retiens.
Deux suicides sur 315, alors que la suicidalité était un critère d’exclusion de l’étude
Deux des 315 adolescents inclus dans l’étude se sont suicidés au cours de la première année suivant l’initiation des hormones sexuelles croisées (0,63 %). Ce taux, sans permettre d’inférer une causalité, demeure dans la fourchette rapportée pour les populations suivies ou en liste d'attente dans les services de genre.
Ce qui interpelle toutefois, c'est que le protocole de l’étude (p. 22/130) mentionne que les enfants souffrant de graves problèmes psychiatriques, y compris de suicidalité, ont été exclus de l’étude dès le départ.
HARKing, biais de publication
Le HARKing (Hypothesizing After the Results are Known) est la formulation d’hypothèses a posteriori en fonction des résultats obtenus.
1. Éléments caractéristiques du HARKing dans cette étude
a) 🔄 Changement d’hypothèse en cours de route, sans explication
Un des signes classiques du HARKing (Hypothesizing After the Results are Known) est que les chercheurs modifient leurs hypothèses initiales après avoir consulté les résultats, pour les adapter à ce qui ressort de l’étude – puis les présentent comme si elles avaient été formulées avant.
C’est exactement ce qui s’est passé dans l’étude de Chen et al. (2023) :
Le protocole de l’étude (2021) formule une hypothèse claire (p. 34/130) sur plusieurs variables mesurées durant l’étude :« Les patients traités avec des hormones sexuelles croisées présenteront une diminution des symptômes d’anxiété et de dépression, de dysphorie de genre, d’automutilation, de symptômes liés aux traumatismes et de suicidalité, ainsi qu’une augmentation de l’estime corporelle et de la qualité de vie au fil du temps »
Mais dans l’article publié deux ans plus tard (2023), cette hypothèse a été modifiée :« nous avons émis l’hypothèse que [après l’administration d’hormones aux enfants], la congruence de l’apparence, l’affect positif et la satisfaction de vie augmenteraient et que les symptômes de dépression et d’anxiété diminueraient. (...) ».
Modifier les hypothèses après analyse des résultats brouille la distinction entre exploration et confirmation, induit le lecteur en erreur sur la rigueur de l’étude et favorise un biais de confirmation en mettant en avant uniquement les résultats jugés favorables, tout en mettant à l'écart certaines variables pourtant majeures.
b) ❌ Non-publication de variables majeures dont les chercheurs avaient émis l’hypothèse qu’elles s’amélioreraient
Six des 8 variables figurant dans hypothèses du protocole (et mesurées) ont disparu dans l’article final de 2023 (celles en jaune).
C’est un signe clair de biais de publication, souvent associé au HARKing : seules les variables avec des résultats favorables sont présentées.
Le journaliste Jesse Singal a retravaillé un tableau de l'annexe supplémentaire de l’article de l’étude (p. 14/30) afin d'illustrer à quoi leurs résultats auraient dû ressembler :

c) 🎯 Mise en avant de 3 nouvelles variables « positives », dont la « congruence de l'apparence »
Trois nouvelles variables ont été ajoutées dans l’hypothèse finale de l’article (en vert) :
l’affect positif,
la satisfaction de vie (différente de la « qualité de vie » mentionnée initialement),
et surtout, la congruence de l’apparence, qui devient la variable centrale de l’étude.
Pourtant, aucune de ces variables n’était identifiée comme hypothèse principale dans le protocole original, et la congruence de l’apparence n’était même pas mentionnée.
Formuler une hypothèse a posteriori, en fonction des résultats obtenus, puis la présenter comme a priori, brouille la lecture scientifique et biaise l’interprétation des résultats.
Il est important de noter que la variable « congruence de l’apparence » fait partie de la Transgender Congruence Scale (TCS). Bien que cette échelle ait été effectivement mesurée, seul cet item précis a été retenu et rapporté dans l’article, sans justification.
Le fait de se focaliser sur un seul item isolé d’une échelle plus large, alors que d’autres mesures disponibles ne sont pas présentées, est un indice clair de cherry-picking destiné à mettre en avant les résultats les plus favorables.
d) ⚠️ Interprétation trompeuse des résultats
Chen et al. affirment dans leur article (2023) qu’ « il y a eu des changements significatifs au sein des participants au cours du temps pour tous les résultats psychosociaux dans les directions hypothétiques ».
Ce qui est trompeur :
Par « tous » les résultats psychosociaux, ils n’entendent pas : tous ceux qu’ils ont mesurés et évalués au cours du temps, mais : ceux pour lesquels ils ont choisi de présenter des résultats, et ont ensuite changé d'hypothèse dans cet objectif. Ce qui pourrait rendre leurs conclusions totalement insignifiantes.
➥Tableau des biais méthodologiques pour cette partie
Type de biais | Description | Conséquence sur l’étude |
🔁 HARKing (Hypothèses a posteriori) | Les hypothèses ont été modifiées après l’analyse des résultats : nouvelle hypothèse centrée sur la congruence de l’apparence, absente du protocole. | Crée une illusion de validation scientifique ; compromet la transparence et la rigueur méthodologique. |
🚫 Biais de publication sélective | 6 des 8 variables annoncées dans l'hypothèse du protocole (suicidalité, dysphorie de genre, symptômes de traumatisme, auto-mutilation, estime corporelle, qualité de vie ) n’ont pas été rapportées dans l’article, sans explication. | Des résultats d’importance majeure ne sont pas publiés (probablement « défavorables »), faussant l’analyse globale de l’effet des hormones : · Cela biaise les résultats vers un effet exagérément positif. · Le lecteur croit à une amélioration globale, alors que les résultats non favorables sont invisibles. · Cela compromet l’intégrité scientifique et empêche de tirer des conclusions équilibrées. |
Cherry-picking | Seule une variable (congruence de l’apparence) est présentée, issue d’une échelle plus large (TCS). | Résultat mis en valeur de manière sélective, ce qui biaise l’interprétation des effets du traitement. |
Biais de présentation (Spin) | L’article affirme que tous les résultats vont « dans les directions hypothétiques », alors qu’il ne s’agit en réalité que des résultats qu’ils ont choisi de présenter, en modifiant leur hypothèse pour justifier leur sélection. | Donne au lecteur une fausse impression de cohérence et de confirmation scientifique. |
2. Pourquoi c’est grave ?
Dans le contexte des traitements médicaux, et surtout auprès de publics vulnérables, la rigueur méthodologique est essentielle.
Exclure des variables comme la suicidalité, la dépression ou l’estime corporelle, alors qu’on les avait annoncées comme centrales, fausse la compréhension de l’efficacité ou des risques du traitement.
Et cela empêche toute interprétation honnête des effets globaux du traitement hormonal.
➥ Cette approche compromet donc gravement la transparence scientifique de l’étude, et empêche une évaluation honnête de l’effet des traitements hormonaux sur la santé mentale des jeunes concernés. En contexte médical, et particulièrement lorsqu’il s’agit d’une population vulnérable, la dissimulation ou la reformulation des hypothèses fragilise considérablement la crédibilité des résultats et peut induire en erreur les professionnels de santé et les décideurs.
Concernant les résultats rapportés
Conformité d'apparence : augmentation de 0,96 sur 5 points
Affect positif : augmentation de 1,6 sur 100 points
Satisfaction de la vie : augmentation de 4,64 sur 100 points
Dépression : diminution de 2,54 sur 63 points
Anxiété : diminution de 2,92 sur 100 points
Ces chiffres représentent les changements moyens pour l'ensemble du groupe. Pour ceux en gras, il y a eu des changements statistiquement significatifs pour les deux sexes. Pour ceux qui ne sont pas en gras, les garçons trans mais pas les filles ont constaté des avantages.
La congruence de l'apparence, seul effet de taille observé
L’amélioration de la congruence de l’apparence a été ressentie par les deux sexes, et c’est le seul effet de taille décente que les chercheurs ont découvert, comme ils le reconnaissent eux-mêmes.
Les auteurs définissent cette variable comme : « le degré auquel les jeunes ressentent un alignement entre leur genre et leur apparence physique ».
Il semble presque impossible d’imaginer que cette « congruence de l’apparence » ne se soit pas « améliorée » chez ces jeunes, à mesure que les changements physiques des hormones s’installent et que leur corps correspond à ce qu'ils ressentent en eux-mêmes.
Si ces hormones ciblent l'apparence de votre corps, c'est le minimum que vous puissiez attendre d'elles : changer votre apparence. Mais, plus significativement, si, après ces changements considérables de l'apparence du corps, il n'y a aucun changement dans les scores de dépression, d'anxiété ou de satisfaction de vie des homme → femmes, alors à quoi bon toutes ces interventions ?
Pour les hommes (vers femmes)
Aucune amélioration n'a été observée concernant la dépression, l'anxiété ou la satisfaction de vie. L'œstrogène n'a pratiquement pas non plus modifié leur affect positif (et cela est vrai pour les deux sexes). En réalité, à part l'amélioration de la congruence de l'apparence, l'œstrogène n'a eu aucun effet chez les hommes. Les auteurs le mentionnent clairement dans l'article :
« Les scores de dépression et d'anxiété ont diminué chez les jeunes de sexe féminin mais pas chez ceux de sexe masculin. De même, les scores de satisfaction de vie ont augmenté chez les jeunes de sexe féminin, mais pas chez ceux de sexe masculin (Fig. S3). »
Chez les femmes (vers hommes)
Les femmes natales dans l’étude ont montré une amélioration de la satisfaction de vie, de la dépression et de l’anxiété, mais les améliorations étaient minimes et cliniquement insignifiantes.
Le graphe le plus flatteur pour les résultats de Chen et al. (S3-D annexe supplémentaire, p. 25/30), illustre les scores de dépression, début jusqu'à 24 mois sous hormones sous hormones sexuelles croisées.
La dépression a été mesurée par l'échelle Beck Depression Inventory-II, qui va de 0 à 63 :
des scores de 11-16 signifient une légère perturbation de l'humeur,
17-20 une dépression borderline,
21-30 une dépression modérée,
31-40 une dépression sévère,
supérieurs à 40 signifient une dépression extrême.
Autrement dit : Les filles avaient – en moyenne – des perturbations légères de l'humeur au départ, et... elles avaient toujours des perturbations légères de l'humeur après deux ans sous hormones sexuelles croisées. |
D'un côté, il semble difficile de nier que beaucoup de jeunes sont restés avec un mal-être malgré deux années d’accès régulier à une clinique spécialisée dans les questions de genre et à un médicament censé améliorer leur état de santé mentale.
D’un autre côté, il est difficile d’ignorer que certains enfants ont connu des réductions significatives de la dépression et/ou de l’anxiété et/ou d’autres symptômes (voir tableau S6 de l'annexe supplémentaire, p.15/30) . Cela ne constitue-t-il pas au moins une preuve de l’efficacité des hormones ?
Malheureusement…
Impossibilité d’isoler l’effet des hormones
En l’absence de groupe de contrôle, il est impossible d’établir un lien de causalité entre l’administration d’hormones et les améliorations observées
Les participants étaient suivis dans des cliniques proposant un accompagnement multidisciplinaire, incluant thérapies et traitements médicamenteux. Il est donc impossible de distinguer les effets spécifiques des hormones de ceux d’autres formes de prise en charge.
En conclusion
L’étude de Chen et al. (2023) présente plusieurs biais méthodologiques graves, notamment le HARKing, la non-publication de résultats défavorables et le cherry-picking. Les auteurs ont reformulé leurs hypothèses après avoir pris connaissance des résultats, mettant en avant des variables non prévues initialement, comme la « congruence de l’apparence », seul effet de taille observé. La majorité des variables annoncées dans l'hypothèse du protocole (comme la suicidalité ou la qualité de vie) n’ont pas été rapportées, empêchant une évaluation honnête de l’impact des hormones. En l'absence de groupe contrôle, aucun lien de causalité ne peut être établi, ce qui limite fortement la portée des conclusions.
À savoir : Les auteurs d'un article du British Medical Journal ont évalué cette étude en utilisant deux outils :
Échelle de Newcastle-Ottawa (utilisée dans la revue systématique sur les hormones qui informé le Cass Review ; cette revue n'a pas évalué cette étude car elle a été publiée après la recherche des études).
➥ Score total : 5/7, qualité « modérée » (cette échelle ne prend pas explicitement en compte le phénomène de HARKing).
Risk of Bias in Non-Randomised Studies - of Interventions (ROBINS-I)(voir l'annexe supplémentaire en ligne, appendice 3 ).
➥ Risque biais : critique.
Comments