REPUBLIQUE ALGERIENNE DEM OCRATIQUE ET POPULAIRE
Ministère de l’enseignement Supérieur et de la Recherche Scientifique
UNIVERSITE M ohamed Seddik Ben Yahia – Jijel
Faculté des Sciences Exactes et Informatique
Département de M athématiques
M émoire
Pour l’obtention du diplôme de : M aster
Spécialité : M athématiques Appliquées
Option : Probabilités et statistique
Thème
Les designs Bayésiens séquentiels de groupe
Présenté par :
Benhamouda Fatiha
Boukhellout Nadjet
Devant le jury :
Présidente : D. Azzam-Laouir Pro Univ. Jijel
Encadreur : Z. Djeridi M .A.A Univ .Jijel
Examinatrice : N. Sellami M .A.A Univ. Jijel
Examinatrice : Z. Abdi M .A.A Univ.Jijel
Promotion 2016/ 2017
Remerciement
Tout la grat it ude et le merci au dieu le t out puissant qui a f ait que ce t ravail soit mené et t erminé.
N ous adressons nos vif s remerciement s à not re promot rice consult ant eM adame D JERI D I
Z AH RA pour nous avoir diligent é t out au long de ce t ravail, pour sacompréhension , sa pat ience,
sa compét ence, et ces remarques qui nous ont ét é précieuses.
N ous t enons à remercier également les membres du jury pour l’honneur qu’ils nousf ont en
accept ant de juger et d’évaluer not re t ravail:Prof esseur AZ Z AM -L AOU I R D AL I L A,
M adame ABD I Z I N EB et M adame SEL L AM I N AW EL .
N ous présent ons nos chaleureux remerciement s aux enseignant s du départ ement de
mat hémat iquespour leurs aides et orient at ions durant not re f ormat ion.
N os derniers remerciement s, vont à t ous ceux qui ont cont ribué de près ou de loin à la réalisat ion
de ce t ravail.
F at iha-N adjet
Table des matières
Introduction Générale 3
Notations 5
1 Préliminaires 6
1.1 Aperçu sur les essais cliniques . . . . . . . . . . . . . . . . . . 6
1.1.1 Ethiques et Randomisation . . . . . . . . . . . . . . . . 7
1.1.2 Puissance . . . . . . . . . . . . . . . . . . . . . . . . . 8
1.1.3 Puissance et nombre de sujets nécessaire . . . . . . . . 10
1.1.4 Règle d'arrêt . . . . . . . . . . . . . . . . . . . . . . . 14
1.2 Analyses intermédiaires . . . . . . . . . . . . . . . . . . . . . 15
1.2.1 Objectifs des analyses intermédiaires . . . . . . . . . . 15
1.3 Test séquentiel de groupe . . . . . . . . . . . . . . . . . . . . 16
1.3.1 Conceptes de base . . . . . . . . . . . . . . . . . . . . 17
1.3.2 Une formulation uniée . . . . . . . . . . . . . . . . . 18
1.4 Application dans les essais cliniques . . . . . . . . . . . . . . . 19
1.4.1 Test d'une moyenne pour une population simple . . . . 19
1.4.2 Comparaison de deux traitements parallèles . . . . . . 20
1.4.3 Comparaison de deux traitements apparaillés . . . . . . 21
1.4.4 Test d'O'Brien et Fleming . . . . . . . . . . . . . . . . 22
2 Tests séquentiels Bayésiens de groupe 27
2.1 Le prespective Bayésien . . . . . . . . . . . . . . . . . . . . . 27
2.2 Paradigme Bayésien . . . . . . . . . . . . . . . . . . . . . . . . 29
2.2.1 Utilisation séquentielles du théorème de Bayses . . . . 32
2.2.2 Prédiction . . . . . . . . . . . . . . . . . . . . . . . . . 33
2.3 Test séquentiel Bayésien de groupe . . . . . . . . . . . . . . . 37
2.3.1 Règles d'arrêt Bayésiennes . . . . . . . . . . . . . . . . 37
2.3.2 Choix de distribution a priori . . . . . . . . . . . . . . 41
1
Table des matières 2
3 Designs séquentiels de groupe 43
3.1 Puissance conditionnelle . . . . . . . . . . . . . . . . . . . . . 43
3.2 Puissance Prédictive . . . . . . . . . . . . . . . . . . . . . . . 49
3.3 Application . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
Conclusion générale 59
Résumé 60
Annexe 61
Bibliographie 70
Introduction générale
L'analyse séquentielle ou le test d'hypothèse séquentiel est une analyse
statistique où la taille de l'échantillon n'est pas xée à l'avance. Plutôt, les
données sont évaluées au fur et à mesure qu'elles sont recueillies et l'échan-
tillonnage s'arrête selon une règle prédénie, dès que des résultats signicatifs
sont observés. Ainsi une conclusion peut parfois être atteinte à un stade beau-
coup plus précoce que ce qui serait possible avec des tests d'hypothèses ou
des estimations plus classiques, à un coût nancier ou humain par conséquent
inférieure.
Cette méthode a été développée initialement pour des installations in-
dustrielles (Shewhart(1931)), ensuite elle a été modiée pour les essais
cliniques (C. Jennison(2000)).
Dans ce travail nous avons choisit la méthode d'OBrien et Fleming comme
exemple des méthodes séquentiels pour les tests d'hypothèses utilisant la
statistique normalisée an de trouver des frontières d'arrêts plus adéquates.
L'analyse statistique séquentielle standard n'est pas bien équipée pour
gérer une règle d'arrêt non rigide et certaines recherches ont impliqué des ap-
proches plus souples, telle que les procédure de la stochastique curtailements
qui surveillent la probabilité qu'un test d'échantillon xe spécique atteigne
un résultat signicatif( (Lan et al.(1982), Choi et al (1985), Spiegel-
halter et al.(1986)). L'approche Bayesienne ore, également, la possibilité
d'un suivi souple des résultats des essais, et nous devons contraster et compa-
rer les approches bayésienne et fréquentiste. Pour se faire, nous avons choisit
la notion de puissance prédictive et puissance conditionnelle pour analyser
les données des survie.
Ce mémoire comporte trois chapitres :
•Le premier chapitre est un aperçu sur les essais cliniques, et les analyse
séquentielles quant à leur motivation, au principe de leurs méthodes notam-
ment l'étude des tests séquentiels de groupe. Des applications numériques
ont été étudiées pour illustrer les méthodes utilisées.
•Dans le deuxième chapitre, nous développons les méthodes Bayésiennes
qui donnent beaucoup de souplesse au monitoring des essais cliniques.
3
Introduction générale 4
•Finalement, dans le troisième chapitre, nous avons choisit la procédure
stochastique curtailement (PSC) qui utilise la notion de puissance an de
trouver des designs plus souples pour bien surveiller les essais cliniques en uti-
lisant les méthodes séquentielles de groupes fréquentistes comme bayésiennes
en terminant par un exemple d'application dans le domaine des données de
survie.
Notations
Cnx Coecient binomial.
v.a Variable aléatoire.
p − valeur La probabilité observer.
∝ Proportionelle à .
π(θ) La loi a priori.
π(θ | x) La loi a posteriori.
f (x | y) La loi prédictive.
DSM B Données et sûreté monitoring board.
EM V L'estimateur du maximun de vraissemblance.
RBO Le rapport des odds a posteriori.
P SC Procedure de stochastique curtailement.
I Le niveau d'information.
K Nombre de groupes (analyses, regards, étapes) d'une procédure séquentielle de g
φ La fonction de distribution cumulative de la loi normale standard.
5
Chapitre 1
Préliminaires
L'évaluation de l'ecacité d'un nouveau traitement doit reposer sur des
études cliniques.
À côté de la recherche d'un eet du taitement, il faut prendre, en compte,
la protection des patients depuis la période de Hippocrate.
Dans ce chapitre, nous allons introduire la notion des essais cliniques, avec
ses diérentes phases, la puissance d'un test et sa relation avec le nombre du
sujet necessaire. Ainsi l'importance des analyses intermédiaire. Nous explici-
terons aussi les tests séquentiels qui sont la méthode la plus répondue pour
dénir la règle d'arrêt, pour conclure l'eet du traitement.
1.1 Aperçu sur les essais cliniques
Les essais cliniques sont implicites dans le développement de médicaments
et sont menés pour recueillir des données sur la sécurité et l'ecacité des in-
terventions sanitaire (Brian S. Everitt et Andrew Pikles (1999)). Le
développement clinique des médicaments est structuré en quatre phases :
• Les essais de phase I : incluent des études introductives pour étudier
le métabolism et les interventions pharmacologiques chez les humains et les
eets secondiares associés aux doses croissantes. Ils sont également tenus de
fournir des preuves précoces d'ecacité.
• Les essais de phase II : sont des études contrôlées menées pour évaluer
l'ecacité du médicament pour une indication particulière chez les patients
de la maladie spécique à l'étude et pour déterminer les eets secondaires et
les risques à court terme courants.
6
1.1. Aperçu sur les essais cliniques 7
• Les essais de phase III : sont des études contrôlées élargies qui sont
réalisées une fois que des preuves préliminaires, suggérant l'ecacité du mé-
dicament, ont été obtenues. Ils visent également à recueillir des informations
supplémentaires sur la relation bénéce-risque globale du médicament.
• Les essai de phase VI : sont des études post-commercialisation qui sont
menées pour obtenir des informations supplémentaires, y compris les risques ;
les avantages et l'utilisation optimale du médicament.
Selon De Martini (2013), au cours des dernières années, en moyenne(environ)
2600 phase I, 3700 phase II, 2300 phase III et 1800 essais de phase VI ont été
présentés annuellement pour approbation dans le cadre de la food and Drug
Administration (FDA) des Ètats-Unis (source : clinicaltrial.gov).
Ces essais s'élèvent à environ 60% de ceux qui se déroulent à l'échelle
mondiale chaque année. En règle générale, la quantité totale d'essais dans
le monde entier se divise comme suit : 60% dans le cadre de la Food and
Drug Administration (FDA) des Ètats-Unis ; 30% dans le cadre de l'agence
européenne des médicamentts (EMA) ; Et les 10% restants sous d'autres
agences, principalement l'Agence japonaise des produits pharmaceutiques et
des dispositifs médicaux (PMDA). Il s'ensuit qu'un nombre impressionnant
d'épreuves sont simultanément opérationnelles dans le monde entier chaque
année.
1.1.1 Ethiques et Randomisation
Depuis la période de Hippocrate, les médecins occidentaux ont pris un
serment, dans du lequel, ils jurent pour protèger leur " patients de celui
qui soit délétère et malfaisant ". Malheureusement un tel serment n'est pas
parvenu à arrêter beaucoup de thérapies domageables ou à diminuer la per-
sistance des pratiques barbares telles que l'abondance du sang (Brain S.
Everitt et Andrew Pikles (1999)).
Les issus morales, dans la médecine en général, et dans les essais cliniques
en particulier, sont clairement de grande importance et présentent un champ
de mines potentiel particulierement pour les statisticiens qui sont les plus
impliqués et peut -être d'avantage intéressés aux problèmes pragmatiques de
l'analyse des données produites dans les essais. Néammoins, avec tout le per-
sonnel impliqué dans les essais, le statisticien doit partager la responsabilité
générale de conduite morale d'un essai.
Et il y a, en outre, quelques secteurs de conduite d'essai où le statisti-
cien doit prendre la responsablité particulière de s'assurer que la conduite
proposée et la conduite réelle de l'essai soient appropriées.
Une question morale souvent identiée avec des essais cliniques est celle
1.1. Aperçu sur les essais cliniques 8
de randomisation. Les essais contrôlés randomisés sont maintenant largement
répandues dans la recherche médicale. Deux exemples récents de nombreuses
essais prise tous les ans incluent :
• Une étude multicentre d'un régime pauvre en protiène sur la progression
échec rénal chronique chez les enfants (Wingen et al. (1997)).
• Une étude de l'immunothèrapie pour l'asthme allergique chez les enfants
(Ad-kinson et al. (1997)).
Si la randomisation est la première priorité dans un essai clinique ac-
ceptable, l'aveuglement vient une deuxième étroite. L'idée fontamentale de
l'aveuglement est que les patients d'essai, les personnes impliquées de leur
gestion et ceux rassemblant des données cliniques des études, ne devraient
pas être inuencés par la connaissance du traitement assigné. L'aveuglement
est nécessaire pour la possibilité de biais du patient, du medecin et de l'éva-
luation. Il y a un certain nombre de niveaux de l'aveuglement dont les plus
importants sont :
• Simple-aveugle : Habituellement utilisé pour la situation dans la
quelle le patient est ignorant de quel traitement il reçoit.
• Double-aveugle : Ici le patient et l'investigateur sont gardé aveugles
au traitement du patient. Pour beaucoup d'éssais, c'est l'arrangement du
choix. Dans les éssais de médicaments, l'aveuglement est généralement re-
lativement facile à organiser, mais l'aveuglement des traitements physiques,
par exemple, les intervention chirurgicales, est sourvent plus dicile.
L'essai contrôlé randomisé en anonymat (double-aveugle) est "l'étalon-
or" pour juger la qualité des essais cliniques en général. Mais de telles essais
sont encore mal compris par les cliniciens et il y a beaucoup de questions sur
la persistance ou non de leur éthique.
Il existe d'autres problèmes éthiques dans les essais cliniques qui concernent
directement l'un ou l'autre des aspects statistiques de la conception et de
l'analyse. Un exemple consiste à déterminer la taille de l'échantillon appro-
priée au moyen d'une analyse de puissance, en utilisant un échantillon trop
petit ou trop grand serait contraire à l'éthique, un point qui sera abordé dans
les prochainnes sections.
1.1.2 Puissance
Un essai clinique de type explicatif permet de comparer toutes choses
égales par ailleurs, les eets d'un traitement(A) à ceux d'un comparateur
pertinent (B), placebo ou traitement de référence. La valeur de la diérence
observée entre les eets de A et de B fait l'objet d'un test statistique. Il
s'agit de confronter cette valeur à celles pouvent résulter de simples d'échan-
tillonnage, au cas où il n'existerait pas de réelle diérence entre les eets des
1.1. Aperçu sur les essais cliniques 9
deux traitements. Le test statistique consiste donc, en fait, à tester l'invrai-
semblance d'un hypothèse nulle H0 selon laquelle il n'existe pas de diérence
réelle entre les eets de A et de B , dans le but de rejeter cette hypothèse
H0 . Cette hypothèse sera rejetée si la probabilité d'observer, une diérence
au moins aussi grande, de sut du hasard que celle observée entre les eets
de A et de B est inférieure ou égale à 5%, (5% est le seuil de signication
que l'on s'impose).
On sait qu'un tel test est assorti de deux risque :
i) Le risque(α) : appelé risque d'erreur du type I, qui est celui de re-
jeter l'hypothèse nulle au vu des résultats, alors que les eets des
traitement comparées ne diérent pas dans la réalité. Si l'autorisa-
tion de mise sur le marché d'un nouveau produit ne dépendait que
de son ecacité (sans tenir compte de sa telérance) et ne s'appréciait
que sur un seul essai, ce serait le risque de mettre sur le marché un
traitement inecace. C'est le risque de rejetter l'hypothèse H0 alors
qu'elle est vraie et qui favorise donc l'hypothèse H1 , s'appelle seuil de
signication ou "risque de première espèce"
α = P {rejeter H0 /H0 vraie}
ii) Le risque (β ) : appelé défaut de puissance risque d'erreur du type II,
ou manque de puissance, est le risque de ne pas rejeter H0 au vu des
résultats et donc de ne pas conclure. C'est le risque de "passer à côté"
de la démonstration de l'ecacité d'un produit réellement ecace,
"risque de deuxième espèce".
β = P {ne pas rejeter H0 /H1 vraie}
- La puissance d'un test 1−β est la probabilité de conclure à l'existance
d'une diérence entre les eets de deux traitements si cette diérence
existe réellement. Elle est l'aptitude d'un essai à démontrer l'ecacité
ou la supériorité d'un produit donné.
Les diérentes situations sont résumées dans la gur (1.1) :
La gur (1.1) visualise ces risques si on suppose que les uctuations
d'échantillonnage des valeurs de la diérence entre les eets de A et de B
ont une distribution normale. La puissance d'un test (qui vaut 1 − β ) est
donc la probabilité de conclure à l'existence d'une diérence entre les eets
de deux traitements si cette diérence existe réellement. Elle est l'aptitude
d'un test (d'un essai) à démontrer l'ecacité ou la supériorité d'un produit
donné. On conçoit donc, bien qu'en matière de comparaison de traitements, le
1.1. Aperçu sur les essais cliniques 10
Figure 1.1 Distribution de la diérence observée d = (mA − mB ) selon
que H0 est vraie ou que H1 est vraie
manque de puissance d'un test puisse être cause du non-rejet de l'hypothèse
nulle au même titre que l'équivalence vraie des traitements comparés. C'est
pourquoi ne pas mettre en évidence une diérence signifcative entre les eets
de A et de B n'autorise pas à armer leur équivalence. L'équivalence d'e-
cacité de deux traitements ne peut être envisagée, en toute rigueur, qu'à la
suite de la réalisation d'un essai dit d'équivalence ou de non-infériorité (c'est
alors l'hypothèse H1 qui est testée, pour être rejetée) ou, dans certains cas,
à la suite d'un essai classique dont l'eectif des patients inclus garantit une
puissance susante . Cette notion de puissance susante est, en fait, une
exigence plus générale. À quoi servirait, en eet, de réaliser l'essai clinique
d'un produit ecace si le test statistique de cet essai manquait à ce point de
puissance, que la probabilité de démontrer l'ecacité du produit n'était que
de l'ordre de 10 à 20% ? C'est pourquoi la puissance minimale que tout essai
clinique devrait pouvoir garantir est consensuellement xée à au moins 80%
C'est-à-dire que le risque bêta ne doit pas dépasser 20%.
1.1.3 Puissance et nombre de sujets nécessaire
La puissance d'essai dépend étroitement du nombre de sujets inclus, plus
l'eectif des patients recrutés est important, plus grande est la puissance. Le
calcul du nombre de sujets nécessaire pour garantir une puissance susante et
donc préalable à toute prise de decision de réalisation. Il est importe en eet
1.1. Aperçu sur les essais cliniques 11
de s'avoir, dès les premiers stades de la conception du protocole de l'essai, si
les exigences de puissance imposent un eectif compatibls avec les possibilités
réalistes de recrutement. Dans le cas contraire, la réalisation de l'essai est
illusoire, c'est ainsi qu'un certain nombre de projets théoriquement pertinents
doivent être abandonnés. Pour des raisons pratiques et même économiques,
ils ne pourraient aboutir (Bouvenot. G (2006)).
Le calcul du nombre de sujets nécessaires, fondé sur le choix d'une puis-
sance susante, répond aussi à des considérations éthiques (voir la section
1.1.1) : il ne serait pas raisonnables d'enrôler (et dans certain cas "d'expo-
ser") plus de patients qu'il n'est besoin ou, à l'inverse, de conduire des études
inutiles d'eectifs insusants pour permette la démonstration de l'activité
d'un produit ecace. Une autre démarche consiste, dans des cas pathologies
rares et orphelines, non plus à calculer un nombre de sujets nécessaire pour
garantir une certaine puissance mais, étant donné des possibilités limitées de
recrutement, à déterminer la puissance que garantirait ce recrutement et à
décides ensuite de l'intérêt et de l'opportunité de montrer de telles études.
Deux remarques méritent encord d'être faites :
- La première concerne la répartition de l'eectif étotale des patients
entre les deux groupes à comparer. Pour un eectif total donné, la
puissance de la comparaison est maximale lorsque les groupes à com-
parer ont un eectif identique ou trés voisin. Si l'on veut garantir une
telle puissance pour la comparaison de deux groupes de taille dié-
rente, il faut un nombre globale de patients plus élevé ;
- La seconde est que le nombre de sujets nécessaire variant en sens
inverse du carré de la taille de la diérence escomptée entre les eets
des deux traitement, il faut, pour une puissance donnée, davantage
de patients pour démontrer l'ecacité (si elle existe) d'un produit
peu diérent de son comparateur que pour démontrer l'ecacité d'un
produit trés supèrieur a son comparateur. C'est ainsi qu'on a besoin
de moins de sujets pour démontrer l'ecacité versus placebo d'une
substance active que pour mettre en évidence sa supériorité éventuelle
sur un produit de référence validé : la taille de la diérence attendue
entre les eets des traitements comparés n'est pas la même dans les
deux cas.
Comparaison de deux traitements normales avec une variance connue
Le test bilateral est un test d'une hypothèse contre une alternative bila-
teral. Nous limitons l'attention à déterminer une diérence dans la réponse
moyenne de deux traitement quand les observations sont gausiennes avec une
1.1. Aperçu sur les essais cliniques 12
variance commune connue.
H0 : θ = 0
Ha : θ 6= 0
Ha corespondent à un traitement superieur ou inférieur à l'autre.
Dans cette comparaison, la statistique du test, Z est distribué symétrique-
ment autour de 0 sous H0 , et la règle de décision sera rejetter H0 si |Z| > c
pour certaines constantes c. Le signe de Z détermine quel traitement doit
être préféré quand H0 est rejeté.
L'erreur du type I est déni pour être la probabilité de rejeter incorecte-
ment l'hypothèse nulle,
Pθ=0 {|Z| > c} = α.
La puissance d'un essai est la probabilité de rejeter l'hypothèse nulle quand
elle ne se tient pas,
Pθ {|Z| > c}
pour des valeurs de θ 6= 0. La puissance dépend de θ. Elle augmente si θ
éloigne de 0, mais il est comode d'énoncer une puissance conditionnelle à une
valeur spécique de θ, par exemple,
Pθ=δ {|Z| > c} = Pθ=−δ {|Z| > c} = 1 − β,
où δ représente une diérence de traitement que les investigateurs espére-
raient détecter avec la probabilité élevée.
En pratique, il n'est pas souhaitable de rejeter H0 en faveur de θ <
0 quand réellement θ > 0 car ceci impliquerait une recommandation du
subordonné des deux traitements.
À cet eet, la puissance conditionnelle ci-dessus peut être remplacer par :
Pθ=δ {Z > c} = Pθ=−δ {Z < −c} = 1 − β,
Sois XAi et XBi , i = 1, 2, ... dénotent les réponces des sujets assignés à deux
traitement A et B . Supposons que
XAi ∼ N (µA , σ 2 ) et XBi ∼ N (µB , σ 2 ), i = 1, 2, ..., et toutes les informations
sont indépendantes. Considérez le problème d'evaluer l'hypothèse nulle sans
diérence de traitement
H0 : µA = µB contre Ha : µA 6= µB
avec l'erreur du type I, α, et la puissance 1 − β, µA − µB = ±δ
Si n sujets sont assignés à chaque traitement, la statistique du test sera
1.1. Aperçu sur les essais cliniques 13
n n
!
1 X X
Z=√ XAi − XBi
2nσ 2 i=1 i=1
p
2
∼ N (µA − µB ) n/2σ , 1
Ainsi sous H0 , Z ∼ N (0, 1), et rejetez H0 si :
|Z| > φ−1 (1 − α/2)
où φ dénote la fonction de distribution cumulative normal.
Pour satisfaire la puissance conditionnelle, nous avons également
P {|Z| > φ−1 (1 − α/2)} = 1 − β
Quand Z ∼ N (±δ n/2σ 2 , 1).
p
Nous pouvons ignorer les probabilités trés petites telles que
Z < −φ−1 (1 − α/2) quand µA = µB = δ
ou
Z > φ−1 (1 − α/2) quand µA = µB = −δ,
ainsi nous avons besoin de
E(Z) = φ−1 (1 − α/2) + φ−1 (1 − β)
à l'alternative positive, µA −µB = δ , et égalons cette valeur prévue à δ n/2σ 2 ,
p
nous trouvons la taille de l'échantillon nécessaire
nf (α, β, δ, σ 2 ) = {φ−1 (1 − α/2) + φ−1 (1 − β)}2 2σ 2 /δ 2
sujet par bras de traitement. Dans la pratique nf doit être arrondi pour avoir
une taille d'échantillon de nombre entier.
Exemple 1.1.1. Supposons que σ2 = 4, ainsi XAi ∼ N (µA , 4) et XBi ∼
N (µB , 4), i = 1, 2, ..., et on exige pour examiner H0 : µA = µB , avec α =
0.05 et 1 − β = 0.9 quand µA − µB = ±1.
La taille de l'échantillon nécessaire pour ce test est :
{φ−1 (0.975) + φ−1 (0.9)}2 × 2 × 4 = 84.1
sujets pour chaque traitement, qu'on arrondi à 85. L'hypothèse nulle sera
rejetée si
85 85
X X √
XAi − XBi ≥ 1.96 85 × 2 × 4 = 51.1.
i=1 i=1
1.1. Aperçu sur les essais cliniques 14
calculer α et 1−β de ce test :
1 − β = P (accepter H1 | H1 est vraie)
= P |Z| > φ−1 (1 − α/2) | µA − µB = 1
p p
= P Z 0 > φ−1 (1 − α/2) − n/2σ 2 + P Z 0 < −φ−1 (1 − α/2) − n/2σ 2
= P (Z 0 > −1.29) + P (Z 0 < −5.22)
= φ(1.29)
= 0.9
α = P (rejetter H0 | H0 est vraie)
= P |Z| > φ−1 (1 − α/2) | µA − µB = 0
= P (Z > 1.96) + P (Z < −1.96)
= 2 − 2φ(1.96)
= 0.05
Nous reviendrons à cet exemple pour illustrer et comparer les diérents
types de tests séquentielles de groupes.
1.1.4 Règle d'arrêt
D'aprés Robert C. (2006), au cours d'un essai, l'information s'accumule
progressivement au fur et à mesure des inclusions et du suivi des patients,
mais c'est seulement au terme de l'essai, aprés avoir recruté l'eectif prévu,
que la quantité d'information est susante et que les données peuvent être
analysées et, parfois, on doit s'arrêter complètement.
Principe de la règle d'arrêt
Si une suite d'expérience ζ1 ,ζ2 , ... admet une règle d'arrêt γ , qui indique
quand les expériences doivent s'arrêter. L'inférence sur θ ne doit dépendre
de γ qu'à travers l'échantillon résultant.
Règle d'arrêt précoce
D'aprés Chow S. C et Chang M. (2007), il est désirable d'arrê-
ter l'étude lorsque l'ecacité du médicament devient remarquable durant
l'étude. Pour arrêter l'essai prématurément, nous limitions le nombre de su-
jet aléatoires. On utilise au moins une de ces règles :
1) Règle pour utilité :
L'écart du taux de succés entre le groupe d'étude et le groupe témoin
dépasse un seuil, et l'extrémité inférieure correspondante à l'intevalle
1.2. Analyses intermédiaires 15
de conance de probabilité à 95% et inférieure à un certain seuil.
2) Règle pour futilité :
L'écart du taux de succès entre le groupe du traitement et le groupe
témoin est inférieur à un seuil, et l'extrémité supérieure correspon-
dante à l'intervalle de conance de probabilité à 95% est inférieure à
un seuil précis .
1.2 Analyses intermédiaires
Les analyses intermédiaires sont des analyses de données réalisées au cours
d'essai ( l'information s'accumule progressivement au fur, et à mesure, des in-
clutions et du suivi des patients ). Des analyses intermédiaires à la recherche
de l'eet du traitement, en cours d'essai, sont envisageables pour diverses
raisons, avant que tous les patients prévus aient été recrutés et avant la n
de la période de suivi initialement prévus (Société canadienne du cancer
(2007))[www.cancer.cu] .
1.2.1 Objectifs des analyses intermédiaires
Le but de ces analyses intermédiaires selon Société canadienne du cancer
(2007) est :
• De pouvoir détecter, au plus tôt, le bénéce du traitement an d'évi-
ter de traiter des patients par un placebo alors que les données amassées
sont susantes pour conclure à l'ecacité du traitement étudié (arrêt pour
ecacité). De plus, la conrmation au plus tôt du bénéce apporté par un
traitement permet de faire bénécier du traitement, tous les patients hors
essai, le plus rapidement possible.
• Donner les moyens de détecter au plus tôt un éventuel eet délétère
du traitement an de limiter le nombre de patients exposés au risque(arrêt
pour toxicité).Dans ces deux circonstances, le but des analyses intermédiaires
est d'éviter de continuer à inclure des patients alors que l'on dispose d'une
réponse susamment faible à la quetion posée.
• Arrêter une étude dont on peut prédir avec une certitude raisonnable
qu'elle ne pourra pas aboutir (arrêt pour futilité). L'arrêt précoce permettra
de diriger les ressources vers le test de nouvelles hypothèses.
Les analyses intermédiaires s'intègrent dans un processus global de sur-
veillance des essais, à côté de la recherche anticipée d'un eet du traitement
1.3. Test séquentiel de groupe 16
et de la protection des personnes inclusés dans l'essai. Cette surveillance a
pour objectif de vérier le bon déroulement de l'essai.
Il s'agit d'éviter des dérives dans la réalisation de l'essai, qui, si elles
n'étaient détectées qu'à la n, rendraient l'essai inutilisable en raison de
défauts de qualité rédhibitoires .
Les éléments à surveiller sont les suivants :
• Le taux d'écart au protocole : L'essai est-il de qualité ?
• Le taux d'inclusion : Est-ce que l'essai pourra être réalisé dans un délai
acceptable ?
• Les caractéristiques des patients inclus : Le risque de base des pa-
tients eectivement inclus correspond t-il à celui initialement prévu et uti-
lisé dans les calcul du nombre de sujets nécessaire ? Les patients recrutés
correspondent-ils à la population cible de l'essai ?
Cette surveillance permet de prendre au plus tôt des mesures correctrices.
Les centres investigateurs ayant des dicultés à suire le protocole pourront
rectier le tir. En cas de taux de recrutement insusant, d'autres centres
investigateurs porront être recrutés an d'éviter qu'un essai dure trop long-
temps. En eet, une durée excessive limite l'intérêt d'un essai.
Cette surveillance par analyse des données amassées se superpose à la
surveillance de terrain de l'essai (appelé parfois monitorage) qui est
focalisée sur le contrôle de qualité des données (visite de centres, contrôles
des données, audit).
Exemple 1.2.1. Dans un essai devant recruter 300 patients avec un suivi
d'un mois, deux analyses intermédiaires sont réalisées : la première après
l'inclution des 100 premiers patients, la seconde avec 200 patients. L'analyse
nale porte, comme prévu, sur 300 patients. Dans un essai de 1000 patients
avec un suivi de 5 ans, une analyse intermédiaire est réalisée après recru-
tement de l'ensemble des patients, mais à mi-parcours, c'est-à-dire avec un
recul de 2.5 ans.
1.3 Test séquentiel de groupe
Les analyses séquentielles de groupe, permettent de répéter plusieurs fois,
en cours des essais, et d'arrêter l'essai dès qu'il est possible de rejeter l'hypo-
thèse nulle. L'analyse séquentielle de groupe est équivalente à la réalisation
de nombreuses analyses intermédiaires.(C. Jennison et Bruce W. Turn-
bull (2000)).
À chaque nouvelle paire de patients (un patient traité avec le traitement
étudié et un avec le traitement contrôle ), on calcule une nouvelle valeur de
1.3. Test séquentiel de groupe 17
la statistique du test que l'on compare à une valeur maximale et une valeur
minimale, si la valeur maximale est dépassée, on rejette l'hypothèse nulle. Si
la valeur est inférieure à la valeur minimale, on rejette l'hypothèse alternative
ce qui permet de conclure à l'équivalence à un delta près. Dans ces deux cas,
l'essai s'arrête. Tant que la valeur de la statistique du test reste entre ces
deux limites, on continue à recueillir des observations.
En statistiques, l'analyse séquentielle de groupe ou test d'hypothèse sé-
quentiel est une analyse statistique où la taille de l'échantillon n'est pas xée
à l'avance. Au lieu de cela des données sont évaluées pendant qu'elles sont
rassemblées, et davantage prélèvement est arrêté selon une règle d'arrêt pré-
dénie dès qu'on observera des résultats signicatifs.
1.3.1 Conceptes de base
Un test séquentiel est un test réalisé sur la base des données cumulées
après l'obtention de chaque nouvelle observation (Chow S. C, et Chang
M.(2007)). Les concepts de base sont :
L'ination de l'erreur : Pour un essai, en une seule étape, conven-
tionnelle unilatéral avec α = 0.025, l'hypothèse nulle H0 est rejetée si Z ≥
φ−1 (1 − α) = 1.96. Pour un essai séquentiel avec K analyses, si à la k eme
analyse (k = 1, 2, ..., K), |Zk | est susamment grande, nous rejetterons H0
et arrêterons l'essai. Il n'est pas approprié d'appliquer simplement un essai
unilatéral de niveau α à chaque analyse puisque les essais multiples mene-
raient à une ination de taux d'erreur du type I. En fait, le niveau réel α est
indiqué par 1−(1−αk ). Ainsi, pour K = 5, le niveau réel α est 0.071, presque
trois fois plus grand que celle du 0.025 le niveau de signication appliqué à
chaque analyse individuelle.
Frontière d'arrêt : Les frontières d'arrêt se composent d'un ensemble
de valeurs critiques avec les quelles les statistiques de test calculées à partir
des données réelles seront comparées pour déterminer si le test devrait être
terminée ou continuée. Par exemple, la gure (1.2) fournit un ensemble de
valeurs critiques comme frontière d'arrêt. En d'autres termes, si la moyenne
d'échantillon observé à une étape donnée tombe en dehors des frontières,
nous terminerons l'essai, autrement, l'essai continue.
L'échelles des frontières : Beaucoup de diérentes échelles peut être
employées pour construire les frontières d'arrêt. Les quatre échelles utili-
sées généralement sont la Z-statistique normalisée, l'échelle de la moyenne
d'échantillon, l'échelle d'erreur-dépense, et l'échelle somme- moyenne. En
principe, les échelles sont équivalentes après transformation appropriée (Chow
S.C (2007)). Comme exemple, considérons l'hypothèse pour examiner la dif-
férence entre les moyennes de deux échantillons indépendants. Ces échelles
1.3. Test séquentiel de groupe 18
Figure 1.2 Frontière d'arrêt.
sont dénies comme suit :
- L'échelle de la moyenne :θk = x̄Ak − x̄Bk
√
- Z-statistique normalisée :Zk = θk Ik , où Ik = nk /σ 2 est le niveau de
l'information.
k k
- Échelle de la somme -moyenne : Dk =
P P
xA i − x Bi
i=1 i=1
- Échelle d'erreur-dépense : α(sk ), qui est également connu comme pro-
babilité de balance.
Remarque 1.3.1. Quand le nombre d'analyses intermédiaires augmente, il y
a trop de conceptions possibles avec α et la puissance désirée. Par conséquent,
dans la pratique, il est dicile de choisir une conception plus appropriée
qui peut satisfaire notre besoin. Ainsi, on suggère qu'une fonction simple
préférée pour dénir les frontières d'arrêt soit employée. Une telle fonc-
tion avec quelques paramètres tels que les fonctions de frontière d'O'Brien-
Fleming(qu'on vera dans la section 1.4.4), et autre que voir (Cleophas T.J,
Zwinderman A. H, and Cleophas T. F. (2006)).
1.3.2 Une formulation uniée
C. Jennison (2000) a présenté une approche uniée pour le design de
test séquentielle de groupe. Cette approche uniée est brièvement décrite
ci-dessous :
1.4. Application dans les essais cliniques 19
On Considère une étude sequentielle de groupe jusqu'au K analyses don-
nant la suite des statistiques de test {Z1 , ..., ZK }.
Dénition 1.3.1. Nous disons que les statistiques {Z1 , ..., ZK } ont la dis-
tribution commune canonique avec les niveaux d'informations I1 , ..., IK pour
le paramétre θ si :
) v NK
(Z1 , ..., ZK √
E(Zk ) = θ Ik ; p k = 1, ..., K (1.1)
cov(Zk1 , Zk2 ) = Ik1 /Ik2 ; 1 < k1 ≤ k2 ≤ K
Remarque 1.3.2. La suite {Z1 , ..., ZK } est une chaîne de Markov (Brian
S.E et Andrew P (1999)). Cette propriété importante simplie les calculs
pour les tests sequentiels de groupe.
1.4 Application dans les essais cliniques
Dans cette section, nous allons donner les tests séquentiels les plus utilisés
dans les essais cliniques.
1.4.1 Test d'une moyenne pour une population simple
Soit les observations Xi v N (µ, σ 2 ), i = 1, 2, ..., d'une population com-
mun, tel que σ 2 est connu. Nous souhaitons évaluer :
H 0 : µ = µ0
Ha : µ 6= µ0
avec l'erreur du type I, α, et la puissance 1 − β . Si les nk observations sont
disponibles à l'analyse k , nous estimons µ par :
nk
σ2
(k) 1 X
X = Xi v N µ,
nk i=1 nk
et dénissons par :
(k)
Ik = (var(X ))−1 = nk /σ 2 .
Les statistiques du test sont alors :
(k) p
Zk = (X − µ0 ) Ik , k = 1, ..., K
1.4. Application dans les essais cliniques 20
L'hypotèse nulle est rejetée si :
|Zk | ≥ zα/2
Puisque chaque Zk est une combinaison linèaire des variables alèatoires
normales indépendantes Xi , le vecteur (Z1 , ..., ZK ) est normal multivarié.
Marginalement,
p
Zk v N (θ Ik , 1), k = 1, ..., K
où θ = µ − µ0 . Finalement, pour k1 ≤ k2 ,
(k ) p (k2 ) p
1
cov(Zk1 , Zk2 ) = cov {X − µ0 } Ik1 , {X − µ0 } I k 2
1 1 p p
= n k 1 σ 2 I k1 I k 2
nk nk
p1 2
= Ik1 /Ik2
et nous voyons que {Z1 , ..., ZK } suit la distribution commune canonique (1.1)
avec les niveaux d'informations {I1 , ..., IK }, pour θ = µ − µ0 .
1.4.2 Comparaison de deux traitements parallèles
Dans cette section, nous permettons une diérence de variances et de
nombres des sujets sur les deux bras de traitement. Ainsi nous avons des ré-
ponses XAi v N (µA , σA2 ), i = 1, 2, ... au traitement A et XBi v N (µB , σB2 ), i =
1, 2, ... au traitement B . Nous souhaitons évaluer :
H 0 : µA = µB
Ha : µA 6= µB
avec l'erreur du type I, α, et la puissance 1 − β .
Pour k = 1, ..., K , soient nAk et nBk le nombre cumulatif d'observation sur les
traitements A et B , respectivement, à l'heure de la k eme analyse l'estimateur
naturel de µA − µB est :
nA nB
(k) (k) 1 Xk 1 Xk
XA − XB = XAi − X Bi
nAk i=1 nBk i=1
σA2 σB2
v N µA − µB , +
nAk n Bk
1.4. Application dans les essais cliniques 21
(k) (k)
Notons que la distribution de X A − X B est une distribution marginale
sachant nAk et nBk données.
Nous dénissons l'information de µA − µB par :
−1
σA2 σB2
Ik = +
nAk n Bk
employant ceci pour créer la statistique normalisée a l'analyse k pour tester
H0 : µA = µB , comme suit :
(k) (k) p
Zk = (X A − X B ) Ik , k = 1, ..., K
L'hypothèse nulle est rejetée si :
|Zk | ≥ zα/2
le vecteur (Z1 , ..., ZK ) est normal multivarié puisque chaque Zk est une combi-
naison linéaire de variables aléatoires normales indépendantes, XAi et XBi , i =
1, 2, ..., et marginalement
p
Zk v N (θ Ik , 1), k = 1, ..., K
où θ = µA − µB . La covariance de Zks pour k1 ≤ k2 , est donnée par :
(k ) (k1 ) p (k2 ) (k2 ) p
1
cov(Zk1 , Zk2 ) = cov {X A − X B } Ik1 , {X A − X B } Ik2
1 1 2 1 1 2
p p
= nAk1 σA + nBk1 σB I k1 I k2
nAk1 nAk2 nBk1 nBk2
p p
= (Ik2 )−1 Ik1 Ik2
p
= Ik1 /Ik2
Ainsi {Z1 , ..., ZK } ayant la distribution commune canonique avec les niveaux
d'infarmations {I1 , ..., IK }, pour θ = µA − µB .
1.4.3 Comparaison de deux traitements apparaillés
Dans une comparaison de deux traitements, il peut être avantageux de
comander la variance dans la réponse attribuable aux facteurs pronostiques,
connus en employant un design de paires assorties. Des sujets sont appareillés
de sort que les deux sujet dans la même paire aient les valeurs semblables
des facteurs pronostiques, un sujet dans chaque paire qui est aléatoirement
choisi recoit le traitement A et l'autre recoit le traitement B . Soit XAi et
1.4. Application dans les essais cliniques 22
XBi les réponses des sujets pour les traitements de réception A et B dans la
paire i, respectivement.
Nous supposons que les diérences dans les paires sont normalement dis-
tribuées,
XAi − XBi v N (µA − µB , σ̃ 2 ), i = 1, 2, ...
où la variance σ̃ 2 est connu. Si la variance d'une observation individuelle est
σ 2 et la corrélation entre les réponses des sujets dans des paires est ρ, alors
σ̃ 2 = 2(1 − ρ)σ 2 . Ainsi, si l'assortiment des sujets dans les paires réalise une
corélation positive modérément grande, σ̃ 2 peut être de manière signicative
moins que 2σ 2 , de la diérence dans la réponse entre deux sujets aléatoire-
ment choisis assignés aux traitement A et B .
Nous considérons le problème d'évaluer l'hypothèse nulle H0 : µA = µB
dans un essai sequentiel de groupe où des observations sont prises en K
groupes. Si les paires de nk d'obsevations sont disponibles dans la k eme ana-
lyse, nous estimons θ = µA − µB par :
nk
1 X σ̃ 2
(XAi − XBi ) v N (µA − µB , )
nk i=1 nk
l'information pour θ est Ik = nσ̃k2 , la réciproque de la variance de l'évaluation,
et la statistique du test sera :
nk
1 X
Zk = √ (XAi − XBi ), k = 1, ..., K (1.2)
nk σ̃ 2 i=1
La probabilité de rejeter l'hypothèse nulle est :
PµA −µB =0 {|Zk | > c} = αk
et la puissance est :
PµA −µB =θ {|Zk | > c} = 1 − βk
Comme un exemple d'application des tests sequentiels de groupes, on
choisit le test d'O'Brien et Fleming, pour comparer deux traitements ap-
paraillés (C. Jennison(2000)).
1.4.4 Test d'O'Brien et Fleming
O'Brien et Fleming(1979)ont proposé un test dans lequel les niveaux
de signication nominale nécessaires pour rejeter H0 à chaque analyse aug-
mentent a mesuré que l'étude progresse, et c'est une alternative au test
1.4. Application dans les essais cliniques 23
de signication répétée de Pocook(1977). L'entrée patiente est divisée en
groupes également classés de K contenant de m sujets sur chaque traitement,
et les données sont analysées aprés qu'on ait observé chaque nouveau groupe
d'observations.
Ainsi, dans leur test il est plus dicile de rejeter H0 : µA − µB = 0
aux premières analyses mais plus facile plus tard. Dans ce test les sujets
sont attribués, aux traitements en groupes et les données accumulées sont
analysées aprés la disponibilité de groupes de données complets.
Le test d'O'Brien et Fleming est également déni en termes de statis-
tique normale Zk .
1 mk mk
Zk = √
P P
XAi − XBi k = 1, ..., K
2mkσ 2 i=1 i=1
et H0 est rejeté aprés le groupe k si |Zk | ≥ ck pour un ordre des valeurs
critiques c1 , ..., cK Formalement, le test est réalisé comme suit :
• Aprés le k eme groupep (k = 1, ..., K − 1) :
si |Zk | ≥ CB (K, α) K/k arrêter et rejeter H0 ,
autrement continue au groupe (k + 1).
• Aprés le K eme groupe :
si |ZK | ≥ CB (K, α) arrêter et rejeter H0 ,
autrement arrêter et accepter
p H0 .
Ainsi, ck = CB (K, α) K/k, k = 1, ..., K.
Les valeurs CB (K, α) sont fournies dans le tableau(1.1). En termes de niveaux
de signication nominale, H0 est rejeter à l'analyse k, k = 1, ..., K , si le
niveau de signication bilateral de H0 est :
p
α0k = 2[1 − φ{CB (K, α) K/k}]
Remarque 1.4.1.
1) Puisque CB (K, α) K/k déminue avec l'augmentation de k, alors α0k
p
croit. Pour K = 5 et α = 0.05, les niveaux de signication nominale ap-
pliqués aux analyses de 1 à 5 sont :
p
α01 = 2(1 − φ(CB (5, 0.05) 5/1))
√
= 2(1 − φ(2.04 5))
= 2(1 − φ(4.56))
= 2(1 − 0.9999975)
= 0.000005
1.4. Application dans les essais cliniques 24
Table 1.1 Test d'O'Brien et de Fleming : constantes CB (K, α) de test
bilatéral avec des groupes de K d'observations, l'erreur du type I, (α).
p
α02 = 2(1 − φ(2.040 5/2))
= 2(1 − φ(3.22))
= 2(1 − 0.99931)
= 0.0013
α03 = 0.0084, α04 = 0.0225, α05 = 0.0413.
2) Puisque les cK = CB (K, α), comparer les CB (K, α) aux CB (1, α), montre
combien la valeur de |Zk | soit grande par rapport à valeur critique qui serait
appliquée dans l'analyse des données nal. Il est évident que cette augmen-
tation, soit tout à fait petite pour les tests d'O'Brien et Fleming (voir le
tableau 1.1).
Le tableau (1.2) contient RB (K, α, β), pour l'usage dans le calculs des
tailles de l'échantillons. La taille de l'échantillon maximum sur chaque bras
de traitement est RB (K, α, β)nf (α, β, δ, σ 2 ) où
nf (α, β, δ, σ 2 ) = {φ−1 (1 − α/2) + φ−1 (1 − β)}2 2σ 2 /δ 2
est le nombre d'observations par traitement requis pour un test de taille
d'échantillon xé.
Ainsi, la taille nécessaire de groupe est :
m = RB (K, α, β)nf (α, β, δ.σ 2 )/K
1.4. Application dans les essais cliniques 25
Table 1.2 Test d'O'Brien et de Fleming : constantes RB (K, α, β) pour
déterminer des tailles de groupe de test bilatéral avec des groupes de K
d'observations, l'erreur du type I, α, et de puissance1 − β .
par bras de traitement, convonablement arondi.
Exemple 1.4.1. Nous examinons H0 : µA = µB , avec α = 0.05, 1 − β =
0.9, µA − µB = ±1, σ 2 = 4, et la taille de l'échantillon xe exigée est
nf (0.05, 0.1, 1, 4) = 84.1, RB (5, 0.05, 0.1) = 1.026, par conséquent, un essai
d'O'Brien et Fleming avec 5 groupes d'observations a nécessite une taille
d'echantillon maximal par bras de traitement qui vaut :
RB (5, 0.05, 0.1)nf (0.05, 0.1, 1, 4) = 1.026 × 84.1 = 86.3
et la taille nécessaire par groupe est m = 86.3/5 = 17.3 par traitement, qui
sera arondit jusqu'à 18. L'essai cesse de rejeter H0 à l'analyse k, k = 1, .., 5
si :
18k 18k
X X p √
XAi − XBi ≥ 2.040 5/k 18k × 2 × 4 = 54.74
i=1 i=1
et accepter H0 s'il n'est pas rejeté par l'analyse 5.
Tout le nombre maximum des sujets pour les deux bras de traitement qui
peuvent être éxigés par O'Brien et eming est 180, une petite augmentation
au-dessous des 170 requise pour un essai témoin xe. Le nombre prévu de
sujets est réduit sensiblement quand |µA − µB | est susament grand.
La frontière de l'essai d'O'Brien et Fleming pour cet exemple est illus-
trée sur la gure suivante :
1.4. Application dans les essais cliniques 26
Figure 1.3 Test d'O'Brien et de Fleming pour 5 groupes d'observations.
Dans la gure(1.3), où l'essai est décrit en terme de valeurs critiques pour
Zk , les valeurs diminuent nettement aux analyses successives.
Exemple 1.4.2. (Comparaison apparaillés) Considérons la comparaison entre
deux traitements apparaillés. Les paires d'observations XAi et XBi rapportent
des diérences de moyenne µA −µB . Nous dénissons |µA −µB | = 1 représen-
tant une diérence médicalement importante de traitement et nous décidons
d'examiner H0 : θ = 0 avec α = 0.05 et puissance 1 − β = 0.9 pour θ = ±1
En utilisant O'B'rien et Fleming avec 5 groupes d'oservations.
Les statistiques normalisées du test sont données par(1.2) et les niveaux
d'information sont Ik = nk /σ̃ 2 , k = 1, ..., K où nk est le nombre de paires
d'observations dans les premiers k groupes et σ̃ 2 = var(XAi − XBi ). Suppo-
sons qu'on sait que σ̃ 2 = 6. L'équation :
If,2 = {φ−1 (1 − α/2) + φ−1 (1 − β)}2 /δ 2
donne If,2 = (1.960 + 1.282)2 /12 = 10.51 et prenant R = RB (5, 0.05, 0.1) =
1.026 du tableau (1.2) nous trouvons les niveaux désirés de l'information qui
sont Ik = nk /6 = (k/5)1.026 × 10.51, k = 1, ..., 5. Ceci exige nk = 12.94k,
c.à.d, 12.9 paires d'observation par groupe, qui se rond vers 13. Les valeurs
cliniques pour un essai d'OBrien et Fleming sont CB (5, 0.05) = 2.040 du
tableau (1.1).
Ainsi, aux analyses k = 1, ..., 5, l'essai cesse de rejeter H0 : θ = 0 si :
r
1 X 5
√ (XAi − XBi ) ≥ 2.040 ,
13k × 6 k
c.à.d, si | (XAi − XBi )| ≥ 40.29, et H0 est accepté s'il n'a pas été rejeté par
P
la 5eme analyse.
Chapitre 2
Tests séquentiels Bayésiens de
groupe
L'approche Bayésienne aux essais cliniques, et de grand intérêt pour la
commuanté médical de développement d'un traitement, parcequ'elle ore une
manière simple et éligante d'obtenir l'information valide en quelques sorte,
qui est potentiellement de diminuer le temps.
En paradigme Bayésiene, la croyance initiale au sujet d'un paramètre d'in-
térêt (discret ou continue) est exprimée par une distribution a priori. L'évi-
dence des données est alors modélisée par une fonction de probabilité pour
le paramètre.
En particulier, les conceptions séquentielles Bayésiennes de groupes peut
être considérées comme une combinaison naturelle de la prédiction et la prise
de décision.
Dans ce chapitre nous discutons le prespective Bayésien en indiquant le
contre exemple de Freedman (1994). Nous expliciterons aussi le raisone-
ment des règles d'arrêt Bayésiennes dans les essais cliniques avec le choix de
la distribution a priori.
2.1 Le prespective Bayésien
N'importe quelle discussion des procédures séquentielles de groupes serait
inachevée sans reconnaître que quelques statisticiens considèrent l'approche
séquentielle est presque fatalement défectueuse.
Freedmain et al. (1994), trouvaient des raisons de s'inquiéter dans
plusieurs domaines :
• Maladresse philosophique .
• Comment dessiner des inférences si la règle d'arrêt n'est pas suivie.
27
2.1. Le prespective Bayésien 28
• Comment estimer des eets de traitement à la n d'un essai séquentielle
de groupe.
Freedmain et al. (1994) illustraient leurs dicultés philosophiques avec
les approches habituelles frequentistes aux analyses intermédiaires par la si-
tuation (hypothétique) suivante :
Supposons qu 'un clinicien Dr.C vient au statisticien, Dr S.
C a conduit un essai clinique d'un nouveau traitement pour le SIDA. Il a
traité et évaluer 200 patients, et l'analyse des résultats suggère un avantage
du nouveau traitement qui est statistiquement signicatif (p−valeur = 0.02).
Dr . S, qui est également un frequentist, demande combien de fois Dr.C
projette analyser les résultats pendant que l'essai progresse. Nous considé-
rons maintenant deux réponses possibles .
1) Dr. C peut répondre que c'est la première et seulement l'analyse qui
a fait et elle est susante. Il a attendu jusqu' à ce que les données
soient complètes avant de les analyser, Dr .S approuve l'analyse et la
p-valeur.
2) Dr. C peut au lieu de celà, répondre qu 'il a l'intention d'inclure 1000
patients dans cette essai , et que c'est la première de 5 analyses pro-
jetées .
D'ailleurs le statisticien, qui a aidé à concevoir l'essai, avait préconisé
une frontière d'OBrien et de Fleming. Dr. S conseille alors Dr . C que
les résultats ne sont pas encore statistiquement signicatifs et pour celà la
p-valeur nominale (p-valeur=0.02) ne peut pas être prise puisque ce n'est
qu'une seule valeur parmis une série d'essais qui sont planiés.
Freedmain et al. (1994) se plaindre qu'il semble peu raisonnable que
diérentes inférences devraient être faites par Dr .S dépendant du plan pour
d'avantage d'analyse .
Ils suggèrent alors une approche Bayésienne alternative pour améliorer
les résultats de l'approche séquentielle impliquait les étapes suivantes :
• Une distribution a priori, représentant sa croyance au sujet de la dié-
rence de traitement est indiquée. En fait deux a priori sont recommandées :
La première pour représenter un sceptique raisonnable, la seconde pour
représenter un fervent raisonnable .
• Des données sont alors récueillies pendant l'essai menant à une évalua-
tion de la diérence de traitement avec un intervalle de conance .
• Le théorème de Bayes est alors appliqué pour calculer une distribution
a posteriori qui représente sa croyance courante au sujet de la diérence des
traitements .
2.2. Paradigme Bayésien 29
• Des recommandations concernant la suite de l'essai sont basées sur la
distribution a posteriori . La balance de diérence de traitement est divisée
en trois gammes :
1) Diérences qui mèneraient à un choix du traitement standard .
2) Diérences qui mèneraient à un choix du nouveau traitement.
3) Une gamme intermédiare dans laquels les avantages du nouveau trai-
tement sont compensés par la toxicité accrue, des incovinients ou des
coût .
Les probabilites a posterioris de l'eet de traitement de chacune de ces trois
régions peuvent être employés pour prendre des decisions au sujet du futur
de l'essai .
Freedmain et al. (1994) donnaient un exemple d'une telle approche
dans un essai clinique étudiant l'éet de la combinaison de traitement de
S-urouracil et de le vamisole sur la longueure de la survie des patients avec
le cancer colorectal .
Bien que les proprietés de l'approche Bayésienne soient attrayantes en
fournissant une vue intégrée de tous les aspects de l'arrêt , jusqu'ici elle
n'a pas fait un impact important sur la surveillance des essai cliniques .
Machin (1994) crôyait que ceci puisse être partiellement dû au scepticisme
de cliniciens concernant la manière dont les diérentes a priori prétendant
représente la croyance, peuvent inuencer l'interprétation des résultats .
2.2 Paradigme Bayésien
Le paradigme Bayésien fournit un cadre très diérent d'inférence, pour la
conception et l'analyse des essais séquentielles de groupes. En ce paradigme
l'incertitude environ θ (le paramètre ou les paramètres d'intérêt) est exprimée
par une distribution de probabilité, appellée la distribution a priori de densité
π(θ) en considérant θ comme une v. a .
Dénition 2.2.1 (la loi a priori).
On entend par information a priori sur le paramètre θ toute information
disponible sur θ, en dehors de celle apportée par les observations. L'informa-
tion a priori est entachée d'incertitude (si ce n'était pas le cas, le paramètre
serait connu avec certitude et on n'aurait pas à l'estimer). Il est naturel de
modéliser cette information a priori à travers une loi de probabilité appelée
loi a priori, notée π(θ).
Pendant que les données s'accumulent, cette a priori est mis à jour pour
former la distribution a postériori qui résume l'incertitude courante au sujet
2.2. Paradigme Bayésien 30
de la valeur θ .
Dénition 2.2.2 (la loi a posteriori).
C'est la loi conditionnelle de θ sachant x sa densité notée π(θ | x), appe-
lée distribution a posteriori et est dénie par :
f (x | θ)π(θ)
π(θ | x) = R
f (x | θ)π(θ)dθ
Et on a aussi :
a) La loi du couple (θ, x) : sa densité est notée ϕ(θ, x) on a donc
ϕ(θ, x) = f (θ | x)π(θ)
b) La loi marginale de x : sa densité est notée m(x),
Z
m(x) = f (θ | x)π(θ)dθ
Exemple 2.2.1. Une boule de billard W roule sur une ligne de longueur 1,
avec une probabilité uniforme de s'arrêter n'importe où.
Supposons qu'elle s'arrête en θ. Une deuxième boule O roule, alors, n fois
dans les mêmes conditions, et on note X le nombre de fois que la boule O
s'arrête à gauche de W. Connaissant X, quelle inférence pouvons-nous mener
sur θ ?
Dans la terminologie moderne, le problème est de déterminer la distribu-
tion a posteriori de θ conditionnellement à X, quand la distribution a priori
de θ est uniforme sur [0.1] et X ∼ B(n, θ) une variable aléatoire binomial.
Comme :
P (X = x | θ) = Cnx θx (1 − θ)n−x
Zb
P (a < θ < b, X = x) = Cnx θx (1 − θ)n−x dθ
a
Z1
et P (X = x) = Cnx θx (1 − θ)n−x dθ
0
2.2. Paradigme Bayésien 31
Nous trouvons que
Rb
Cnx θx (1 − θ)n−x dθ
a
P (a < θ < b | X = x) =
R1
Cnx θx (1 − θ)n−x dθ
0
Rb
θx (1 − θ)n−x dθ
a
=
B(x + 1, n − x + 1)
Donc la distribution de θ conditionnellement à X = x est une distribution
B êta, B(x + 1, n − x + 1). Si x ∼ B(n, θ) et θ ∼ Beta(α, β) (avec α = β = 1
dans le cas particulier de Bayes )
f (x | θ) = Cnx θx (1 − θ)n−x , x = 0, 1, ..., n
1
π(θ) = θα−1 (1 − θ)β−1 , 0 ≤ θ ≤ 1
B(α, β)
la densité de la distribution jointe de (θ, x) est alors
Cnx
ϕ(θ, x) = θα+x−1 (1 − θ)n−x+β−1
B(α, β)
et densité de la distribution marginle de x est
Cnx
m(x) = B(α + x, n − x + β),
B(α, β)
donc la densité de la distribution a posteriori de θ est
θα+x−1 (1 − θ)β+n−x−1
π(θ | x) = ,
B(α + x, β + n − x)
qui est la densité d'une loi Beta, B(α + x, β + n − x).
Exemple 2.2.2. Soit X = (x1 , x2 , ..., xn ) un échantillon aléatoire de taille
n, de la loi N (θ, σ 2 ) où σ 2 est connu, et la densité de X est donnée par :
" n
#
X
f (X | θ) = (2πσ 2 ) (xi − θ)2 /2σ 2
−n
2 exp −
i=1
−1 2 n
n
∝ exp θ ( 2 ) + θx̄( 2 )
2 σ σ
−1
n
∝ exp (x̄ − θ)2 ( 2 )
2 σ
2.2. Paradigme Bayésien 32
Donc X | θ ∼ N (θ, σ 2 /n). On choisit l'a priori pour θ qui est la loi N (µ0 , σ02 ).
Puisque on a une a priori conjugueé (voir Jennison et Turnbull. (2000)),
la distribution a posteriori de θ est donnée par :
θ | X ∼ N (µn , σn2 )
Où
σ2 1
µn = ρ( µ0 + σ02 x̄), ρ= σ2
n n
+ σ02
σ2
n 0
µ + σ02 x̄
= σ2
n
+ σ02
µ0
σ02
+ nx̄
σ2
= 1
σ02
+ σn2
et
σ2 2
σn2 = ρ σ
n 0
σ2 2
σ
n 0
= σ2
n
+ σ02
Alors σn−2 = nσ −2 + σ0−2
n
et X̄ = n−1 .
P
xi
i=1
Remarque 2.2.1. À n'importe quelle étape, cette distribution a postériori
peut être employée pour dessiner des inférences au sujet de θ. Par exemple
nous pouvons construire des intervalles crédibles pour θ avec une probabilité
a postériori égale à un certain niveau préspécie 1 − 2 (C. Jennison et
Bruce W. Turnbull (2000)). Si θ est unidimentionnel et = 0.025 l'in-
tervalle est :
P (θL < θ < θu | donnes) = 0.95 .
2.2.1 Utilisation séquentielles du théorème de Bayses
Supposons que nous observons des données dans deux étapes ou plus,
disons ym suivi du yn . Alors aprés qu'on observe le premier échantillon la loi
2.2. Paradigme Bayésien 33
a posteriori sera :
π(θ | ym ) ∝ f (ym | θ)π(θ) (2.1)
Cette a posteriori devient la distribution a priori pour la prochaine utilisation
du théorème de Bayes, ainsi aprés qu 'on observe la prochaine yn du 2eme
échantillon, la distribution a posteriori conditionnée par toutes les données,
c.à.d. π(θ | yn , ym ) est donnée par :
π(θ | yn , ym ) ∝ f (yn | θ, ym )π(θ | ym ) (2.2)
Combinons les deux expressions (2.1) et (2.2) nous aurons :
π(θ | yn , ym ) ∝ f (yn | θ, ym )f (ym | θ)π(θ)
Ceci peut également être dérivé en considérant une utilisation unique du
théorème de Bayes de données yn , ym en mettant en facteur la vraissemblance
comme suit :
f (yn , ym | θ) = f (yn | θ, ym )π(θ | ym )
Dans la plupart des situations le premier terme dans (2.2) ne dépendra
pas de ym (c-à-d yn est indépendante de ym sachant θ), et ainsi π(θ | ym )
devient simplement une a priori pour une mise à jour bayésienne standard
en utilisant la vraissemblance f (yn | θ).
2.2.2 Prédiction
La réalisation de prédictions est l'un des objectifs fondamentaux de la
modélisation statistique, et une approche Bayésienne peut rendre cette tâche
raisonnablement directe. Supposons que nous souhaitons prédire certaines
observations futures x sur la base des données actuellement observées y .
Dénition 2.2.3 (La densité prédictive). La fonction de densité prédictive
est dénie par :
f (x | y)
Z
f (x | y) = f (x | θ, y)π(θ | y)dθ
R
f (x | θ)π(θ)f (y | θ)dθ
θ
= R
π(θ)f (y | θ)dθ
2.2. Paradigme Bayésien 34
Prédiction des données normales :
Les prédictions sont particulièrement facile pour les distributions normales.
Par exemple supposons que Yn v N (θ, σ 2 /n) pour quelques données futures
Yn , et la loi a priori θ ∼ N (µ, σ 2 /n0 ).
Nous souhaitons faire des prédictions au sujet des valeurs futures Yn , tenir
compte de notre incertitude sur la moyenne θ. Nous pouvons écrire Yn =
(Yn − θ) + θ, Yn est la somme de deux quantités indépendantes normales :
Yn − θ ∼ N (0, σ 2 /n) et θ ∼ N (µ, σ 2 /n0 ).
On sait que la somme de deux quantités indépendantes normales est normale
avec la somme de moyennes et de variances, et par conséquent Yn aurons une
distribution prédictive comme suit :
2 1 1
Yn ∼ N µ, σ ( + )
n n0
En utilisant les expression pour la mayenne et la variance ( David J. (2004)(section(2.2.2)))
E(Yn ) = Eθ [E(Yn |θ)] = Eθ [θ] = µ,
V (Yn ) = Vθ [E(Yn |θ)] + Eθ [V (Yn |θ)] = Vθ (θ) + Eθ (σ 2 /n) = σ 2 ( n1 + n10 ).
Supposons maintenant que nous avions déjà observé des données Ym et par
conséquent notre distribution est :
σ2
n0 µ + mym
θ|ym ∼ N ,
n0 + m n0 + m
.
no µ + mym 2 1 1
Yn |ym ∼ N ,σ +
n0 + m n0 + m n
L'utilisation de cette expression est illustrée dans l'exemple ci-desous.
Exemple 2.2.3. L'essai GREAT (du traitement précoce pour l'infarctus du
myocarde, fournit les données dans le tableau (2.1)).
Table 2.1 GREAT : normal de probabilité
Supposons que nous voulons prolonger l'essai GREAT( David J. (2004)(sec-
tion (2.4.1))), pour inclure 100 patients plus encore sur chaque bras. Quelle
2.2. Paradigme Bayésien 35
sera la valeure prédite pour odds-ration (OR) observé pour les patients de
future échantillon, avec et sans utiliser les information a priori de l'essai ?
Il est important de rappeler que la prédiction de l'estimateur de OR dépend
de nombre des évenements (des morts) observés seulement.
L'évaluation du maximum de vraisemblance de la chance de la mort sous
la nouvelle interposition est 13/150 (Le nombre de mort par le nombre de
survivants), Sous le contrôle est 23/125. Et la rapport de odds ratio OR =
13/150
23/125
. En prenant θ = log(OR), on peut l'estimée par :
(13 + 12 )(125 + 21 )
θ̂ = log
(23 + 21 )(150 + 21 )
donne un (OR) estimé ym = −0.736, avec,
1 1 1 1
V (θ̂) = + + +
13 + 1/2 23 + 1/2 150 + 1/2 125 + 1/2
= 0.131
= 0.3622 .
(David (2004)(section(2.4.1))).
Supposons
que θ = log(OR) observé dans ces futurs patients est Yn ∼
N θ, n , et θ ∼ N (−0.31, 4/236.7) où le futur nombre d'évenement est n
σ2
et σ = 2 : avec 100 patients dans chaque bras nous pouvons nous attendre a
n ' 20 événements, sachant que le taux courante de mortalité
est environ
de
10%. La distribution a postériori courante est θ|Ym ∼ N −0.31, n0σ+m où
2
n0 + m = 267.2. La distribution prédictive du log(OR) et de moyenne
E(log(OR)F | log(OR)) = (−0.31)
et la variance
V ar(log(OR)F | log(OR)) = σ 2 (1/267.2 + 1/20)
= σ 2 /18.6
= 0.462 .
Ceci est montré sur la gure (2.1). La grande incertitude dans les futures
observations est évidente.
En considérons les donnée de l'essai seulement c'est équivalent à dire que
n0 = 0, et en utilisant une a priori "ate", et par conséquent la distribution a
posteriori courante sera, θ | Ym ∼ N (−0.74, σ 2 /m), où m = 30.5 (le nombre
2.2. Paradigme Bayésien 36
Figure 2.1 On observera les distributions prédictives pour OR observe
dans de les 100 patients futures randomisés à chaque bras dans l'essai
GREAT, assumant autour 20 événements : avec l'information a priori (la
ligne en lisse), et sans l'information a priori(la ligne en tiré)
d'événements) par conséquent, ignorant l'opinion de l'expert, la distribution
prédictive de log(OR) ayant la moyenne
E(log(OR)F | log(OR)) = (−0.74),
et la variance
V ar(log(OR)F | log(OR)) = σ 2 (1/30.5 + 1/20)
= σ 2 /12.1
= 0.582 .
La gure (2.1) prouve que cette distribution prédictive est considérable-
ment plus plate que dans le cas où on prend en considération l'avis de l'expert.
Nous pouvons employer les distributions prédictives pour calculer la chance
de n'importe quels résultat d'intérêt. Disons que log(OR) inférieure à 0.50 des
composantes futures de l'essai.
En utilisant l'information a priori θ ∼ N (−0.31, σ 2 /n0 ) assez sceptique,
cette probabilité sera :
−0.69 + 0.31
P (Yn < log(0.50)|Ym ) = φ
0.4
= φ(−0.83)
= 0.21,
2.3. Test séquentiel Bayésien de groupe 37
et si la distribution a priori est ignorée on aura :
φ((−0.69 + 0.74)/0.58) = φ(0.08) = 0.53.
Donc l'avis a priori nous pousse a douter que l'avantage courante sera observé
dans les futures patients si l'essai est prolongée.
2.3 Test séquentiel Bayésien de groupe
Pour illustrer les calculs, considérons le cas des données normales pro-
voquant les statistiques normalisées Z1 , Z2 , ... avec la distribution commune
canonique (1.1). À toute étape k = 1, 2, ... la vraissemblance pour le para-
mètre θ est la densité de la loi N (θ, Ik−1 ), évalué à
p
θ̂(k) = Zk / Ik
Nous discuterons le choix a priori en détail, dans la section(2.2.2). Considé-
rons le choix commode d'une distribution a priori normale conjuguée N (µ0 , σ0 ).
En utilisant (2.1) la distribution a postériori pour θ à l'étape k sera :
!
θ̂(k) Ik + µ0 σ0−2 1
N , (2.3)
Ik + σ0−2 Ik + σ0−2
et l'intervalle crédible pour θ au niveau 95% est donné comme suit par
!
θ̂(k) Ik + µ0 σ0−2 1
−2 ± 1.96 p (2.4)
I k + σ0 Ik + σ0−2
Notons que cet interval " est retréci " vers µ0 tandis que l'interval de conance
habituel de l'évaluation est centré autour de l'éstimateur θ̂(k) . Souvent la
moyenne a priori µ0 prend la valeur 0, la valeur à l'hypothèse nulle .
Dans ce cas l'interval crédible pour θ est rétréci vers 0, une propriété
considérée comme souhaitable par quelques auteurs (Hughes et Pocock
(1988)).
Si σ0 −→ ∞ alors l'a priori est de référence ou non-informative uniform et
la distribution a postériori pour θ se réduit au N (θ̂(k) , Ik−1 ).
2.3.1 Règles d'arrêt Bayésiennes
Bien que des inférences Bayésiennes sur l'arrêt soient facilement dérivées,
les problèmes de la conception, et en particulier de la décision du moment
où on doit s'arrêter ne sont pas francs.
2.3. Test séquentiel Bayésien de groupe 38
Nous considérerons l'approche théorique de la décision Bayésienne dans
ce qui suit. Cependant, cette méthodologie exige des coûts et des utilités, qui
sont diciles à évaluer, et une approche est souvent adaptées basée seulement
sur la distribution a postériori (dénition (2.2.2)). Par exemple, on peut
arrêter un essai tôt si à une certaine étape intermédiaire k
(i)P {θ < 0|donnes} < ou (ii)P {θ > 0|donnes} < , (2.5)
telle que pourrait être 0.025 c'est équivalent à l'arrêt quand à 1 − la
région crédible exclut zero. Metha et Cain(1984) proposaient des règles
semblables.
La conception séquentielle n'aecte pas l'inférence Bayésienne, ainsi l'in-
tervalle crédible(2.4) est toujour un sommaire correct dans le paradigme
Bayésien, à l'heure de la k me analyse, soit en s'arrêtant ou pas. Par exemple,
si la condition (i) dans (2.5) est satisfaite alors la probabilité a postériori que
θ < 0 est moins que , indépendamment de n'importe quelle règle d'arrêt for-
mel cette propriété mène au conclusion de (Berry(1987)) qu'il n'y a aucun
prix, à payer de regarder des données en utilisant une approche Bayésienne.
Néammoins, les propriétés fréquentistes des arrangements de surveillance
Bayésiens, peuvent tout à fait être étonnantes, en particulier, le taux d'erreur
du type I n'est pas commandée, et peut être excessivement gonées.
Exemple 2.3.1. Reprenons l'exemple (2.2.2) sur la loi normal avec :
1) a priori non-informative :
En faisant σ0 → ∞ dans (2.3) nous voyons que la procédure (2.5)
avec = 0.025 est équivalente à la règle répétée du test de signication
qui s'arrête la première fois que |Zk | > 1.96.
La table (2.2) donne le taux d'erreur du type I de cette procédure
en fonction de le nombre maximum des analyses. C'est également
la probabilité, sous θ = 0, que 95% intervalle crédible sur l'arrêt
(θ̂(k) ±1.96Ik−1 ) ce qui coïncide avec l'intervalle non ajusté de conance
frequentist de 95% de ne pas inclure la valeur vraie θ = 0.
Le comportement semblable des taux d'erreur du type I, pour cette
forme de procédure se produit également pour d'autres choix d'a priori.
2) a priori conjuguée normal de moyenne null et une variance
σ0−2 = IK /4 :
Ici on assume que les analyses sont équidistantes avec Ik = (k/K)IK , k =
1, ..., K.
2.3. Test séquentiel Bayésien de groupe 39
Table 2.2 Taux des faux positifs pour les règles d'arrêt (2.5) et (2.6) basé
sur des probabilités a postériori Bayésiennes. Les analyses sont équidistantes.
cette a priori est appelée "handicap" prior ( C. Jennison (2000)).
Pour k → ∞, Corneld (1966) a proposé une procédure en utilisant
des a priori mixed en dennant une masse de probabilité pour θ = 0 et la
probabilité restante (1−p) ∼ N (0, σ02 ). Donc l'a postériori des odds (chances)
en faveur de l'hypothèse H0 : θ = 0 est dénit par :
P {θ = 0|donne} p
λ= = RBO
P {θ 6= 0|donne} 1−p
où
−Zk2
q
2
RBO = (1 + Ik σ0 ) exp
2{1 + (Ik σ02 )−1 }
qui est le rapport des odds posteriori par rapport aux antérieurs pour H0 .
Ce rapport est appelée "le facteur de Bayes" par (Dickey (1973)).
Supposons qu'on utilise la règle d'arrêt précédente, si |Zk | > 1.96. Alors,
en s'arrétant avec Ik large, les odds a postériori
p
λ ' {p/(1 − p)}σ0 Ik exp(−1.962 /2)
qui favorisent H0 et pas H1 si Ik est susamment grand.
Remarque 2.3.1. Cette procédure n'est pas subjective car, le rejet de H0 est
presque certain.
Mais, (Corneld(1966b)) a continue pour proposer une règle d'arrêt
basé sur les frontières d'arrêt pour RBO ou d'une manière équivalent, les
odds postérieurs, λ.
2.3. Test séquentiel Bayésien de groupe 40
Pour une telle procédure les frontières d'arrêts basées sur Zk , divergent
avec la taille de l'échantillon à la diérence des frontières d'arrêt d'O'Brien
et eming(section 1.4.4) qui deviennent plus étroites avec la taille de l'échan-
tillon (C. Jennison (2000)).
Lachin (1981) a prolonge le modèle de Corneld à une hypothèse null
composée en remplaçons l'a priori discrète par autre continue soutenu sur un
petit intervalle autour de zéro.
Remarque 2.3.2. La plupart des Bayésiens ne sont pas satisfait des a priori
mélangées. Il faut mensionner que les conceptions basée sur RBO n'ont pas
été adaptées dans la pratique récentes et les recomendations Bayésiennes ont
été basées sur la règle(2.5).
Il a été noté que les les inférences Bayésiennes, basées sur des probabilités
a postériori, ne dépendent pas des règles de surveillance ou d'arrêt.
Par conséquent, dans le paradigme Bayésien, il n'est pas necéssaires de
dénir une taille d'échantillon maximale. Cependant, il est utile d'avoir une
taille d'échantillon cible et cela peut être basé sur des analyse "préposées"
utilisant des distributions prédictives.
Règle d'arrêt basée sur l'intervalle crédible :
Pour l'arrêt, la décision est basée sur l'intervalle crédible (voir la remarque
2.2.1), (θL , θU ). θ > 0 correspond à une situation où nous souhaitons décider
qu'un nouveau traitement est préférable, notre règle de décision doit recom-
mander le nouveau traitement si θL > 0, recommander contre le nouveau
traitement si θU < 0, et soient "neutre" si θL ≤ 0 ≤ θU . Pour une taille
d'échantillon donnée, la probabilité conditionnelle de la conclusion avec une
recommandation pour le nouveau traitement, c.à.d, θ > 0, peut être calculé
par :
+∞
R
P {θL > 0|θ}π(θ)dθ
o
+∞
R
π(θ)dθ
o
Une expression semblable peut être calculée pour la probabilité condi-
tionnelle de trouver θU < 0, et le rejet du nouveau traitement sachant qu'il
est inférieur, c.à.d θ < 0. Une taille de l'échantillon cible peut être alors
déterminée en s'assurant que tous les deux probabilités excédent un certain
seuil prescrit, (par exemple 90%). Alternativement, la taille de l'échantillon
2.3. Test séquentiel Bayésien de groupe 41
cible peut être basée sur la probabilité prédictive d'une épreuve concluante
c.à.d :
Z+∞
1 − P {θL ≤ 0 ≤ θU } = 1 − P {θL ≤ 0 ≤ θU }π(θ)dθ
o
2.3.2 Choix de distribution a priori
La clef de l'approche Bayésienne est que les croyance antérieure, et les
preuves externes peuvent être récaptulées mathématiquement et s'expriment,
sous la forme d'une distribution a priori pour les paramètres inconus. Ce choix
est particulièrement important dans le contexte de la surveillance séquentielle
de groupes parceque l'arrêt, dépendant des données, peut augmenter consi-
dérablement la sensibilité des intervalles crédibles bayésiens à la spécication
erronée de l'a priori ( Rosenbaum et Rubin (1984)).
Le choix de l'a priori est subjectif, et il n'y aurra aucun choix objectif sur
lequel tout peut convenir. Une méthode simple et de rapporter la fonction de
vraissemblance que chaque consommateur combine, avec son choix a priori
personnel an de faire des inférences et des décisions .
Cependant, c'est habituellement impraticable. Au lieu de cela, une stra-
tégie recommandée est de baser les décisions sur une collection d'analyses qui
résultent d'une collection ou d'une "communauté" des a prioris. (Kass et
Greenhouse (1980)) souligne que le but d'un essai clinique est "d'apporter
des avis diérents au consensus" et considération simultanée d'une variété de
priori peuvent aider à ce but. Fayers, Ashby et Parmar (1997) déclarent
que les distributions a priori "devraient reéter le niveau du scepticisme,
qui est exprimé par des cliniciens au quels, on cherchent à inuencer". Nous
énumérons maintenant les types des a priori qui peuvent être considérés :
1) A prioris cliniques : sont censés de reéter l'opinion des experts,
qui sont obtenus par l'intermédiaire d'un questionnaire (par exemple
Freedman et Spiegelhalter(1983)) visé pour des cliniciens compé-
tents sur le terrain.
Alternativement, des a prioris cliniques peuvent être basés sur des
méta-analyses ou des aperçus d'informations historiques mais, en rai-
son du biais de publication, celles-ci peuvent être trop optimistes.
2) Les a prioris sceptiques : devraient représenter une extrémité dans
la gamme de l'opinion. Comme méthode de travail de construction.
Spiegelhalter et al. (1994) suggèrent une a priori symétrique cen-
2.3. Test séquentiel Bayésien de groupe 42
trée à zero avec seulement une petite probabilité, par exemple 5%, que
le bénéce θ dépasse une valeur alternative indiquée dans l'hypothèse
alternative θ1 > 0.
3) Les a prioris enthousiastes : agissent comme un contre poids aux
a prioris sceptiques. Sur le plan opérationnel une a priori enthousiaste
pourrait être construite en centrant la distribution à l'alternative θ1 ,
avec seulement une petite probabilité que θ < 0. Le but de la présence
des a prioris sceptiques et enthousiastes dans une collection est de di-
minuer la pression d'arrêter prematurément face aux resultats positifs
ou négatifs resultats, respectivement.
4) A priori non informative ou de référence : essayent d'être ob-
jectifs du fait qu'elles essayent de représenter un manque d'opinion a
priori. Dans l'exemple des données normale nous avions utulisé une a
priori uniforme (la limite lorsque σ0 → ∞).
Le choix de l'a priori non informative dependent de la paramétrisation,
ainsi ce qui est censée d'être non informative pour θ peut être tout à
fait pour une fonction g(θ).
Chapitre 3
Designs séquentiels de groupe
L'approche du stochastique curtailement a pour principe d'extrapoler, à
partir des résultats observés lors d'une analyse intermédiaire, ce que pourait
être le résultat nal de l'essai et de calculer les probabilités d'obtenir une
diérence signicative sous diérentes hypothèses d'eet du traitement.
Parmi ces méthodes, on peut trouver l'approche de puissance conditionnelle
et puissance prédictive.
Cette approche de surveillance séquentielle à évalué à partir de l'idée de
la restriction simple par laquelle une expérience peut être terminée dès que
le résultat nal devient inévitable.
3.1 Puissance conditionnelle
Dans ce cas, nous souhaitons évaluer une hypothèse nulle :
H0 : θ = θ0
concernant le paramètre θ.
D'abord un "test de référence", est indiqué. C'est typiquement un test
simple avec l'erreur du type I, α sous θ = θ0 et de puissance 1 − β à une
altérnative θ = θ1 pour un test unilatéral, ou aux valeurs θ1 et θ2 pour un
test bilatéral. Cependant le test de référence peut être un test sequentiel ou
sequentiel de groupe.
À une étape intermédiaire, k , pendant l'étude, soit D(k) les données ac-
cumulées. La puissance conditionnelle à l'étape k est dénie par :
pk (θ) = Pθ rejette H0 |D(k)
43
3.1. Puissance conditionnelle 44
Remarque 3.1.1.
1) pour k = 0 on trouve la fonction abituelle de puissance.
2) À l'arrêt prévu de l'étude, c.à.d. à l'étape K , cette probabilité est 0 ou
1.
À une étape k , intermédiaire, la puissance conditionnelle peut être tracée
en fonction de θ et des valeurs θ0 , θ1 et θ2 ( pour un essai bilatéral ), et θ̂(k),
l'évaluation courante de maximum de vraissemblance de θ, sont d'intérêt
particulier.
La fonction conditionnelle de puissance est un dispositif util de communi-
cation avec les investigateurs cliniques. Par exemple, elle peut être employée
pour illustrer les eets du compte de régularisation ou pour faciliter la prise
de décision pour abondonner une étude si la puissance conditionnelle semble
faible.
Une valeur élevée du pk (θ0 ) indique que l'essai de référence est peut suc-
ceptible d'accepter H0 sachant les données accumulée, même si H0 est vrai.
Lan et al. (1982) ont proposé une règle formelle par la quelle l'arrêt se pro-
duit à l'étape k , pour rejeter H0 , si pk (θ0 ) ≥ γ , pour une constante prédénie
γ telle que 0.5 < γ < 1 (les valeurs 0.8 ou 0.9 sont recommandés).
De même, on peut permettre l'arrêt tôt d'accepter H0 si :
1 − pk (θ1 ) ≥ γ0
dans un test unilatéral et pour un test bilatéral si :
1 − pk (θ1 ) ≥ γ0
et
1 − pk (θ2 ) ≥ γ0,
où 0.5 < γ0 < 1. La quantité 1 − pk (θ1 ) est dite l'indice de futilité (Ware et
al. (1985)).
En employant les règles ci-dessus, les probabilités d'erreurs du test peuvent
être prévus pour montrer que la décision nale de test de référence parfois
sera incorrectement anticiper.
Nous nous référons à un test formellement déni, basé sur les règles ci-
dessus comme procédure de stochastique curtailement (PSC).
On peut calculer les probabilités d'erreur d'un PSC avec un programme
donné d'analyse intermédiaire.
Propriétés 3.1.1 (Propriétés stochastique de la puissance conditionnelle).
3.1. Puissance conditionnelle 45
1) Lan, Simon et Halperin (1982) ont montraient avec un argument
simple que le type d'erreur I ne sera pas plus que α/γ . En eet,
pk (θ), k = 1, 2, ...
est une martingale par rapport à la ltration dénie par D(1),D(2),... . Soit
ν le temps d'arrêt du test de référence (avec la possibilité qu'il sont un test
sequentiel). D'abord, supposons que γ0 = 1, alors il n'y a aucun arrêt pour
acceptation de H0 . Dans ce cas, l'étape auquel l PSC s'arrêté sera prématuré
τ = min ν, min k : pk (θ) ≥ γ ,
Eθ0 pτ (θ0 ) = Eθ0 p0 (θ0 ) = p0 (θ0 ) = α.
Or, de la dénition de τ
Eθ0 pτ (θ0 ) ≥ γPθ0 pk (θ0 ) ≥ γ, pour k ≤ ν
= γPθ0 Rejet H0
et par conséquent
Pθ0 Rejet H0 ≤ α/γ
2) Si γ0 < 1, alors l'erreur du type I, peut seulement être réduite plus loin et
ainsi il est encore plus proche de α/γ . De même l'erreur du type II du PSC
n'est pas plus que β/γ0, où β est l'erreur du type II du test de référence.
De cette manière, on peut s'assurer que les deux type d'erreur I et II
soient au plus α et β pour le test de PSC.
Calcul de la fonction conditionnelle de puissance :
Supposons que des analyses successif donne une suite de statistiques de test
Z1 , ..., ZK avec la distribution commune canonique (1.1) donnant les infor-
mations I1 , ..., IK pour θ.
Puisque Zk est une statistique susante pour θ à l'étape k qui peut
remplacer D(k). Sans perte de généralité, soit θ0 = 0 et θ1 = δ . Supposons
que le test de référence est un test simple unilatéral, H0 : θ0 = 0 avec α,
l'erreur du type I et la puissance 1 − β à θ = δ , le test continue à l'étape
nale K où on rejette H0 si
ZK > z α ,
où zα = φ−1 (1 − α).
La puissance 1 − β à θ = δ est realisée en choisissant la taille de l'echan-
tillon qui assure un niveau d'information :
3.1. Puissance conditionnelle 46
2
IK = If,1 = φ−1 (1 − α) + φ−1 (1 − β) /δ 2
pour chaque k = 1, ..., K − 1.
Dans ce cas la distribution conditionnelle de ZK sachant Zk est :
p p
ZK |Zk ∼ N Zk Ik /IK + {θ(IK − Ik )/ IK }, (1 − Ik )/IK .
par conséquent, la puissance conditionnelle à l'analyse k sera
√ √
Zk Ik − zα IK + (IK − Ik )θ
pk (θ) = φ √ k = 1, ..., K − 1 (3.1)
IK − Ik
Exemple 3.1.1. La gure (3.1) donne les courbes de puissance d'un test de
référence (la ligne lisse) c.à.d, pk (θ) : k = 0, et la puissance conditionnelle
(la ligne en tiré) calculer dans une étape intermédiaire.
Dans cet exemple α = 0.05 et IK = 214.1, soit la courbe de puissance
Figure 3.1 Courbe de la puissance (la ligne lisse) et puissance condition-
nelle (la ligne en tiré) pour un test unilateral
conditionnelle pour l'étape k pour la quelle la moitié des observations ont été
prises, ainsi Ik = IK /2 = 107.1, et l' EMV courant de θ est
θ̂(k) = δ/2 = 0.1
√
Ceci donne une valeur Zk = 0.1 107.1 = 1.035 (voir la section 2.3).
Nous voyons que sous l'altérnative θ = 0.2, la probabilité de rejeter H0 si
l'expérience continue à la n, comme été prévu, a été réduit de 0.9 à 0.1. Si
on dénit une règle d'arrêt comme ci-dessus alors :
3.1. Puissance conditionnelle 47
Arrêter et rejeter H0 si pk (θ0 ) ≥ γ, pour θ0 = 0 est equivalente à :
(3.2)
p p
Zk ≥ z α IK /Ik + z1−γ (IK − Ik )/Ik
Arrêter et accepter H0 si
pk (θ1 ) ≤ 1 − γ0, pour θ1 = δ est equivalente à :
(3.3)
p p p
Zk ≤ z α IK /Ik − z1−γ0 (IK − Ik )/Ik − δ(IK − Ik )/ Ik
On peut voir ces frontières d'arrêt sur la gure (3.2) pour le test unilatéral
dénit par la gure(3.1) pour α = 0.05, 1 − β = 0.9, δ = 0.2, Ik = 214.1, et
γ = γ0 = 0.8. On remarque que quel que soit le plan d'analyse intermédiaire,
Figure 3.2 Frontière d'arrêt pour un test unilateral stochastiquement ra-
courci en utilisant l'approche de puissance conditionnelle, avec α = 0.05, 1 −
β = 0.9 à θ = 0.2, le niveau d'information If,1 = 214.1 et γ = γ0 = 0.8.
la probabilité d'erreur du type I, α, de cette procédure n'exédèra pas α/γ =
0.05/0.8 = 0.0625 et la puissance lorsque θ = 0.2 est garantie pour être au
moins 1 − (0.1/0.8) = 0.875.
Supposons maintenant que le test de référence est bilateral tel que H0 :
θ = 0, la probabilité d'erreur de type I, α et la puissance 1 − β pour θ = ±δ ,
le test prend une seule décision à l'étape nal K :
rejette H0 si
|ZK | ≥ zα/2
3.1. Puissance conditionnelle 48
et accepter H0 autrement.
La taille de l'échantillon devrait être choisie pour rapporter un niveau IK =
If,2 .
La puissance conditionnelle à l'analyse k est :
√ √ √ √
Zk Ik − zα/2 IK + (IK − Ik )θ −Zk Ik − zα/2 IK − (IK − Ik )θ
pk (θ) = φ √ +φ √ (∗).
IK − Ik IK − Ik
Figure 3.3 Frontière d'arrêt pour un test bilatérale stochastique en utilli-
sant l'approche conditionelle de puissance. le test de référence est un test
simple bilatéral avec α = 0.05, et le niveau d'information If,2 = 262.7,
1 − β = 0.90 à θ = 0.2 et γ = 0.8
Supposons que nous employons la PSC pour dénir une règle d'arrêt
formelle qui se termine tôt en rejetant H0 si pk (θ) ≥ γ , d'aprés les propriétés
stochastique de cette procédure, la probabilité d'erreur du type I de cette PSC
est au plus α/γ . La frontière d'arrêt pour α = 0.05, γ = 0.8 et Ik = 262.7 est
montrée dans la gure (3.3).
La puissance du test est 0.9 quand θ = δ = ±0.2, est ainsi directement
comparable aux frontières des essais de d'O'Brien et de Fleming avec
K = 4 groupes d'observations avec les mêmes probabilités d'erreurs.
Remarque 3.1.2. Si γ = 0.5, la PSC est la version continue du monitoring
d'un essai d'O'Brien et de eming, cette PSC également coîncide avec
d'autres tests ( C. Jennison (2000)).
3.2. Puissance Prédictive 49
Conclusion 3.1.1. L'importance de cette méthode est la capacité de faire
des analyses intermédiaires arbitraires non planiées , même si les données
dépendants du temps. Si la synchronisation des analyses est xée à l'avance,
des méthodes numériques peuvent être employées pour obtenir une valeur
exacte de l'erreur du type I et des frontières moins conservatrices pourraient
être dérivées.
3.2 Puissance Prédictive
Une critique de la méthode, précédente est quelle est basée sur la puis-
sance conditionnelle calculée sous des valeurs de θ qui ne peuvent être pas
soutenues par les données courantes. Par exemple, le critère arrêt pour rejeter
H0 implique pk (θ) évalué à θ = θ0 , une valeur de θ de peu vraissemblable si
le rejet est considéré.
Nous présentant maintenent une procédure qui évité ce problème, en fais-
sant la moyenne de la puissance conditionnelle par rapport aux valeurs de θ
dans un calcul Bayésien, mais toujour avec un test frequentist à l'esprit.
En utilisant comme précédement, nous supposons un test de réérence de
H0 : θ = 0 avec l'erreur du type I, α, et la puissance 1 − β à θ = θ1 dans le
cas d'un test unilatéral ou θ = θ1 et θ2 pour un test bilatéral.
Au lieu d'employer la puissance conditionnelle à des valeurs θ, nous dé-
nissons "" la puissance prédictive "" à l'etape k d'être la moyenne de la
fonction conditionnelle de puissance
Z
pk = pk (θ)π(θ | D(k))dθ (3.4)
où pk (θ) est dénie dans la section précédente.
La fonction de masse π est la densité a posteriori de θ pour une distri-
bution à priori de θ et les données D(k) accumulées par l'analyse k , donc π
reète la croyance courante au sujet de la valeur de θ.
Cette approche à été préconisée par Herson (1979), Lhoi et al.
(1985), Spiegelhalter et al. (1986). La puissance prédictive est encore
une quantité utile a communiquer aux chercheurs appliquée a une étape in-
termédiaire d'un essai .
Comme la puissance conditionnelle, elle peut être employée pour dénir
une règle d'arrêt formelle par l'arrêt à l'étape k pour :
rejeter H0 si pk > γ
ou pour accepter H0 si pk ≤ 1 − γ̀
3.2. Puissance Prédictive 50
Exemple 3.2.1. Considérons encore l'exemple de la section précedente, on
assume que Z1 , Z2 , ..., ZK suivent la distribution (1.1) avec I1 , ..., IK , et soit
un test unilateral avec la probabilité d'erreur du type I, α, et la puissance
1 − β à θ = δ conduit avec le niveau d'information IK = If,1 . Ce test rejette
H0 : θ = θ0 si et seulement si :
ZK ≥ z α
Supposons que nous employons l'a priori impropre π(θ) = 1, pour tous θ,
pour représenter un premier manque√de la connaissance sur θ, puis à l'étape
k , quand, l'EMV de θ est θ̂ = Zk / Ik , la distribution a posteriori pour θ
est donnée par p
θ | ZK ∼ N (Zk / Ik , 1/Ik )
Substituant cette densité dans (3.4) et eecttuant l'intégration, nous ob-
tenons ( √ √ )
Zk I K − Z α I k
pk = φ p (3.5)
(IK − Ik )
où φ est la distribution cumulative de la loi normale standard, aprés
p θ à été
remplacé par son EMV mais, en fait, il dière par le facteur Ik /IK une
certaine diérence doit être prévu car θ est xé dans le calcul de la puissance
conditionnelle tandis que l'EMV est le centre de la distribution a postériori
dans le cas de la puissance prédictive.
Les critères d'arrêts pk ≥ γ et pk ≤ 1 − γ̀ sont equivalent à :
rejetter H0 si :
(3.6)
p p
Zk ≥ Zα Ik /IK + Z1−γ (IK − Ik )/IK
et acceptter H0 si :
(3.7)
p p
Zk ≤ Zα Ik /IK − Z1−γ̀ (IK − Ik )/IK
La gure (3.4) montre ces frontière quand γ = γ̀ = 0.8 et le test de
référence est le même utilisé dans la gure (3.2) bien que les critères (3.6)
et (3.7) soient semblables aux règles d'arrêt de la puissance conditionnelle
données dans des gure ( 3.2) et (3.3), une comparison des gure (3.4)
et (3.2) montre que l'approche de puissance prédictive donne des frontières
beaucoup plus étroites pour les même valeurs de γ et γ0.
L'arrêt prématuré est autorisé plus aisément puisque les probabilités condi-
tionnelles sont basées sur une estimation de θ obtenu à partir des données
plutôt que les valeurs présumées θ = θ0 et θ = δ . Bienque les resultat ana-
lytiques simples ne soient pas disponibles, on peut utiliser les calcules numé-
riques pour trouver l'eet de cet arrêt prématuré sur l'erreurs du type I et
II .
3.2. Puissance Prédictive 51
Figure 3.4 Fontière d'arrêt pour un test unilatéral stochastiquement, rac-
courci en utilisant l'approche de puissance prédictive, avec une a priori uni-
forme. Le test est de référence est un test unilatéral simple, avec α = 0.5,
If,1 = 214.1, 1 − β = 0.9 à θ = 0.2, γ = γ̀ = 0.8.
Dans le problème d'un test bilatéral de la section (3.1). Le test de référence
au niveau IK = If,2 rejette H0 : θ = 0 si |ZK | ≥ zα/2 .
Le critère Pk ≥ γ réclame maintenant une décision pour arrêter et rejetter
H0 à l'étape k si
( √ √ ) ( √ √ )
|Zk | IK − zα/2 Ik −|Zk | IK − zα/2 Ik
φ p +φ p ≥ γ
(IK − Ik ) (IK − Ik )
La frontière pour γ = 0.8 est montrée sur la gure (3.5). Ici, le test de
référence est un test bilatéral, la probabilité d'erreur du type I, α = 0.05, et
IK = 262.7, pour réaliser la puissance 1 − β = 0.9 à θ = 0.2 comme dans
l'exemple employé pour illustrer l'approche conditionnelle de puissance de la
gure(3.3).
Une fois de plus, la région de continuation est plus étroite dans les pre-
mières de analyse que de l'approche de la puissance conditionnelle, qui mène
à un arrêt prématuré plus facile. Si un plan particulier des analyses est pro-
jeté, les taux d'erreurs atteints pourraient être calculés numériquement et
γ ou IK croit si on désire de réduire ces taux d'erreur. Nous avons seule-
ment employé le critère Pk ≥ γ un arrêt précoce. Une première décision pour
accepter H0 si Pk ≤ 1 − γ̀ pourrait également être autorisé.
3.2. Puissance Prédictive 52
Figure 3.5 Frontière d'arrêt pour un test bilatéral stochastiquement, rac-
courci en utilisant l'approche de puissance prédictive avec une a priori uni-
forme. Le test est de référence est un test bilatéral simple, α = 0.05, et
niveau de l'information If,2 = 262.7, pour réaliser la puissance 0.9 à θ = 0.2.
Le paramêtre stochastique de terminaison γ = 0.8.
3.3. Application 53
3.3 Application
Dans cette application, nous illusterons le calcul de la puissance condi-
tionnelle en utilisant des données intermédiaires dans un essai clinique ran-
domisée conçue pour comparer les temps de survie des sujets sur deux bras
de traitements. Ces calculs sont adaptés à ceux demandés par le conseil de
surveillance des données et de la sécurité (DSMB) lors d'un analyse inter-
médiaire de l'essai de prévention nutritionnelle du cancer et ils suivent le
développement d'Andersen (1987).
Supposons des temps de survie d'être exponentiellement distribués avec
une moyenne µA pour les patients recevant le traitement A et µB pour ceux
recevant le traitement B . Soient λA = 1/µA et λB = 1/µB les taux de risque
sur les traitements A et B respectivement, et dénissons ψ = λB /λA le
rapport de risque ou "le risque relatif".
L'hypothèse nulle à examener sera : H0 : ψ = 1.
Nous décrivons d'abord un test d'échantillon xe de H0 . Soit XA le
nombre total de patient-années observées sur le traitement A, c'est à dire
la somme des temps de survie de chaque patient jusqu'à l'échec ou le cen-
sure, et que NA le nombre d'échec pour patients observés sur le traitement
A. De même, on dénit XB et NB pour le traitement B . Nous estimons les
taux de risque par
λ̂A = NA /XA et λ̂B = NB /XB
et le rapport de risque par
ψ̂ = λ̂B /λ̂A
un test de H0 peut être basé sur la statistique
1 1
W = log(ψ̂) ∼ N (log(ψ), + ).
N A NB
Ainsi un test bilatéral, avec l'erreur du type I est approximativement égal à
α, rejette H0 si q
|W | ≥ zα/2 NA−1 + NB−1 .
En utilisant la notation des sections précedentes, nous avons
√ : l'information
I = (NA + NB ) , la statistique normalisée Z = W I , et le paramêtre
−1 −1 −1
canonique θ = log(ψ).
Il est possible de déterminer le nombre de personnes-années qui devraient
être observées dans l'étude (XA et XB ). En donnant une estimation initiale à
λA , l'erreur de type I, α, et la puissance 1 − β d'être realisé à une altérnative
indiquée ψ = ψ ∗ .
3.3. Application 54
La puissance du test ci-dessus, à une valeur donnée ψ (d'aprés la formule
(*)), est approximativement
log(ψ) log(ψ)
φ −zα/2 + q + φ −zα/2 − q . (3.8)
−1 −1 −1 −1
N A + NB NA + NB
Si l'étude accumule un total de T -années-personnes, réparties également
entre les deux traitements, les valeurs prévues du NA et NB sont λA T /2
et ψ ∗ λA T /2, respectivement.
La substitution de ces valeurs (NA et NB ) dans (3.8) donne une expression
qui peut être évaluée pour trouver la valeur de T en donnant la puissance
approximative 1 − β quand ψ = ψ ∗ (George et Desu (1974)). La connaissance
des taux d'accumulation et de renvoi peut être alors employée pour estimer les
tailles d'échantillons exigées et pour étudier la durée de l'étude pour atteindre
cette valeur de T années-personnes . Divers diagrammes, et programmes sont
disponibles pour faciliter ce calcul ; par exemple, George et Desu(1974),
schoenfeld et Richter(1982) et Makuch et Simon(1982).
Dans notre exemple, le traitement A était un groupe de contrôle et un
taux d'echec 3.14% par an a été prévu d'une expérience précédente. Le temps
etant mesuré en années, cela donne λA = 0.0314. Une réduction du taux
de risque de 25% a été considérée comme amélioration signicative et par
conséquent nous avons établi ψ ∗ = 0.75. Pour α = 0.05, 1 − β = 0.8, nous
donne un total de T = 14, 116 des années-personnes nécessaires. L'equa-
tion (3.8) en fonction de ψ > 0 avec NA = λA T /2 et NB = ψ ∗ λA T /2, où
λA = 0.0314, ψ ∗ = 0.75 et T = 14.116, donne la fonction de puissance pour
la conception original qui est montrée comme ligne solide dans la gure (3.6)
À une étape intermédiaire de l'essai, nous pouvons considérer la distribu-
tion à l'arrêt de la statistique W = log(ψ̂), compt tenu des données courantes.
Soit nA le nombre de patients qui ont échoué jusqu'à l'instant, xA toutes
les années-personnes observées jusque là et sA les années-personnes addition-
nelles projetées pour des sujets sur le traitement A. Dénissons de même
pour le traitement B , nB , xB et sB et soit s = sA + sB .
Notons DA et DB les variables aléatoires présentant le nombres d'autres
décès qui seront observées sur les traitements A et B , respectivement, dans
les temps additionnels de suivi de sA et sB années personnes.
3.3. Application 55
Figure 3.6 Courbe de puissance et de puissance conditionnelle. La fonction
de puissance pour la conception originale est montrée par la ligne solide. Les
autre courbes représentent des fonctions de puissance conditionnelle de trois
scénarios dierents,(1),(2) et (3), continuer aprés l'analyse intermédiaire.
À l'arrêt, nous aurons
W = log(ψ̂)
= log(λ̂B ) − log(λ̂A )
nB + DB nA + DA
= log − log
x B + sB x A + sA
La distribution conditionnelle de cette statistique en donnant les valeurs ac-
tuellement observées nA , xA , nB et xB est approximativement normal de
moyenne
nB + ψλA sB n A + λA s A
log − log
x B + sB x A + sA
et de variance
ψλA sB λA s A
2
+
(ψλA sB + nB ) (λA sA + nA )2
(Andersen (1987)). Au temps d'arrêt on rejettera H0 si
(3.9)
p
|W | ≥ Zα/2 (nA + DA )−1 + (nB + DB )−1
3.3. Application 56
Par conséquent, nous pouvons estimer, la puissance conditionnelle de
la distribution conditionnelle W indiquée ci-dessus, en substituant les es-
timateurs sA λ̂ pour DA et sB λ̂ pour DB dans le membre droit de (3.9), où
λ̂ = (n A +nB )
(xA +xB )
est l'estimateur courant du taux commun de risque sous H0 .
L'ors d'une réunion intermédiaire, le DSMB a été confronté aux données
de mortalité dans le tableau (3.1).
Table 3.1 Données de mortalité intermédiaire pour l'étude.
Une analyse conduite à ce point intermédiaire, (comme si c'étaient l'ana-
lyse nale) rapporte une estimation du rapport de risque
89
3943
ψ̂ = 118
= 0.7452 ,
3896
Indiquant une meilleure survie observée sur le traitement actif. Donc :
W = log(0.7452)
= −0.2940,
et la statistique normalisée du test sera
W
Z = q
1 1
118
+ 89
= −2.094,
pour laquel la p-valeur pour le test bilatéral est P(|Z|>-2.094)= 0.036.
Naturellement, cette p-valeur n'est pas ajusté à l'eet du multiples ana-
lyses (C. Jennison (2000)chapitre 9) pour plus d'informations). Cependant,
le protocole ait indiqué que l'essai devrait continuer, le DSMB a en le sujet
d'inquiétude et demande que des courbes conditionnelles de puissance, Soient
calculées pour un test de référence à l'arrêt sous les trois scénarios suivants :
3.3. Application 57
1) une année de suivi.
2) deux années supplémentaires de suivi.
3) continuation à l'arrêt comme il a été prévu.
La table(3.2) indique les années-personnes additionnelles et totales du
suivi estimées sous chaque scénario, en utilisant des taux observés accumulés
et les nombres de sujets actuellement actifs. Des courbes conditionnelles de
puissance ont été alors calculées en utilisant les formules (3.8) et (3.9). Celles-
ci sont tracées sur la gure (3.6 ) pour chacun des trois scénarios.
Table 3.2 Années-personnes additionnelles sous trois scénarios possibles
pour continuer l'étude.
Discussion des résultats
Avec la fonction de puissance pour la conception originale, chacune des
trois courbes conditionnelles de puissance est de forme U , mais ceux pour les
scénarios (1) et (2) ne commencent pas à se lever du membre droit jusqu'à
ce que θ commence à avoir des valeurs plus élevé autour ψ = 3 de (2) et ψ
= 5 de (1). D'aprés ces courbes nous pouvons remarque que pour ψ̂ = 0.75
où l'estimateur courante ψ̂ = 0.7452, il y avait une probabilité conditionnelle
élevée d'un résultat signicatif qui seront 0.79, 0.80 et 0.90 pour des scénarios
(1).(2). (3), respectivement.
Les calculs éxacts sont fournis par les programmes (1,2 et 3) de R dans
l'annexe. Même si l'hypothèse nulle étaient vraie et ψ = 1, la probabilité de
rejeté H0 était aussi grande que 53%, 41% et 23% sous les trois scénarios. Les
calculs éxacts sont fournis par les programmes (4,5 et 6) de R dans l'annexe.
Donc il est préférable de continuer l'essai.
En fait, l'essai a été terminée tôt à la prochaine analyse intermédiaire
(Anderson (1987)).
Maintenant considérons le calcul de la puissance prédictive dans le cadre
Bayésien. En choisissant une a priori impropre π(θ) = 1, pour tout θ.
Alors la distribution a posteriori sera :
p
−1 −1
W = log(ψ̂) | ZK ∼ N Zk ((nA + DA ) + (nB + DB ) ), ((nA + DA ) + (nB + DB ) )
−1 −1
3.3. Application 58
et d'aprés la formule (3.5), la puissance prédictive à l'étape K sera :
( √ √ ) ( √ √ )
|Zk | IK − zα/2 Ik −|Zk | IK − zα/2 Ik
φ p +φ p
(IK − Ik ) (IK − Ik )
avec IK = If,2 = {φ−1 (1−α/2)+φ−1 (1−β)}2 /δ 2 et Ik = ((nA + DA )−1 + (nB + DB )−1 ))
Les calculs éxacts sont fournis par les programmes (7,8 et 9) de R dans l'an-
nexe.
Alors les résultats sont données dans le tableau (3.3).
Table 3.3 La comparison entre la puissance conditionnelle et la puissance
prédictive
Il est claire, que la puissance prédictive est plus grande que la puissance
conditionnelle et çadue au faite qu'on a pris la moyenne de la puissance
conditionnelle sur toutes les valeurs du θ et non seulement pour une seule
valeur qui etait son EMV.
De ce fait, nous aurons la puissance des règles Bayésiennes, qui nous donne
plus de chance pour continuer l'étude et ne pas s'arrêter a vaut la n prévu
et décrite dans le protocole, en s'assurant, qu'on a pas gaspillé les ressources
humaines et monitaires de l'étude.
Conclusion générale
Dans notre travail nous avons étudié l'importance des tests séquentiels
de groupe qui joue un rôle très important dans le dévelopement d'un médi-
cament.
Ces méthodes séquentielles permettent de limiter la durée d'un essai ran-
domisé et donc de recommander plus rapidement la meilleure attitude thé-
rapeutique.
L'avantage de l'approche Bayésienne dans le concept des essais cliniques
est la souplesse de l'utilisation de la prédiction pour prendre une meilleur
décision d'ecacité/futilité d'un traitement.
Ainsi que la procédure de stochastique curtailement permet d'obtenir
une diérence signicative sous diérentes hypothèses d'eet du traitement,
à partir des résultats observés lors d'une analyse intermédiaire. Parmi ces
méthodes on peut trouver la notion de puissance conditionnelle et puissance
prédictive, qui sont adaptées à la décision d'arrêt d'un essai clinique, no-
tamment avec les procédures séquentielles : testes séquentiels de groupes, en
générale, et bayésiennes en particulier.
59
Résumé
Dans ce travail, nous avons essayé d'exposer les tests séquentiels de groupe
et en particulier les designs classiques et Bayésiennes de groupe et l'avantage
de la prédiction pour prévoir le meilleur traitement dans les essais cliniques.
Notre point de vu a été illustré par des applications numérique aux don-
nées de survie, en comparant la puissance conditionnelle avec la puissance
prédictive utilisé dans le contrôle intermédiaire des essais cliniques.
60
Annexe
61
Annexe 62
Annexe 63
Annexe 64
Annexe 65
Annexe 66
Annexe 67
Annexe 68
Annexe 69
Bibliographie
[1] Adkinson, N.F., Eggleston, P.A., Eney, D., Goldstein, E.O., Schuberth,
K.C., Bacon, J.R., Hamilton, R.G., Weiss, M.E., Arshand, H., Meinert.
C.L., Tonascra, J. and Wheeler, B. (1997). A controlled trial of im-
munotherapy for asthma in allergic children, New Engl. J. Med. 336 :
324-331.
[2] Andersen, P.K. (1987). Conditional power calculations as an aid in the
decision whether to continue a clinical trial. Contr. Clin. Trials, 8, 67-74.
[3] Berger, J.O. and Berry, D.A. (1988). Statistical analysis and the illusion
of objectivity. Amer. Scientist, 76, 159-165.
[4] Berry, D.A. and Fristedt, B. (1985). Bandit Problems : Sequential Al-
location of Experiments. London : Chapman and Hall.
[5] Berry, D.A. (1987). Interim analyses in clinical trials : The role of the
likelihood principle. The Amer. Statistician, 41, 117-122.
[6] Bouvenot G. and vray M. (2006). Essais cliniques (théorie, pratique et
critique) Médecine Sciences Publications. Paris, Lavoisier SAS ;ISBN :
978-2-257-14224-5.
[7] Brian S. E. and Andrw P. (1999). Statistical Aspects Of The Design
And Analysis Of Clinical Trials. Imperial College Press London ; ISBN :
1-86094-153-2.
[8] C. Jennison and Bruce W. Turnbull. (2000). Group Sequential Methods
with Applications to Clinical Trials. Chapman Hall/CRC USA ; ISBN
0-8493-0316-8.
[9] Chow S. C, et Chang M. (2007). Adaptative design methods in clinical
trials. Chapman et Hall/CRC Biostatistics Series, USA.
[10] Cleophas T.J, Zwinderman A. H, and Cleophas T. F. (2006). Statis-
tics Applied to Clinical Trials, Third Edition. Springer Pharmaceutical
Medicine Lyon, France.
[11] Choi, S.C., Smith, P.J. and Becker, D.P. (1985). Early decision in clinical
trials when treatment dierences are small. Contr. Clin. Trials, 6, 280-
288.
70
Bibliographie 71
[12] Corneld, J. (1966a). Sequential trials, sequential analysis and the like-
lihood principle. The Amer. Statistician, 20, 18-23.
[13] Corneld, J. (1966b).A Bayesian test of some classical hypotheses - with
applications to sequential clinical trials. J. Amer. Statist. Assoc., 61, 577-
594.
[14] David J. S, Keith R., Jonathan P. Myles. (2004). Bayesian Approaches
to Clinical Trials and Health-Care Evaluation. England ; ISBN 0-471-
49975-7.
[15] De Martin, D. (2013). Success Probability Estimation With Applications
to Clinical Trials. USA ; ISBN : 978-1-118-33578-9.
[16] Dickey, J. (1973). Scientic reporting and personal probabilities : Stu-
dent's hypothesis. J. Roy. Statist. Soc. B., 35, 285-305.
[17] Freedmain, L.S., Spiegehalter, D.J. and Parmar, M.K.B. (1994). The
what, why and how of Bayesian Clinical trials monitoring. Statist. Med.
13 : 1371-1384.
[18] Freedmain, L.S. and Spiegelhalter, D.J. (1989). Comparison of Bayesian
with group sequential for monitoring clinical trials. Contr. Clin. Trials,
10, 357-367.
[19] Fayers, P.M., Ashby, D. and Parmar, M.B. (1997). Bayesian data mo-
nitoring in clinical trials. Statist. Med., 16, 1413-1430.
[20] Freedmain, L.S. and Spiegelhalter, D.J. (1983). The assessment of sub-
jective opinion and its use in relation to stopping rules for clinical trials.
The Statistician, 32, 153- 160.
[21] George, S.L. and Desu, M.M. (1974). Planning the size and duration of a
clinical trial studying the time to some critical event. J. Chron. Diseases,
27, 15-24.
[22] Herson, J. (1979). Predictive probability early termination for phase II
clinical trials. Biometrics, 35, 775-783.
[23] Hughes M.D. and Pocock, S.J. (1988). Stopping rules and estimation
problems in clinical trials. Statist. Med., 7, 1231-1242.
[24] Kass, R.E. and Greenhouse, J.B. (1989). Comments on Investigating
therapies of potentially great benet : ECMO (by J.H. Ware). Statistical
Science 4, 310-317.
[25] Lachin, J.M. (1981). Sequential clinical trials for normal variates using
interval composite hypotheses. Biometrics, 37, 87-101.
[26] Lan, K.K.G., Simon, R. and Halperin, M. (1982). Stochastically curtailed
tests in long-term clinical trials. Commun. Statist. C, 1, 207-219.
Bibliographie 72
[27] Lindley D.V. (1965). Introduction to Probability and Statistics. from a
Bayesian Viewpoint ; Part 2, Inference., Cambridge : Cambridge Univ.
Press.
[28] Machin, D. (1994). Discussions of The What, Why and How of Bayesian
Clinical Trials Monitoring. Statist. Med. 13 : 1385-1390.
[29] Mehta, C.R. and Cain, K.C. (1984). Charts for early stopping of pilot
studies. J. Clinical Oncology, 2, 676-682.
[30] Makuch, R. and Simon, R. (1982). Sample size requirements for compa-
ring time-tofailure among k treatment groups. J. Chronic Diseases, 35,
861-867.
[31] O'Brien, P.C. and Fleming, T.R. (1979). A multiple testing procedure
for clinical trials. Biometrics, 35, 549-556.
[32] Robert C. P. (2006). Le choix bayésien : principes et pratique. Springer-
Verlag France, Paris.
[33] Rosenbaum, P.R. and Rubin, D.B. (1984). Sensitivity of Bayes inference
with data dependent sampling rules. The Amer. Statistician, 38, 106-109.
[34] Société canadienne du cancer. (2007). Les essais cliniques : Guide à
l'intention des per- sonnes atteintes du cancer. Le cancer : une lutte à
nir.1888 939-3333 [www.cancer.cu].
[35] Spiegelhalter, D.J. and Freedmain, L.S. (1986). A predictive approach to
selecting the size of a clinical trial, based on subjective clinical opinion.
Statist. Med., 5, 1-13.
[36] Spiegelhalter, D.J., Freedmain, L.S. and Parmar, M.K.B. (1994). Baye-
sian approaches to clinical trials (with discussion). J. Roy. Statist. Soc.
A., 157, 357-416.
[37] Schoenfeld, D.A. and Richter, J.R. (1982). Nomograms for calculating
the number of patients needed for a clinical trial with survival as an
endpoint. Biometrics, 38, 163-170.
[38] Shewhart,W.A. (1931). Economic Control of Manufactured Product. Van
Nostrand, New York.
[39] Ware, J.H., Muller, J.E. and Braunwald, E. (1985). The futility in-
dex : An approach to the cost-eective termination of randomized clinical
trials. Amer. J. Med., 78, 635-643.
[40] Wingen, A.M., FabianBach, C., Schaefer, F. and Mehls, 0. (1997). Ran-
domized multicentre study of low-protein diet on the progression of chro-
nic renal failure in children. Lancet 349 : 1117-1123.
[41] Zerari A. (2013). Approche Bayésienne aux essais cliniques séquentiels.
Magister. Constantine.