Download Progress Review

Document related concepts
no text concepts found
Transcript
Progress Review
Optimal End Points for Acute Stroke Therapy Trials
Best Ways to Measure Treatment Effects of Drugs and Devices
Jeffrey L. Saver, MD
Downloaded from http://stroke.ahajournals.org/ by guest on July 11, 2017
Background and Purpose—Over the past decade, analysis of completed actual trials, model population studies, and
theoretical work have improved approaches to selecting and analyzing end points in acute stroke treatment trials.
Methods—Narrative review.
Results—Because stroke affects persons in their biological, functional, social, and experiential dimensions, measures of
impairment, disability, handicap, and quality of life are all desirable in pivotal trials, with disability being most
important. Scales that are valid, reliable, responsive, and easy to administer are preferred; consequently, the modified
Rankin Scale has become the most widely used single clinical efficacy measure. Because stroke cripples and kills, most
outcome scales array patient outcome in ordered ranks, spread over the entire range from normal to disabled to dead.
Generally, shift analysis, analyzing all health state transitions concurrently, is the most efficient analytic technique to
detect treatment effects, with sliding dichotomy less efficient and fixed dichotomy least efficient, unless treatment
effects strongly cluster at 1 or a few health state transitions that can be prespecified. Test statistics must also take into
account interpretability, ie, how well they can be converted into metrics capturing all outcomes the intervention might
alter in proportion to the degree they are valued by the patient; full ordinal analysis is most informative, sliding
dichotomy is intermediately informative, and fixed dichotomy is least informative regarding this global outcome.
Conclusions—Stroke trial power and interpretation can be substantially enhanced by adherence to the principles delineated
in this review. Full ordinal and sliding dichotomy analysis will most often be advantageous compared with fixed
dichotomous approaches. (Stroke. 2011;42:2356-2362.)
Key Words: acute cerebral hemorrhage 䡲 acute cerebral infarction 䡲 acute stroke syndromes 䡲 emergency treatment
䡲 neuroprotectors 䡲 thrombolysis
A
events expected based on mechanisms of drug or device
action. Examples include: including hemorrhagic transformation for reperfusion treatments in acute cerebral ischemia;
thromboembolic events for prothrombotic agents in intracerebral and subarachnoid hemorrhage; and femoral artery
access complications in catheter device trials.
Trial phase is a key determinant of which efficacy end
points should be selected as leading outcomes in acute stroke
trials. In drug trials, early phase studies will focus on
pharmacokinetics. Midphase drug trials and early-stage device trials seek to rapidly explore and optimize drug dosing or
device design and use to select the most promising approach
to move to pivotal phase testing. If available, the best primary
end point for midphase trials are biomarkers that directly
reflect treatment effect, which typically have fewer confounding factors and consequently less noise than clinical end
points and therefore are more informative for rapid treatment
refinement. Biomarkers useful as primary end points in
midphase trials include: for pharmacological reperfusion,
transcranial Doppler, CT, or MR evidence of early reperfusion; for device reperfusion, angiographic reperfusion scales
such as the Thrombolysis in Cerebral Infarction and Arterial
cute stroke trialists made great strides in the first decade
of the 21st century. More than 125 acute stroke trials
performed provided definitive support for 3 treatment advances (intravenous tissue-type plasminogen activator in the
3- to 4.5-hour window, hemicraniectomy for malignant infarction, and coiling for aneurysmal subarachnoid hemorrhage).1 Of equal import, these trials and accompanying
theoretical work refined methods for optimizing the design of
acute stroke trials, laying a foundation for even more rapid
progress in the coming decade. This narrative review briefly
surveys important lessons that have been learned regarding
best ways to select study end points in acute stroke trials and
statistically analyze for evidence of benefit, drawing whenever possible on approaches recommended by consensus
groups.2– 4
Selecting End Points to Measure
In all clinical trials subjecting human persons to experimental
intervention, safety end points are key measures. Universal
safety end points across all trials include all-cause mortality
and serious adverse events. Additional safety end points in
acute stroke trials should specifically interrogate adverse
Received March 21, 2011; accepted May 10, 2011.
From the Stroke Center and Department of Neurology, David Geffen School of Medicine, University of California Los Angeles, Los Angeles, CA.
Correspondence to Jeffrey L. Saver, MD, UCLA Stroke Center, 710 Westwood Plaza, Los Angeles, CA 90095. E-mail [email protected]
© 2011 American Heart Association, Inc.
Stroke is available at http://stroke.ahajournals.org
DOI: 10.1161/STROKEAHA.111.619122
2356
Saver
Optimal End Points for Acute Stroke Trials
2357
Figure 1. Final 90-day outcome scores in the 2 NINDS tissue-type plasminogen activator trials. The NIHSS and Barthel Index both
show a markedly skewed U-shape distribution unfavorable for analytic power and clinical interpretation. The Barthel Index also shows
strong ceiling effect. In contrast, the modified Rankin Scale distributes substantial groups of patients among all hierarchical ranks, permitting more robust analysis and interpretation.
Downloaded from http://stroke.ahajournals.org/ by guest on July 11, 2017
Occlusive Lesion scales; for neuroprotection, salvage of
penumbral tissue identified on multimodal CT or MR imaging; and for intracerebral hemorrhage medical and surgical
treatments, reduction in hematoma growth or hematoma
volume on CT or MRI. Some, such as reperfusion scales, are
well-validated by multiple studies,5 whereas others, such as
reduction in hematoma growth, have not yet been confirmed
as valid predictors of clinical response.6 If no biomarker is
available that is clearly tied to treatment mechanism and has
less variability than clinical end points, then clinical outcome
measures should be used in midphase trials deploying analytic techniques that maximize detecting signals of potential
efficacy rather than clinical interpretability.
Pivotal registration trials must determine whether the
intervention alters patient final clinical outcome for good or
ill. Candidate metrics to assess clinical outcome in acute
stroke are legion; ⬎45 different outcome measures have been
used in recent trials.7 As a neurological disease, stroke alters
the cardinal domains of human behavior, including language,
spatial, executive, affective, motor, and visual functions. For
acute rehabilitation trials focused on domain-specific interventions, outcome measures confined to 1 or a few of these
domains are appropriate primary metrics. However, for the
most common acute interventions focused on improving
outcomes across all domains, more comprehensive measures
are needed.
The World Health Organization provided a useful framework for conceptualizing outcome domains for clinical trials,
dividing health dimensions into impairments, disabilities, and
handicaps.8 A more recent World Health Organization framework is more complex and adapted to social policy and
population health planning, but not as useful for randomized
control trials in which individual patient outcomes are the key
concern. Impairment is a loss or abnormality of anatomic,
physiological, or psychological function. Disability is a restriction, resulting from impairment, in the ability to perform
an activity in a normal manner. Handicap is a disadvantage
for an individual resulting from an impairment or disability
that limits the fulfillment of a sociocultural role. The objective World Health Organization framework is usefully supplemented by patient-reported outcomes. Like all diseases,
stroke affects persons in their biological, functional, social,
and experiential dimensions; consequently, to capture all
important qualitative aspects of outcome, pivotal clinical
trials should consider deploying measures of impairment,
disability, handicap, and quality of life.
Among these dimensions of health, the most important in
acute stroke randomized control trials is disability. Ability to
perform activities related to self-care, work, and enjoyment is
of unquestionable importance to patients, health providers,
and society. In contrast, impairments that do not compromise
patient functional capacity are of minor significance, handicaps are greatly affected by cultural and social factors beyond
the scope of medical therapies to alter, and patient-reported
measures of quality of life are confounded by fundamental
epistemological issues. For all diseases, the human capacity
for psychological adaptation alters patient-reported outcomes
over time (adjustment to disease bias). In stroke, between
28% and 78% of individuals at 6 months after stroke
demonstrate response shift unrelated to the impact of their
stroke on their function.9 A distinctive challenge for neurological diseases is that they directly alter the brain that reports
patient-reported outcomes. Aphasia, anosognosia, and hemisphere emotional valence bias may render patient reports
unavailable or unreliable.
Key desirable properties of an outcome scale include
validity (agreement between the value of a measurement and
the true value), reliability (reproducibility of a measurement),
and responsiveness (sensitivity to change). Disability measures include global judgment scales, such as the modified
Rankin Scale (mRS) and the Glasgow Outcome Scale, and
activities of daily living scales, such as the Barthel Index and
the Functional Independence Measure. Among the global
scales, the mRS is preferred over the Glasgow Outcome Scale
because of its greater sensitivity to change (more levels) and
the availability of structured assessments and certification
programs that improve its reliability.10,11 These desirable
properties have made the mRS the most commonly used
outcome measure in acute stroke trials.7 Among the activities
of daily living scales, the Barthel Index is generally not
suitable as a sole primary end point because of pronounced
floor and ceiling effects (Figure 1). The Functional Independence Measure has greater sensitivity to change than global
scales and has lesser issues with ceiling effects than the
Barthel Index, but it is burdensome to perform. A recent
innovation in disability outcome scales is item banks ordered
by item response theory. These enable scoring of a patient’s
disability on a continuous linear scale with a modest number
of queries, potentially increasing sensitivity to change while
minimizing measurement burden.12 Item banks may play
more important roles in future stroke trials.
2358
Stroke
August 2011
An additional challenge for outcome scales in stroke trials
is that some patients and practitioners consider severely
disabled states (eg, persistent vegetative state) as worse, not
better, than death, challenging the common assumption in
construction and interpretation of outcome scales that death is
the worst possible health state. The mRS therefore often is
best analyzed by collapsing the levels of 5 (severe disability)
and 6 (death) into a single worst outcome category.13 The
remaining levels of the mRS are all appropriately monotonically ordered, and each is a clinically worthwhile distance
from its neighbors on a continuous measure of disability
weight, although these distances are not uniform.14
In addition to these cardinal functional measures of outcome, economic measures may be useful adjunctive end
points in pivotal trials. Cost of each quality or disabilityadjusted life-year gained provides important data for health
policy decisions.
Downloaded from http://stroke.ahajournals.org/ by guest on July 11, 2017
Statistical Methods for Analyzing the Primary
End Point
Because stroke is a condition that cripples as well as kills,
final outcome health states in acute stroke trials are arrayed
over a spectrum of disability/impairment/handicap. Consequently, in acute trials, the primary outcomes are intrinsically nonbinary and most commonly exist as ordinal scales
that array patients among ordered ranks of ascending/
descending desirability.
Accordingly, the first decision to be made in the statistical
analysis of an acute stroke trial is how to handle the ordinal
(multirank) nature of the primary outcome measure—whether
to choose a test statistic that reflects all the health state
transitions captured in the primary outcome measure, some of
the transitions, or only 1 of the transitions. Analyzing ordinal
scales concurrently for benefit at multiple health state transitions has been called shift analysis or analysis over ranks.
Multiple test statistics appropriate for shift analysis are
available, including the Wilcoxon rank sum, the Cochran
Mantel-Haenszel, and ordered logistic regression. Some require data distributions to behave in tightly ordered ways and
others are less restrictive. Analyzing ordinal scales at just 1
state transition requires dichotomizing the scale at a single
score threshold, converting it to a binary good– bad outcome
measure and discarding the remaining outcome information.
Intermediate approaches are to use a sliding dichotomy
(responder analysis) or to reduce the number of levels in a
scale, eg, from 7 to 3 (trichotomizing) or to 4 (tetrachotomizing). Each of these approaches has been used in major phase
3 stroke trials: polychotomous (shift) analysis (eg, SAINT,
ENOS, FAST-MAG), oligochotomous analysis (eg, GAIN),
responder analysis (eg, AbESTT 2, PAIS, STICH), and
dichotomous analysis (eg, IST, PROACT 2, ECASS 3).
The 2 key considerations in selecting statistical techniques
by which to analyze the primary end point in any controlled
trial are efficiency and interpretability. Efficiency refers to a
test’s power to detect a difference in treatments when such a
difference truly exists. More efficient tests enable trials to
detect genuine treatment differences using smaller sample
sizes. Interpretability refers whether the test is assessing a
difference that is clinically intuitive and clinically important.
Statistical Efficiency
Acute stroke trials are particularly expensive and challenging
to conduct. The disease strikes patients unexpectedly, deprives individuals of the ability to consent for themselves to
research participation, and is most effectively treated within
the first minutes or few hours of onset. Centers capable of
recruiting large numbers of patients in early time windows
are few, and the number of patients enrolled in multicenter
acute trials worldwide is currently ⬍5000 each year.1 The
success rate of acute stroke trials is dismal; ⬍2% of drugs
entering human testing have achieved regulatory approval.1,15
For these reasons, it is critical to avoid the use of inefficient
statistical tests that render trials underpowered to detect
moderate, but clinically worthwhile, treatment effects.
The most efficient statistical test metric for an acute stroke
trial varies depending on the expected shape of the treatment
effect in the population being studied. When the treatment
will improve outcomes across several health state transitions,
test metrics that sample all ranks will detect the efficacy
signal present at each of the transitions, whereas dichotomized analyses will detect the efficacy signal present at only
1 rank. Because dichotomized analysis will miss much of the
efficacy signal, shift analysis will be more powerful. Discarding outcome information to reduce a continuous to a binary
outcome typically reduces a study’s power by at least
one-third or often more.16,17 In contrast, when the benefit of
a treatment clusters at only a single health state transition, test
metrics that sample all ranks will squander some power
searching for efficacy signals at health state transitions in
which they are absent. In this setting, a dichotomized analysis
prespecified to focus on the health state transition at which
the benefit clusters will be more powerful than shift analysis,
but a dichotomized analysis prespecified to focus on a health
state transition at which the benefit does not cluster will be
less powerful than shift analysis.18
Analysis of model and actual acute stroke clinical trials has
clarified when to select between analysis over ranks and
dichotomized analysis for a particular trial. Most commonly,
beneficial treatments improve outcomes to at least a modest
degree at multiple health state transitions simultaneously, and
shift analysis is a more powerful technique than dichotomized
analysis.4,18,19 The Optimizing Acute Stroke Trials Collaboration analyzed 47 trials testing treatments with likely biological benefit or harm and found that shift analysis was
positive in 26%, whereas dichotomized analysis was positive
in only 9%.19 However, in certain settings treatment effects
do cluster. Three key variables determine whether and where
in the outcome spectrum clustering will occur: onset to
treatment time, deficit severity at time of treatment, and type
of treatment (Figure 2). In acute ischemic stroke, early after
onset the ischemic field is all or preponderantly salvageable
penumbra, with little irreversibly infarcted core tissue yet
established, and excellent outcomes are possible. Late after
onset, much of the ischemic field is already infarcted, placing
a ceiling on the degree of attainable recovery. Patients with
mild stroke deficits at start of treatment have greater potential
than those with severe stroke deficits to attain excellent final
outcomes with an effective intervention. Therapies capable of
rescuing all threatened brain tissue can yield excellent out-
Saver
Optimal End Points for Acute Stroke Trials
2359
Figure 2. Clustering of treatment effect at different health state transitions of the modified Rankin Scale, depending on treatment timing,
baseline prognosis, and type of acute stroke intervention. Rows show landmark analyses of 3 acute ischemic stroke treatments. Final 3
columns show P values indicating presence or absence of treatment effects at excellent (mRS 0-1), good (mRS 0-2), and fair (mRS 0-4)
dichotomizations of the modified Rankin Scale. Cells with P⬍0.05 are green, 0.06 to 0.20 are yellow, and ⬎0.20 are red. All treatments
studied—intravenous recanalization, intra-arterial recanalization, and hemicraniectomy— exert powerful biological effects so that clustered rather than distributed treatment effects may be expected. In the 2 NINDS trials testing a hyperacute treatment in patients with
moderately severe health states, dichotomization at excellent outcome is most efficient. In the PROACT 2 trial testing an early, but not
hyperacute, treatment in patients with more severe health states, dichotomization at good outcomes is most efficient. In the hemicraniectomy trials, testing a late treatment in patients with extremely severe health states, dichotomization at fair outcomes is most efficient.
(Time to enrollment values are medians or means.)
Downloaded from http://stroke.ahajournals.org/ by guest on July 11, 2017
come clusters; therapies capable of salvaging only fractions
of brain tissue will likely provide benefits at multiple health
state transitions. As a consequence of these factors, powerful
brain-saving therapies applied early to moderately to severely
affected patients, such as recanalization treatments in the first
3 hours of onset, tend to produce benefits clustering at the
excellent functional outcome extreme of scales. Therapies
applied late to severely affected patients, such as hemicraniectomy for malignant middle cerebral artery infarction, tend
to produce benefits clustered at the survival/fair functional
outcome extreme of scales.
In exceptional circumstances, enough information will be
known in advance of the trial regarding the shape of the
expected treatment effect to specifically guide analytic
choice. When a treatment is expected to alter outcomes
modestly at a number of health state transitions, as is common
for neuroprotective therapies, shift analysis is preferred.
When the treatment effect can be confidently expected to
strongly cluster at a single health state transition, and when
the site of that transition can confidently be prespecified,
dichotomization is preferred. However, most commonly,
trialists have insufficient data from early and midstage trials
to predict the shape of the treatment response that will occur
in a pivotal trial and should then use shift analysis because it
usually is more powerful.
Between the extremes of analyzing all clinically important
health state transitions in an ordinal scale (polychotomous
analysis) and only one (fixed dichotomous analysis) are
intermediate approaches. These include analyzing the scale
with a sliding dichotomy (responder analysis) and collapsing
the scale to fewer divisions than in the original, but ⬎1, eg,
trichotomizing, and performing shift analysis over these
fewer ranks (oligochotomous analysis). In sliding dichotomy,
a dichotomous good outcome threshold is set at different
break points in the scale for different subgroups of patients
enrolled in a trial, based on their baseline prognostic features
and the expected treatment effect. These intermediate approaches detect signal and expend power at fewer transitions
than full shift analyses, but at more transitions (oligochoto-
mous) or more informative transitions (sliding dichotomy)
than fixed dichotomous analysis. Accordingly, these approaches have less power than full ordinal analysis but more
power than dichotomized analysis to detect treatment effects
that exert benefits at multiple health state transitions.20
Conversely, when treatments exert benefits that strongly
cluster at different single health transitions in subgroups of
patients, or at only 2 or a few health state transitions in all
patients, and these can be prespecified with high confidence
before trial performance, sliding dichotomous and oligochotomous analyses will have more power than either full
ordinal or dichotomized analysis. Available evidence suggests that most acute stroke treatments exert their benefits at
multiple health transitions, not just 2 or 3 clusters, so that full
ordinal analysis usually will be more powerful than sliding
dichotomy or oligochotomous analysis. These, in turn, usually will be more powerful than fixed dichotomous analysis.
Interpretability
It is a fundamental tenet of person-centered, evidence-based
medicine that treatment decisions should be based on all
outcomes that the intervention might alter in proportion to the
degree they are valued by the patient. Each of the analytic
approaches to outcome scales in acute stroke has obstacles to
being converted into values that index this global outcome
perspective. Full ordinal analyses are best-able to be converted into summary metrics, sliding dichotomous and oligochotomous metrics are less able to be converted, and fixed
dichotomous analyses are intrinsically unable to yield the
needed information.
Let us first consider why fixed dichotomized analysis has
the greatest difficulty in interpretability. From a binary
analysis, the benefit or harm at the 1 analyzed health state
transition can be calculated readily. However, the computational ease of this derivation masks the fundamental flaw that
it reflects change at only 1 of the several health state
transitions at which it is important to assess treatment effect.
The metric needed to guide therapy, ie, the sum of benefits/
harms across all important health state transitions, cannot be
2360
Stroke
August 2011
Table 1. Underestimation of Treatment Benefits by Fixed
Dichotomy Analysis
Treatment
IV tPA ⬍3 h
Trial
Benefit
per 100
per Shift
Analysis
Benefit per
100 per
Dichotomized
0 –2 vs 3– 6
Sliding
Dichotomy
Full Ordinal
Analysis
Power
⫹
⫹⫹
⫹⫹⫹
Appropriate for broad trial population
⫺
⫹⫹
⫹⫹⫹
Consistent effect assumption
⫺
⫺
⫺
Calibration-independent
⫺
⫺⫺
⫹⫹⫹
29
IV tPA 3– 4.5 h
ECASS 3
14
5
36
Ease of calculation of Partial NNT
⫹⫹⫹
⫹⫹⫹
⫹⫹
IA pro-UK ⬍6 h
PROACT 2
17
15
14
Ease of calculation of Total NNT
⫺⫺
⫺
⫹⫹
ISAT
17
7
59
Pooled
analysis
46
5
88
NNT indicates number needed to treat.
Symbols indicate the qualitative degree to which each analytic approach
(columns) possesses the desirable property (row).
Hemicraniectomy
59
Fixed
Dichotomy
NINDS
1 and 2
Coiling in SAH
12
Proportion
of Benefit
Missed by
Dichotomized
Analysis (%)
Table 2. Strengths and Weaknesses of Analytic Strategies for
Ordinal Scale Outcomes
Benefit per 100 indicates number of patients who benefit per 100 patients
treated.
IA indicates intra-arterial; IV, intravenous; pro-UK, pro-urokinase; SAH,
subarachnoid hemorrhage; tPA, tissue-type plasminogen activator.
Downloaded from http://stroke.ahajournals.org/ by guest on July 11, 2017
calculated or even estimated in any way from a binary
analysis. The weakness of dichotomized analysis in this
regard can be seen from considering the analogous situation
for letter grades in school classrooms. The school letter
grades of A, B, C, D, and F constitute an ordinal outcome
scale that all Americans are familiar with from secondary
schooling. When a new teaching technique is introduced,
teachers and students are interested in knowing how the
pedagogical intervention affects student performance across
all levels of the grading scale, not just 1 transition. Focusing
on only the transition from D to C, for example, provides a
radically insufficient guide to decision-making. If the intervention provides an even shift for students at every grade
transition (B to A, C to B, D to C, etc), then analyzing just a
single transition would substantially underestimate the number needed to treat for 1 student to benefit.
Similarly, number needed to treat estimates based on
dichotomized analysis typically substantially underestimate
acute stroke treatment benefits (Table 1). This underestimate
has had deleterious consequences for patients. When tissuetype plasminogen activator was first approved, many physicians failed to appreciate that number needed to treat estimates based on dichotomized analyses captured only onethird of the therapy’s benefit and frequently misinformed
patients and families about the degree of benefit to be
expected.21
In contrast, full ordinal scale test statistics do provide a
basis for robust estimation, albeit not direct calculation, of the
total clinical benefit or harm of a therapy. Because acute
stroke trials are parallel group trials in which each trial arm
experiences only 1 treatment, not crossover design trials, they
are unable to directly measure the within-patient variance,
precluding determination of how much of the total group
benefit seen occurred through many patients benefitting a
little versus a few patients benefiting a lot. However, multiple
techniques are available to estimate number needed to treat
values from full ordinal analyses, including joint outcome
table specification, matched-pair analysis, derivation of a
proportional odds ratio, and conversion of scale ranks into
health-adjusted life-years gained by use of disability weights
or quality weights.14,22
The sliding dichotomy approach to ordinal scales again has
an intermediate result. If correctly calibrated, the sliding
dichotomy will capture more of the benefits and harms of a
treatment than a fixed dichotomized analysis but will still
substantially underestimate the total benefit or harm of an
intervention compared with full ordinal analysis. For example, for tissue-type plasminogen activator ⬍3 hours, a standard sliding dichotomy analysis captures only 39% of the
actual benefit of tissue-type plasminogen activator observed
in full ordinal analysis.23
A drawback of all the standard methods for end point
analysis is that they each assume that a treatment exerts an
effect in only 1 direction across all health state transitions,
either explicitly (shift analysis) or implicitly (fixed and
sliding dichotomy analysis). When this assumption is invalid,
none of these analytic approaches will provide a fully
informative delineation of treatment impact. A competing
win–lose dichotomy analysis can be useful when benefit
tends to cluster at 1 health state transition and harm clusters
at another. For example, in later time windows beyond 4.5
hours, intravenous thrombolysis may improve the rate of
excellent outcomes and also may increase severe disability
and death. A dichotomized analysis at an excellent outcome
transition (eg, mRS 1-0 or mRS 2-1) can capture the benefit
and a separate dichotomized analysis at a poor outcome
transition (eg, mRS 4-5 or mortality) can capture the harm.
Presenting both competing effects simultaneously to the
patient and provider can support an informed decision based
on patient and clinician risk-taking preferences.24 It is important that the competing outcomes be independent. An incorrect, but unfortunately common, practice in presenting the
effects of thrombolytics is to state benefit using a comprehensive final functional outcome scale but to state harm in
terms of symptomatic hemorrhage. Because the effects of
hemorrhage are already captured and summarized (together
with the effects of reperfusion) in the functional outcome, it
can be misleading to report this as a separate outcome.25
When treatment effects are unidirectional, considerations
of efficiency and interpretability favor full ordinal analysis;
accordingly, analysis over ranks should generally be the
preferred analytic approach in acute stroke trials (Table 2).
Sliding dichotomy is less preferred and fixed dichotomy is
Saver
least preferred; both should be reserved for exceptional
circumstances in which the treatment effect is confidently
expected to be clustered at a single or a few health state
transitions. At all times for decision-making in practice at the
bedside, when outcome distributions are compatible with
unidirectional treatment effects, number needed to treat
values based on full ordinal analysis are preferable over
dichotomized and oligotochotomized approaches.
Accounting for Baseline Heterogeneity and
Improving End Point Measurement Precision
Downloaded from http://stroke.ahajournals.org/ by guest on July 11, 2017
Additional important statistical design steps to consider in
end point analysis in acute stroke trials are accounting for
baseline patient heterogeneity and improving precision of end
point assessment.
Several patient characteristics exert strong prognostic effects on patient outcome after acute stroke. In acute cerebral
ischemia, patient age and initial stroke deficit severity are the
2 most important clinical prognostic factors and ischemic
lesion volume and presence and site of large artery occlusion
are the 2 most important and readily available imaging
prognostic factors, but many others play a role26 –29 The
influence of the leading prognostic factors on outcome
typically exceeds the influence of the treatment effect acute
stroke trials seek to detect. Analyses that fail to adjust for
baseline patient heterogeneity have several vulnerabilities,
including reduced power to detect treatment effects (typically
by 10%–30%),30,31 underestimation of the magnitude of the
true treatment effect when using nonlinear effect measures
such as odds ratios (because of noncollapsability of withinstrata effects),32 and false-positive/false-negative results if
confounding prognostic variables are imbalanced across
treatment arms.26 Consequently, acute stroke is a condition
for which statistical adjustment for baseline differences in
prognostic variables almost always should be performed in
the primary trial analysis. Unadjusted analyses are desirable
as secondary analyses to probe the robustness of the signal
detected, but they are less reliable than adjusted analyses.
The ordinal scales used in end point assessment in acute
stroke trials typically have moderate inter-rater reliability.
Nonetheless, any 1 scale administered at 1 time by 1 rater is
somewhat imprecise because of residual inter-rater variation,
patient variation in function over time, and variation in the
intrinsic accuracy of different scales at different score levels.
Imprecision in measurement of the primary end point introduces noise that reduces study power. Validated techniques to
reduce inter-rater reliability in assessment of functional outcomes include the use of structured interviews, certified
training programs, and central raters.10,11,33 Repeating measures over time can also be useful, allowing several assessments of the target outcome state rather than just 1.34
An additional approach that has proved helpful in selected
stroke trials is to measure the target outcome with several
similar scales and statistically combine the measures using a
generalized estimating equation. Although theoretically conceived as mapping different dimensions of outcome, measures of neurological deficit (eg, the NIHSS), activities of
daily living (eg, the Barthel Index), and global disability (eg,
the mRS and the Glasgow Outcome Scale) are all strongly
Optimal End Points for Acute Stroke Trials
2361
correlated with one another, indicating they can also be
conceived of as mapping a single latent trait, which has been
termed stroke recovery. When these scales are assessed at the
same visit, the precision of measurement of the latent trait of
stroke recovery is increased over measurement with just 1
scale. However, the increase in study power provided by the
generalized estimating equation comes with a cost in result
interpretability. The latent variable being assessed, eg, favorable recovery, is not fully measured on any individual scale.
As a result, regulatory agencies often discourage use of the
generalized estimating equation in primary end point analysis
of a pivotal trial.
The cumulative benefits of increased study power are
substantial for the 3 key statistical strategies reviewed: use all
the outcome information in an ordinal scale; adjust for
baseline prognostic heterogeneity; and simultaneously incorporate information from multiple recovery scales. Each alone
will increase study power compared with unadjusted analysis
of crude dichotomy on a single scale. However, these
techniques are not mutually exclusive and can be combined in
pairs or all together. In an analysis of a model treatment effect
applied to placebo data from the pooled citicoline trial
dataset, when all 3 techniques were used concurrently, study
power increased 3- to 6-fold. When full shift analysis and
baseline prognosis adjustment were used, leaving out generalized estimating to heighten result interpretability, study
power increased 2- to 5-fold.35
Conclusions
In the past decade, several major advances occurred in end
point analysis of acute stroke trials. Investigators can now
knowledgeably select outcome scales that are valid, reliable, and responsive, like the mRS, and analytic techniques
that are efficient and interpretable, like full ordinal analysis and sliding dichotomy analysis, to optimize study
design and maximize chances of success in finding new
treatments for the leading cause of combined death and
disability worldwide.
Sources of Funding
This study was sponsored in part by NIH-NINDS Awards U01 NS
44364 and P50 NS044378 and an American Heart Association
Pharmacy Roundtable Health Outcomes Research Center Award.
Disclosures
The University of California Regents receive funding for Dr Saver’s
services as a scientific consultant regarding trial design and conduct
to BrainsGate, CoAxia, ev3, Talecris, PhotoThera, and Sygnis (all
modest). Dr Saver is an investigator in the NIH FAST-MAG, MR
RESCUE, ICES, CUFFS, CLEAR-ER, and IMS 3 multicenter
clinical trials, for which the UC Regents receive payments based on
clinical trial performance. He has served as an unpaid site investigator in a multicenter trials performed by Lundbeck and Mitsubishi,
for which the UC Regents received payments based on the clinical
trial contracts for the number of subjects enrolled. He is a site
investigator in a multicenter registry performed by Concentric, for
which the UC Regents received payments based on the clinical trial
contracts for the number of subjects enrolled. He is an employee of
the University of California, which holds a patent on retriever
devices for stroke. He is funded by NIH-NINDS Awards P50
NS044378 and U01 NS 44364.
2362
Stroke
August 2011
References
Downloaded from http://stroke.ahajournals.org/ by guest on July 11, 2017
1. Hong KS, Lee SJ, Hao Q, Liebeskind DS, Saver JL. Acute stroke trials in
the 1st decade of the 21th century. Stroke. 2011;42:e314.
2. Fisher M, Albers GW, Donnan GA, Furlan AJ, Grotta JC, Kidwell CS, et
al. Enhancing the development and approval of acute stroke therapies:
Stroke Therapy Academic Industry roundtable. Stroke. 2005;36:
1808 –1813.
3. Higashida RT, Furlan AJ, Roberts H, Tomsick T, Connors B, Barr J, et al.
Trial design and reporting standards for intra-arterial cerebral
thrombolysis for acute ischemic stroke. Stroke. 2003;34:e109 – e137.
4. Optimising Analysis of Stroke Trials Collaboration. Calculation of
sample size for stroke trials assessing functional outcome: comparison of
binary and ordinal approaches. Int J Stroke 2008;3:78 – 84.
5. Rha JH, Saver JL. The impact of recanalization on ischemic stroke
outcome: a meta-analysis. Stroke. 2007;38:967–973.
6. Mayer SA, Brun NC, Begtrup K, Broderick J, Davis S, Diringer MN, et
al. Efficacy and safety of recombinant activated factor VII for acute
intracerebral hemorrhage. N Engl J Med. 2008;358:2127–2137.
7. Quinn TJ, Dawson J, Walters MR, Lees KR. Functional outcome
measures in contemporary stroke trials. Int J Stroke. 2009;4:200 –205.
8. World Health Organization. The international classification of
impairments, disabilities and handicaps. Geneva, Switzerland: World
Health Organization; 1980.
9. Barclay-Goddard R, Epstein JD, Mayo NE. Response shift: a brief
overview and proposed research priorities. Qual Life Res. 2009;18:
335–346.
10. Saver JL, Filip B, Hamilton S, Yanes A, Craig S, Cho M, et al. Improving
the reliability of stroke disability grading in clinical trials and clinical
practice: the Rankin Focused Assessment (RFA). Stroke. 2010;41:
992–995.
11. Quinn TJ, Lees KR, Hardemark HG, Dawson J, Walters MR. Initial
experience of a digital training resource for modified Rankin scale
assessment in clinical trials. Stroke. 2007;38:2257–2261.
12. Weisscher N, Vermeulen M, Roos YB, de Haan RJ. What should be
defined as good outcome in stroke trials; a modified Rankin score of 0 –1
or 0 –2? J Neurol. 2008;255:867– 874.
13. Samsa GP, Matchar DB, Goldstein L, Bonito A, Duncan PW, Lipscomb
J, et al. Utilities for major stroke: results from a survey of preferences
among persons at increased risk for stroke. Am Heart J. 1998;136:
703–713.
14. Hong KS, Saver JL. Quantifying the value of stroke disability outcomes:
WHO global burden of disease project disability weights for each level of
the modified Rankin Scale. Stroke. 2009;40:3828 –3833.
15. Kidwell CS, Liebeskind DS, Starkman S, Saver JL. Trends in acute
ischemic stroke trials through the 20th century. Stroke. 2001;32:
1349 –1359.
16. Altman DG, Royston P. The cost of dichotomising continuous variables.
BMJ. 2006;332:1080.
17. Fedorov V, Mannino F, Zhang R. Consequences of dichotomization.
Pharm Stat. 2009;8:50 – 61.
18. Saver JL, Gornbein J. Treatment effects for which shift or binary analyses
are advantageous in acute stroke trials. Neurology. 2009;72:1310 –1315.
19. Optimising Analysis of Stroke Trials (OAST) Collaboration, Bath PM,
Gray LJ, Collier T, Pocock S, Carpenter J. Can we improve the statistical
20.
21.
22.
23.
24.
25.
26.
27.
28.
29.
30.
31.
32.
33.
34.
35.
analysis of stroke trials? Statistical reanalysis of functional outcomes in
stroke trials. Stroke. 2007;38:1911–1915.
McHugh GS, Butcher I, Steyerberg EW, Marmarou A, Lu J, Lingsma HF,
et al. A simulation study evaluating approaches to the analysis of ordinal
outcome data in randomized controlled trials in traumatic brain injury:
results from the IMPACT Project. Clin Trials. 2010;7:44 –57.
Gadhia J, Starkman S, Ovbiagele B, Ali L, Liebeskind D, Saver JL.
Assessment and improvement of figures to visually convey benefit and
risk of stroke thrombolysis. Stroke. 2010;41:300 –306.
Lansberg MG, Schrooten M, Bluhmki E, Thijs VN, Saver JL. Treatment
time-specific number needed to treat estimates for tissue plasminogen
activator therapy in acute stroke based on shifts over the entire range of
the modified Rankin Scale. Stroke. 2009;40:2079 –2084.
Saver JL, Yafeh B. Confirmation of tPA treatment effect by baseline
severity-adjusted end point reanalysis of the NINDS-tPA stroke trials.
Stroke. 2007;38:414 – 416.
Kent DM, Selker HP, Ruthazer R, Bluhmki E, Hacke W. Can multivariable risk-benefit profiling be used to select treatment-favorable patients
for thrombolysis in stroke in the 3- to 6-hour time window? Stroke.
2006;37:2963–2969.
Saver JL. Hemorrhage after thrombolytic therapy for stroke: the clinically
relevant number needed to harm. Stroke. 2007;38:2279 –2283.
Mandava P, Kent TA. A method to determine stroke trial success using
multidimensional pooled control functions. Stroke. 2009;40:1803–1810.
König IR, Ziegler A, Bluhmki E, Hacke W, Bath PM, Sacco RL, et al.
Predicting long-term outcome after acute ischemic stroke: a simple index
works in patients from controlled clinical trials. Stroke. 2008;39:
1821–1826.
Johnston KC, Wagner DP, Wang XQ, Newman GC, Thijs V, Sen S, et al.
Validation of an acute ischemic stroke model: does diffusion-weighted
imaging lesion volume offer a clinically significant improvement in
prediction of outcome? Stroke. 2007;38:1820 –1825.
Qureshi AI. New grading system for angiographic evaluation of arterial
occlusions and recanalization response to intra-arterial thrombolysis in
acute ischemic stroke. Neurosurgery. 2002;50:1405–1414; discussion
1414 –1415.
Optimising the Analysis of Stroke Trials (OAST) Collaboration, Gray LJ,
Bath PM, Collier T. Should stroke trials adjust functional outcome for
baseline prognostic factors? Stroke. 2009;40:888 – 894.
Hernández AV, Steyerberg EW, Habbema JD. Covariate adjustment in
randomized controlled trials with dichotomous outcomes increases statistical power and reduces sample size requirements. J Clin Epidemiol.
2004;57:454 – 460.
Kent DM, Trikalinos TA, Hill MD. Are unadjusted analyses of clinical
trials inappropriately biased toward the null? Stroke. 2009;40:672– 673.
Lyden P, Raman R, Liu L, Emr M, Warren M, Marler J. National
Institutes of Health Stroke Scale certification is reliable across multiple
venues. Stroke. 2009;40:2507–2511.
Li N, Elashoff RM, Li G, Saver J. Joint modeling of longitudinal ordinal
data and competing risks survival times and analysis of the NINDS rt-PA
stroke trial. Stat Med. 2010;29:546 –557.
Torres JV, Cortes J, González JA, Sanchez JA, Secades J, Cobo E. .
Stroke clinical trials efficiency can be improved. International Society for
Clinical Biostatistics 31st Annual Meeting. Montpellier, France. September 2010.
Optimal End Points for Acute Stroke Therapy Trials: Best Ways to Measure Treatment
Effects of Drugs and Devices
Jeffrey L. Saver
Downloaded from http://stroke.ahajournals.org/ by guest on July 11, 2017
Stroke. 2011;42:2356-2362; originally published online June 30, 2011;
doi: 10.1161/STROKEAHA.111.619122
Stroke is published by the American Heart Association, 7272 Greenville Avenue, Dallas, TX 75231
Copyright © 2011 American Heart Association, Inc. All rights reserved.
Print ISSN: 0039-2499. Online ISSN: 1524-4628
The online version of this article, along with updated information and services, is located on the
World Wide Web at:
http://stroke.ahajournals.org/content/42/8/2356
An erratum has been published regarding this article. Please see the attached page for:
/content/42/11/e634.full.pdf
Data Supplement (unedited) at:
http://stroke.ahajournals.org/content/suppl/2013/10/17/STROKEAHA.111.619122.DC1
Permissions: Requests for permissions to reproduce figures, tables, or portions of articles originally published
in Stroke can be obtained via RightsLink, a service of the Copyright Clearance Center, not the Editorial Office.
Once the online version of the published article for which permission is being requested is located, click
Request Permissions in the middle column of the Web page under Services. Further information about this
process is available in the Permissions and Rights Question and Answer document.
Reprints: Information about reprints can be found online at:
http://www.lww.com/reprints
Subscriptions: Information about subscribing to Stroke is online at:
http://stroke.ahajournals.org//subscriptions/
Correction
In the article by Saver, “Optimal End Points for Acute Stroke Therapy Trials: Best Ways to
Measure Treatment Effects of Drugs and Devices,” which published ahead of print on June 30,
2011, and printed in the August 2011 issue of the journal (Stroke. 2011;42:2356 –2362), Table 1
was incorrectly titled.
The correct title for Table 1 is: Underestimation of Treatment Benefits by Fixed Dichotomy
Analysis.
This correction will be made to the print version and the online version of the article.
(Stroke. 2011;42:e634.)
© 2011 American Heart Association, Inc.
Stroke is available at http://stroke.ahajournals.org
DOI: 10.1161/STR.0b013e3182309334
e634
Revisión de los progresos
Variables de valoración óptimas para los ensayos
del tratamiento del ictus agudo
Los métodos más adecuados para medir los efectos terapéuticos
de fármacos y dispositivos
Jeffrey L. Saver, MD
Antecedentes y objetivo—A lo largo de la pasada década, el análisis de los ensayos finalizados, los estudios de poblaciones
modelo y el trabajo teórico han permitido mejorar la forma de elegir y analizar las variables de valoración en los ensayos
de tratamiento del ictus agudo.
Métodos—Revisión descriptiva.
Resultados—Dado que el ictus afecta a las personas en sus dimensiones biológica, funcional, social y de experiencia, es
deseable utilizar medidas de deterioro, discapacidad, handicap y calidad de vida en los ensayos realizados con fines de
registro; y las de la discapacidad son las más importantes. Se prefiere el empleo de escalas que sean válidas, fiables, sensibles y fáciles de administrar; esto ha hecho que la escala de Rankin modificada haya pasado a ser la medida de eficacia
clínica más ampliamente utilizada. Dado que el ictus causa invalidez y muerte, la mayor parte de las escalas de valoración del resultado clínico distribuyen la evolución de los pacientes en un rango ordenado, que abarca todo el espectro
desde el estado normal hasta la discapacidad y la muerte. En general, el análisis de desplazamiento (shift analysis),
evaluando todas las transiciones de estados de salud de forma simultánea, constituye la técnica de análisis más eficiente
para detectar los efectos del tratamiento, mientras que la dicotomía corrediza (sliding dichotomy) tiene una eficiencia
menor y la dicotomía fija es la menos eficiente, a no ser que los efectos del tratamiento muestren una intensa agrupación
en 1 o unas pocas transiciones de estados de salud que pueden preespecificarse. Los parámetros estadísticos deben tener
en cuenta también la interpretabilidad, es decir, la medida en la que pueden ser convertidos en medidas métricas que
capturen todos los resultados que la intervención podría modificar en proporción al grado en el que son valorados por el
paciente; el análisis ordinal pleno es el más informativo, mientras que la dicotomía corrediza tiene un valor informativo
intermedio y la dicotomía fija es la técnica menos informativa respecto a este resultado global.
Conclusiones—La potencia estadística y la interpretación de los ensayos realizados en el ictus pueden potenciarse considerablemente con la adherencia a los principios que se describen en esta revisión. El análisis ordinal pleno y el de
dicotomía corrediza serán ventajosos la mayor parte de las veces, en comparación con los métodos de dicotomía fija.
(Traducido del inglés: Optimal End Points for Acute Stroke Therapy Trials. Best Ways to Measure Treatment
Effects of Drugs and Devices. Stroke. 2011;42:2356-2362.)
Palabras clave: acute cerebral Q acute cerebral infarction Q acute stroke syndromes Q emergency treatment
Q neuroprotectors Q thrombolysis
L
os autores de ensayos clínicos en el ictus agudo han realizado importantes trabajos en la primera década del siglo XXI. Más de 125 ensayos realizados en el ictus agudo
han aportado un respaldo definitivo a 3 avances terapéuticos
(activador de plasminógeno de tipo tisular por vía intravenosa en la ventana temporal de las primeras 3 a 4,5 horas, hemicraniectomía para el infarto maligno, e implantación de coils
[espirales] para la hemorragia subaracnoidea aneurismática)1. Igualmente importante es el hecho de que estos ensayos
y el trabajo teórico que los acompaña hayan perfeccionado
los métodos para optimizar el diseño de ensayos en el ictus
agudo, sentando las bases para un avance aún más rápido en
la próxima década. En esta revisión descriptiva se examinan
varias enseñanzas importantes que hemos obtenido en cuanto
a la mejor forma de elegir las variables de valoración para los
ensayos clínicos en el ictus agudo y de analizar estadísticamente la evidencia obtenida respecto al efecto beneficioso,
utilizando siempre que sea posible los enfoques recomendados por grupos de establecimiento de consenso2–4.
Elección de las variables de valoración a medir
En todos los ensayos clínicos en los que se someta a personas
a una intervención experimental, las variables de valoración
de la seguridad constituyen parámetros de medición clave.
Recibido el 21 de marzo de 2011; aceptado el 10 de mayo de 2011.
Stroke Center and Department of Neurology, David Geffen School of Medicine, University of California Los Angeles, Los Angeles, CA. Remitir la
correspondencia a Jeffrey L. Saver, MD, UCLA Stroke Center, 710 Westwood Plaza, Los Angeles, CA 90095. Correo electrónico [email protected] ©
2011 American Heart Association, Inc.
Stroke está disponible en http://www.stroke.ahajournals.org
DOI: 10.1161/STROKEAHA.110.619122
128
Saver Variables de valoración óptimas para los ensayos del tratamiento del ictus agudo 129
NIHSS
Índice de Barthel
Escala de Rankin
Figura 1. Puntuaciones finales del resultado a los 90 días en los 2 ensayos del activador de plasminógeno de tipo tisular del NINDS. Tanto la escala NIHSS como el
Índice de Barthel muestran una distribución en forma de U, marcadamente asimétrica, poco favorable para la potencia estadística y la interpretación clínica. El Índice
de Barthel muestra también un intenso efecto techo. En cambio, la escala de Rankin modificada distribuye grupos sustanciales de pacientes en todos los rangos de
ordenación jerárquicos, lo cual permite un análisis y una interpretación más robustos.
Las variables de valoración de la seguridad universales en los
diversos ensayos clínicos son la mortalidad por todas las causas y los acontecimientos adversos graves. Otras variables
de valoración adicionales de la seguridad en los ensayos del
ictus agudo deben evaluar específicamente los acontecimientos adversos que se prevén en función de los mecanismos de
acción de los fármacos o los dispositivos. Como ejemplos cabe citar los siguientes: inclusión de la transformación hemorrágica en los tratamientos de reperfusión en la isquemia cerebral aguda; los episodios tromboembólicos cuando se trata
de agentes protrombóticos en la hemorragia intracerebral y
subaracnoidea; y las complicaciones del acceso femoral en
los ensayos de dispositivos percutáneos.
La fase del ensayo clínico es un factor determinante clave
de las variables de valoración de la eficacia que deben elegirse como resultados principales en los ensayos del ictus
agudo. En los ensayos de fármacos, los estudios de las fases
iniciales se centrarán en la farmacocinética. Los ensayos de
fármacos correspondientes a una fase media y los de dispositivos en una fase inicial pretenden explorar y optimizar rápidamente la posología del fármaco o el diseño y uso del dispositivo, con objeto de elegir el enfoque más prometedor para
pasar a los ensayos fundamentales con fines de registro (pivotal). Si los hay, los biomarcadores que reflejan directamente el efecto del tratamiento constituyen la mejor variable de
valoración primaria para los ensayos de fases medias, puesto
que habitualmente tienen menos factores de confusión y, por
consiguiente, hay menos ruido que con las variables de valoración clínicas, y por consiguiente son más informativos para
un perfeccionamiento rápido del tratamiento. Los biomarcadores útiles como variables de valoración primarias para los
ensayos de fases medias incluyen los siguientes: para la reperfusión farmacológica, los signos de reperfusión temprana
en Doppler transcraneal, TC o RM; para la reperfusión con
dispositivos, las escalas de reperfusión angiográfica como
las escalas Thrombolysis in Cerebral Infarction and Arterial
Occlusive Lesion; para la neuroprotección, el salvamento de
tejido de penumbra identificado mediante técnicas de imagen
de RM o TC multimodales; y para los tratamientos médicos
y quirúrgicos para la hemorragia intracerebral, la reducción
del crecimiento del hematoma o el volumen del hematoma
en la TC o la RM. Algunos de estos marcadores, como las
escalas de reperfusión, han sido adecuadamente validados en
múltiples estudios5, mientras que en otros, como la reducción
del crecimiento del hematoma, no se ha confirmado todavía
que sean predictores válidos de la respuesta clínica6. Si no se
dispone de ningún biomarcador que esté claramente ligado
al mecanismo de acción del tratamiento y que tenga menos
variabilidad que las variables de valoración clínicas, deben
usarse parámetros clínicos en los ensayos de fases medias,
aplicando técnicas de análisis que maximicen la detección de
las señales de una posible eficacia más que la interpretabilidad clínica.
Los ensayos fundamentales con fines de registro deben
determinar si la intervención modifica la evolución clínica
final del paciente de forma favorable o desfavorable. Los parámetros propuestos para evaluar el resultado clínico en el
ictus agudo son legión; en los ensayos recientes se han usado
más de 45 parámetros de valoración diferentes7. Al tratarse
de una enfermedad neurológica, el ictus modifica los dominios clave de la conducta humana, como las funciones del
lenguaje, espacial, ejecutiva, afectiva, motora y visual. En los
ensayos de rehabilitación aguda, centrados en intervenciones
para dominios específicos, los parámetros de valoración limitados a 1 o unos pocos de estos dominios son instrumentos de
medida principales adecuados. Sin embargo, para la mayor
parte de las intervenciones agudas, centradas en la mejora de
los resultados en todos los dominios, son necesarias medidas
más globales.
La Organización Mundial de la Salud estableció un marco
de referencia útil para conceptualizar los dominios de evaluación en los ensayos clínicos, dividiendo las dimensiones de la
salud en deterioros, discapacidades y handicaps8. Un marco
de referencia más reciente de la Organización Mundial de la
Salud es más complejo y está mejor adaptado a la política
social y la planificación sanitaria poblacional, pero no es tan
útil para los ensayos controlados y aleatorizados, en los que
el centro de interés fundamental es el resultado obtenido en
el paciente individual. El deterioro es la pérdida o anomalía
de una función anatómica, fisiológica o psicológica. La discapacidad es una limitación, causada por el deterioro, en la
capacidad de realizar una actividad de una forma normal. El
handicap es una desventaja que padece un individuo como
resultado de un deterioro o una discapacidad que limitan el
desempeño de un rol sociocultural. El marco de referencia
objetivo de la Organización Mundial de la Salud es complementado de forma útil por las variables de valoración evaluadas por el propio paciente. Como todas las enfermedades,
130
Stroke
Noviembre 2011
el ictus afecta a las personas en sus dimensiones biológica,
funcional, social y de experiencia; por consiguiente, para
capturar todos los aspectos cualitativos importantes del resultado del tratamiento, los ensayos clínicos fundamentales de
registro deben contemplar el uso de medidas del deterioro, la
discapacidad, el handicap y la calidad de vida.
De entre estas dimensiones de la salud, la más importante
en los ensayos controlados y aleatorizados en el ictus agudo
es la discapacidad. La capacidad de realizar actividades relacionadas con el autocuidado, el trabajo y el disfrute es de una
importancia indudable para los pacientes, los profesionales
de la salud y la sociedad. En cambio, los deterioros que no
comprometen la capacidad funcional del paciente tienen menor trascendencia, los handicaps se ven muy influidos por
factores culturales y sociales que quedan fuera del ámbito de
lo que pueden modificar los tratamientos médicos, y los parámetros de calidad de vida evaluados por el paciente se ven
afectados por factores de confusión derivados de problemas
epistemológicos fundamentales. En todas las enfermedades,
la capacidad humana de adaptación psicológica modifica los
resultados descritos por los pacientes a lo largo del tiempo
(ajuste al sesgo de enfermedad). En el ictus, al cabo de 6 meses, entre el 28% y el 78% de los individuos muestran un
cambio de la respuesta que no está relacionado con las consecuencias que el ictus sufrido tiene sobre su función9. Una
dificultad distintiva de las enfermedades neurológicas es que
modifican directamente el cerebro que es el responsable de
notificar los resultados evaluados por el paciente. La afasia,
la anosognosia y el sesgo de valencia emocional hemisférica
pueden hacer que no se disponga de una evaluación realizada
por el paciente o que ésta no sea fiable.
Las propiedades clave que son deseables para una escala de valoración son la validez (coincidencia entre el valor
indicado por la medición y el valor real), la fiabilidad (reproducibilidad de una medición) y la sensibilidad al cambio
(capacidad de respuesta). Las medidas de la discapacidad incluyen escalas de valoración global, como la escala de Rankin modificada (mRS, modified Rankin Scale) y la Glasgow
Outcome Scale, así como escalas de la vida diaria, como el
Índice de Barthel y la medida de la independencia funcional Functional Independence Measure. De entre las escalas
globales, se prefiere la mRS a la Glasgow Outcome Scale debido a su mayor sensibilidad al cambio (más niveles) y a la
disponibilidad de evaluaciones estructuradas y programas de
certificación que mejoran su fiabilidad10,11. Estas propiedades
deseables han hecho que la mRS sea la variable de valoración
más comúnmente utilizada en los ensayos del ictus agudo7.
De entre las escalas de actividades de la vida diaria, el Índice
de Barthel no es adecuado generalmente como único parámetro de valoración primario, dados sus efectos de techo y suelo
pronunciados (Figura 1). La Functional Independence Measure tiene una sensibilidad al cambio superior a la de las escalas globales y plantea menos problemas de efectos de techo
que el Índice de Barthel, pero su aplicación es laboriosa. Una
innovación reciente en las escalas de evaluación de la discapacidad son los bancos de ítems ordenados según la teoría
de respuesta de ítems. Ello permite puntuar la discapacidad
de un paciente en una escala lineal continua con el empleo
de un número modesto de preguntas, con lo que puede incre-
mentarse la sensibilidad al cambio al tiempo que se reduce al
mínimo la carga que representa la medición12. Es posible que
los bancos de ítems desempeñen un papel más importante en
futuros ensayos del ictus.
Otra dificultad que presentan las escalas de valoración del
resultado en los ensayos del ictus es que algunos pacientes y
médicos consideran que los estados de discapacidad grave
(por ejemplo, el estado vegetativo persistente) son peores, y
no mejores, que la muerte, poniendo en duda con ello el supuesto común aceptado para la elaboración e interpretación
de las escalas de valoración en cuanto a que la muerte es el
peor estado de salud posible. Así pues, a menudo la mejor
forma de analizar la mRS es combinando los niveles de 5
(discapacidad grave) y 6 (muerte) en una sola categoría correspondiente al peor resultado13. Todos los demás niveles de
la mRS están ordenados monotónicamente de manera adecuada, y cada uno de ellos está a una distancia clínicamente
apreciable de los valores adyacentes en una medida continua
de ponderación de la discapacidad, aun cuando estas distancias no sean uniformes14.
Además de estas medidas funcionales clave del resultado,
las medidas económicas pueden ser variables de valoración
útiles en los ensayos fundamentales de registro. El coste de
cada año de vida ajustado por calidad o discapacidad ganado aporta datos importantes para las decisiones de política
sanitaria.
Métodos estadísticos para analizar la variable
de valoración primaria
Dado que el ictus es un trastorno que causa invalidez y
muerte, los resultados finales de estados de salud en los ensayos del ictus agudo están dispuestos en un espectro de
discapacidad/deterioro/handicap. Por consiguiente, en los
ensayos del tratamiento agudo, las variables de valoración
primarias son intrínsecamente no binarias y lo más frecuente es que consistan en escalas ordinales que distribuyen a
los pacientes en rangos de ordenación de deseabilidad ascendente/descendente.
En consecuencia, la primera decisión a tomar en el análisis estadístico de un ensayo del ictus agudo es la forma de
manejar el carácter ordinal (multirango) de la variable de valoración primaria, es decir, si elegir una prueba estadística
que refleje todas las transiciones de estados de salud capturadas en la variable de valoración primaria, algunas de las
transiciones o tan solo 1 de ellas. Al análisis de las escalas
ordinales de forma simultánea para el beneficio observado en
múltiples transiciones de estados de salud se la ha denominado análisis de desplazamiento o análisis por rangos (analysis
over ranks). Existen múltiples pruebas estadísticas apropiadas para el análisis de desplazamiento, incluida la suma de
rangos de Wilcoxon, la prueba de Cochran Mantel-Haenszel
y la regresión logística ordenada. Algunas de ellas requieren
que las distribuciones de datos se comporten de una forma
ordenada estricta y otras son menos restrictivas. El análisis
de escalas ordinales en tan solo 1 estado de transición requiere una dicotomización de la escala en una única puntuación
umbral, lo cual la convierte en una medida del resultado binaria de bueno-malo y descarta el resto de información sobre
el resultado. Los enfoques intermedios consisten en utilizar
Saver Variables de valoración óptimas para los ensayos del tratamiento del ictus agudo 131
Dicotomizado 0-2
(valor de p)
Dicotomizado 0-4
(valor de p)
Momento
de
inclusión
NINDS 1+2
1h 30m
67
17
0,02
0,10
0,31
Pro-UK i.a. < 6h PROACT 2
4h 54m
64
17
0,16
0,04
0,99
23h 30m
46
22
0,99
0,12
<0,001
TPA i.v. < 3h
Hemicraniectomía D/DH
Edad NIHSS
Dicotomizado 0-1
(valor de p)
Ensayo(s)
Figura 2. Agrupación del efecto del tratamiento en diferentes transiciones de estados de salud de la escala de Rankin modificada, en función del momento del
tratamiento, el pronóstico basal y el tipo de intervención aguda en el ictus. En las filas se muestran los análisis clave de 3 tratamientos para el ictus isquémico agudo.
Las 3 últimas columnas presentan los valores de p que indican la presencia o ausencia de efectos del tratamiento en las dicotomizaciones de excelente (mRS 0-1),
bueno (mRS 0-2) y regular (mRS 0-4) de la escala de Rankin modificada. Las casillas con valores de p < 0,05 se indican en verde, las de 0,06 a 0,20 en amarillo y
las de > 0,20 en rojo. Todos los tratamientos estudiados (recanalización intravenosa, recanalización intraarterial y hemicraniectomía) ejercen unos efectos biológicos
potentes, de manera que cabe prever que los efectos del tratamiento estén agrupados más que distribuidos. En los 2 ensayos del NINDS en los que se evaluó un
tratamiento hiperagudo en pacientes con estados de salud moderadamente graves, la dicotomización respecto al resultado excelente es la más eficiente. En el
ensayo PROACT 2 en el que se evaluó un tratamiento temprano pero no hiperagudo, en pacientes con estados de salud más grave, la dicotomización respecto a
un resultado bueno es la más eficiente. En los ensayos de la hemicraniectomía, en los que se evaluó un tratamiento tardío en pacientes con estados de salud
extremadamente graves, la dicotomización respecto a un resultado regular es la más eficiente. (Los valores del tiempo hasta la inclusión corresponden a
medianas o medias.)
una dicotomía corrediza (análisis de respondedores [responder analysis]) o en reducir el número de niveles de la escala,
por ejemplo de 7 a 3 (tricotomización) o a 4 (tetracotomización). Todos estos enfoques se han utilizado en ensayos
importantes de fase 3 en el ictus: análisis policotómico (de
desviación) (por ejemplo, SAINT, ENOS, FAST-MAG),
análisis oligocotómico (por ejemplo, GAIN), análisis de respondedores (por ejemplo, AbESTT 2, PAIS, STICH), y análisis dicotómico (por ejemplo, IST, PROACT 2, ECASS 3).
Las 2 consideraciones clave para la elección de las técnicas estadísticas con las que analizar la variable de valoración
primaria en cualquiera ensayo controlado son la eficiencia y
la interpretabilidad. Se entiende por eficiencia la capacidad
de una prueba de detectar una diferencia entre los tratamientos cuando esa diferencia existe realmente. Las pruebas más
eficientes permiten que los ensayos detecten diferencias reales entre los tratamientos utilizando tamaños muestrales más
pequeños. La interpretabilidad hace referencia a si la prueba
está evaluando una diferencia que sea clínicamente intuitiva
y clínicamente importante.
Eficiencia estadística
Los ensayos del ictus agudo son especialmente costosos y
difíciles de realizar. La enfermedad afecta al paciente de forma inesperada, priva al individuo de la capacidad de dar su
consentimiento para participar en la investigación, y el tratamiento más eficaz para ella es el que se aplica en los primeros minutos o a las pocas horas del inicio. Los centros que
son capaces de reclutar un número elevado de pacientes en la
ventana temporal inicial son pocos, y el número de pacientes
incluidos en ensayos multicéntricos del ictus agudo en todo
el mundo es en la actualidad inferior a 5000 al año1. El porcentaje de éxitos en los ensayos del ictus agudo es muy bajo;
< 2% de los fármacos que llegan a la fase de prueba en el ser
humano llegan a alcanzar la autorización de las autoridades
reguladoras1,15. Por estas razones, es crucial evitar el uso de
pruebas estadísticas poco eficientes que hacen que los ensa-
yos tengan una potencia estadística insuficiente para detectar
unos efectos del tratamiento moderados, pero clínicamente
útiles.
La prueba estadística más eficiente para un determinado
ensayo en el ictus agudo varía en función de la forma prevista
del efecto del tratamiento en la población estudiada. Cuando
el tratamiento mejore las variables de valoración en varias
transiciones de estados de salud, la prueba que muestra todos
los rangos de origen detectará la señal de eficacia presente en
cada una de las transiciones, mientras que un análisis dicotomizado detectará la señal de eficacia presente tan solo en 1
rango de ordenación. Dado que el análisis dicotomizado no
detectará gran parte de la señal de eficacia, será más potente
un análisis de desplazamiento. Desechar parte de la información sobre el resultado al reducir una variable continua a una
binaria comporta generalmente una disminución de la potencia estadística de un estudio en al menos una tercera parte o
más16,17. En cambio, cuando el efecto beneficioso de un tratamiento se agrupa en una sola transición de estados de salud,
las pruebas que muestrean todos los rangos de ordenación
malgastarán parte de la potencia buscando señales de eficacia en transiciones de estados de salud en las que no las hay.
En este contexto, un análisis dicotomizado preespecificado
para centrarlo en la transición de estado de salud en la que se
agrupa el efecto beneficioso será más potente que un análisis
de desplazamiento, pero un análisis dicotomizado preespecificado para centrarlo en una transición de estados de salud
en la que no haya una agrupación del efecto beneficioso será
menos potente que un análisis de desplazamiento18.
El análisis de modelos y de ensayos clínicos reales en el
ictus agudo ha permitido aclarar cuándo debe elegirse un
análisis de desplazamiento o un análisis dicotomizado para
un ensayo concreto. Lo más frecuente es que los tratamientos
con un efecto beneficioso aporten una mejora en la variable
de valoración, al menos de un grado modesto, en múltiples
transiciones de estados de salud simultáneamente, y el análisis de desplazamiento es una técnica más potente que el aná-
132
Stroke
Noviembre 2011
Tabla 1. Infravaloración de los efectos beneficiosos del tratamiento
en el análisis de dicotomía fija
Tratamiento
tPA i.v. < 3 h
Beneficio por Proporción de
Beneficio por 100 según la beneficio no
100 según el dicotomización detectado
análisis de
de 0–2 frente mediante el
a 3–6
análisis
Ensayo desplazamiento
dicotomizado (%)
NINDS
1y2
29
12
59
tPA i.v. 3– 4,5 h
ECASS 3
14
5
36
pro-UK i.a. < 6 h
PROACT 2
17
15
14
ISAT
17
7
59
Análisis
combinado
46
5
88
Coiling in HSA
Hemicraniectomía
Tabla 2. Fortalezas y debilidades de las estrategias de análisis para
variables de valoración de escala ordinal
Dicotomía Dicotomía
fija
corrediza
Análisis
ordinal pleno
Potencia
Apropiado para una población de ensayo amplia
Supuesto de efecto consistente
Independiente del calibrado
Facilidad de cálculo de NNT parcial
El beneficio por 100 indica el número de pacientes que obtienen un efecto
beneficioso por cada 100 pacientes tratados.
i.a. indica intraarterial; i.v., intravenoso; pro-UK, pro-uroquinasa; HSA, hemorragia
subaracnoidea; tPA, activador de plasminógeno de tipo tisular.
lisis dicotomizado4,18,19. La Optimizing Acute Stroke Trials
Collaboration analizó 47 ensayos en los que se evaluaron tratamientos con un probable efecto beneficioso o nocivo biológico y observó que el análisis de desplazamiento fue positivo
en el 26%, mientras que el análisis dicotomizado lo fue tan
solo en el 9%19. Sin embargo, en determinados contextos, los
efectos del tratamiento sí muestran una agrupación. Hay tres
variables clave que determinan si se va a producir una agrupación de los resultados y en dónde: tiempo desde el inicio
hasta el tratamiento, gravedad del déficit en el momento del
tratamiento y tipo de tratamiento utilizado (Figura 2). En el
ictus isquémico agudo, poco después del inicio, el área isquémica se encuentra toda ella o de forma predominante en una
penumbra rescatable, y aún hay poco tejido central con un
infarto irreversible ya establecido, por lo que el resultado que
puede obtenerse es excelente. Posteriormente, gran parte del
área isquémica ha sufrido ya un infarto, lo cual comporta un
techo para el grado de recuperación alcanzable. Los pacientes con déficits causados por el ictus leve al inicio del tratamiento tienen un mayor potencial que los que presentan déficits graves de alcanzar un resultado final excelente con una
intervención efectiva. Los tratamientos capaces de rescatar
la totalidad del tejido cerebral amenazado pueden producir
agrupaciones de resultados excelentes; los tratamientos capaces de salvar tan solo fracciones de tejido cerebral aportarán
probablemente efectos beneficiosos en múltiples transiciones
de estados de salud. Como consecuencia de estos factores,
los tratamientos de salvación cerebral potentes aplicados de
forma temprana a pacientes con una afectación de moderada
a grave, como los de recanalización en las 3 horas siguientes
al inicio del cuadro, tienden a producir una agrupación de los
efectos beneficiosos en el extremo de un resultado funcional excelente de las escalas. Los tratamientos aplicados de
forma tardía en pacientes con una afectación grave, como la
hemicraniectomía para un infarto maligno de arteria cerebral
media, tienden a producir efectos beneficiosos agrupados en
el extremo de un resultado funcional regular/supervivencia
de las escalas.
Facilidad de cálculo de NNT total
NNT indica número necesario a tratar.
Los símbolos indican el grado cualitativo en el que cada enfoque de análisis
(columnas) posee una propiedad deseable (fila).
En circunstancias excepcionales, se dispondrá por adelantado de información suficiente del ensayo respecto a la forma
del efecto terapéutico esperado como para poder orientar específicamente la elección del análisis. Cuando se prevé que
un tratamiento modificará el resultado de forma modesta en
diversas transiciones de estados de salud, como ocurre con
frecuencia con los tratamientos neuroprotectores, se prefiere el análisis de desplazamiento. Cuando cabe prever con
fundamento que el efecto del tratamiento mostrará una agrupación intensa en una sola transición de estados de salud, y
cuando puede especificarse a priori con confianza el lado en
el que se encuentra esa transición, se prefiere la dicotomización. Sin embargo, lo más frecuente es que los datos de los
que disponen los investigadores del ensayo, basados en ensayos iniciales y de fases medias, sean insuficientes para predecir la forma que tendrá la respuesta terapéutica en un ensayo
fundamental de registro, y en estos casos debe utilizarse un
análisis de desplazamiento ya que suele ser más potente.
Entre los extremos de analizar todas las transiciones de estados de salud clínicamente importantes en una escala ordinal
(análisis policotómico) y analizar tan solo una (análisis dicotómico fijo), hay enfoques intermedios. Entre ellos se encuentra el análisis de la escala con una dicotomía corrediza
(análisis de respondedores) y la reducción de la escala a un
número de divisiones inferior al original, pero > 1, por ejemplo la tricotomización, y realizar un análisis de desplazamiento para este número inferior de rangos de ordenación (análisis
oligocotómico). En la dicotomía corrediza, se establece un
umbral dicotómico para un buen resultado en valores de corte
de la escala diferentes para distintos subgrupos de pacientes
incluidos en un ensayo, en función de sus características pronósticas basales y del efecto esperado del tratamiento. Estos
enfoques intermedios detectan las señales y aplican la potencia a menos transiciones que el análisis de desviación pleno,
pero a más transiciones (oligocotómico) o a transiciones más
informativas (dicotomía corrediza) que el análisis dicotómico
fijo. En consecuencia, estos enfoques tienen menos potencia
que el análisis ordinal pleno, pero más que el análisis dicotomizado para detectar efectos del tratamiento que aporten un
beneficio en múltiples transiciones de estados de salud20. Y a
la inversa, cuando los tratamientos producen efectos beneficiosos que muestran una intensa agrupación en transiciones
de salud diferentes en los subgrupos de pacientes o tan solo
Saver Variables de valoración óptimas para los ensayos del tratamiento del ictus agudo 133
en 2 o unas pocas transiciones de estados de salud en todos
los pacientes, y estas transiciones pueden preespecificarse
con un alto grado de confianza antes de realizar el ensayo, los
análisis de dicotomía corrediza y oligocotímico tendrán una
potencia superior a la del análisis ordinal pleno o el análisis
dicotomizado. La evidencia existente sugiere que la mayor
parte de los tratamientos del ictus agudo producen su efecto
beneficioso en múltiples transiciones de estados de salud, y
no sólo en 2 ó 3 agrupaciones, por lo que generalmente el
análisis ordinal pleno es más potente que la dicotomía corrediza o el análisis oligocotómico. Éstos, a su vez, suelen ser
más potentes que el análisis dicotómico fijo.
Interpretabilidad
Una premisa fundamental de la medicina basada en la evidencia y centrada en la persona es que las decisiones terapéuticas deben basarse en todos los resultados que la intervención podría modificar en proporción al grado en el que
el paciente las valora. Cada uno de los enfoques de análisis
de las escalas de valoración del resultado en el ictus agudo
plantea dificultades para la conversión en unos valores que
sirvan de índice de esta perspectiva global del resultado. El
análisis ordinal pleno es el más apto para la conversión en
medidas de resumen; los análisis de dicotomía corrediza y
oligocotómicos son menos aptos para la conversión, y el análisis dicotómico fijo es intrínsecamente incapaz de aportar la
información necesaria.
Consideremos en primer lugar por qué el análisis dicotomizado fijo es el que tiene mayores dificultades de interpretabilidad. A partir de un análisis binario puede calcularse con
facilidad el efecto beneficioso o nocivo en la única transición
de estados de salud analizada. Sin embargo, la facilidad de
este cálculo enmascara el defecto fundamental de que refleja
el cambio en tan solo una de las varias transiciones de estados de salud en las que es importante evaluar el efecto del
tratamiento. La medida necesaria para orientar el tratamiento,
es decir, la suma de beneficios/daños en todas las transiciones de estados de salud importantes, no puede calcularse o
siquiera estimarse en modo alguno a partir de un análisis binario. La debilidad del análisis dicotomizado a este respecto
puede apreciarse si se considera la situación análoga de las
notas de una clase indicadas mediante letras. Las notas de la
escuela con las letras A, B, C, D y F constituyen una escala
ordinal del resultado con la que todos los norteamericanos
están familiarizados desde la escuela secundaria. Cuando se
introduce una nueva técnica de enseñanza, los maestros y los
estudiantes están interesados en saber de qué modo afecta la
intervención pedagógica al rendimiento de los estudiantes en
todos los niveles de la escala de notas, y no sólo en 1 de las
transiciones. Al centrarse, por ejemplo, tan solo en la transición de D a C, se obtiene una orientación radicalmente insuficiente para la toma de decisiones. Si la intervención proporciona un desplazamiento uniforme de los estudiantes en
todas las transiciones de notas (B a A, C a B, D a C, etc.), el
análisis de una única transición infravalorará sustancialmente
el número necesario a tratar para que 1 estudiante obtenga un
efecto beneficioso.
De forma análoga, las estimaciones del número necesario
a tratar basadas en un análisis dicotomizado infravaloran generalmente de manera sustancial los efectos beneficiosos de
un tratamiento para el ictus agudo (Tabla 1). Esta infravaloración ha tenido consecuencias negativas para los pacientes.
Cuando se autorizó por primera vez el activador de plasminógeno de tipo tisular, muchos médicos no supieron apreciar
que las estimaciones del número necesario a tratar basadas en
análisis dicotomizados capturaban tan solo una tercera parte del efecto beneficioso del tratamiento, y con frecuencia
informaron equivocadamente a los pacientes y las familias
respecto al grado de beneficio que cabía esperar21.
En cambio, el análisis estadístico con una escala ordinal
completa sí proporciona una base para la estimación robusta,
aunque no para un cálculo directo, del efecto clínico beneficioso o nocivo total de un tratamiento. Dado que los ensayos
realizados en el ictus agudo consisten en ensayos clínicos de
grupos paralelos en los que cada grupo sólo recibe un tratamiento, y no en ensayos de diseño cruzado, no permiten
medir directamente la varianza intrapaciente, y ello impide
la determinación de qué parte del efecto beneficioso observado en el conjunto del grupo se ha producido por un efecto beneficioso pequeño en muchos pacientes o por un efecto
beneficioso grande en unos pocos pacientes. Sin embargo,
existen múltiples técnicas para estimar los valores del número necesario a tratar a partir de un análisis ordinal pleno,
como la especificación de tablas de resultados asociados, el
análisis de pares igualados, el cálculo de una odds ratio proporcional y la conversión de los rangos de ordenación de la
escala en años de vida ajustados por la salud ganados con el
uso de ponderaciones por discapacidad o ponderaciones por
calidad14,22.
El enfoque de la dicotomía corrediza para las escalas ordinales aporta nuevamente un resultado intermedio. Si está
correctamente calibrada, la dicotomía corrediza capturará los
efectos beneficiosos y nocivos de un tratamiento en mayor
medida que un análisis dicotomizado fijo pero continuará
infravalorando sustancialmente el efecto beneficioso o nocivo total de una intervención, en comparación con el análisis ordinal pleno. Por ejemplo, en el caso del activador de
plasminógeno de tipo tisular antes de las 3 horas, un análisis
de dicotomía corrediza estándar captura tan solo el 39% del
efecto beneficioso real del activador de plasminógeno de tipo
tisular observado en el análisis ordinal pleno23.
Uno de los inconvenientes de todos los métodos estándar
de análisis de las variables de valoración es que parten del
supuesto de que un tratamiento ejerce un efecto en un mismo
sentido en todas las transiciones de estados de salud, ya sea
de forma explícita (análisis de desplazamiento) ya de modo
implícito (análisis de dicotomía corrediza o fija). Cuando este supuesto no es válido, ninguno de estos métodos de análisis proporcionará una descripción plenamente informativa
de los efectos del tratamiento. Un análisis de dicotomía de
ganador-perdedor en competencia puede ser útil cuando el
efecto beneficioso tiende a agruparse en una sola transición
de estados de salud y el efecto nocivo se agrupa en otra. Por
ejemplo, en las ventanas temporales posteriores, después de
las primeras 4,5 horas, la trombolisis intravenosa puede mejorar la tasa de resultados excelentes y puede elevar también
la discapacidad grave y la muerte. Un análisis dicotomizado
aplicado a la transición de resultado excelente (por ejemplo,
mRS 1-0 o mRS 2-1) puede capturar el efecto beneficioso y
134
Stroke
Noviembre 2011
otro análisis dicotomizado distinto, aplicado a la transición
de mal resultado (por ejemplo, mRS 4-5 o mortalidad) puede capturar el efecto nocivo. La presentación simultánea al
paciente y al prestador de asistencia de los dos efectos en
competencia permite respaldar una decisión informada basada en las preferencias de asunción de riesgo del paciente y
el clínico24. Es importante que los resultados en competencia
sean independientes. Una práctica incorrecta, aunque lamentablemente frecuente, al presentar los efectos de los trombolíticos es informar del efecto beneficioso utilizando una
escala final global del resultado funcional, pero presentar el
efecto nocivo en términos de hemorragia sintomática. Dado
que los efectos de la hemorragia se han capturado y resumido
ya (junto con los efectos de la reperfusión) en el resultado
funcional, puede llevar a confusión informar de ello como un
resultado aparte25.
Cuando los efectos del tratamiento son unidireccionales,
las consideraciones de eficiencia e interpretabilidad son favorables al análisis ordinal pleno; en consecuencia, el análisis
de desplazamiento debe ser generalmente el método analítico
preferido en los ensayos realizados en el ictus agudo (Tabla
2). La dicotomía corrediza es menos adecuada y la dicotomía
fija es la que lo es menos; ambas técnicas deben reservarse
para circunstancias excepcionales en las que se espera con
fundamento que el efecto del tratamiento se agrupe en una
única o unas pocas transiciones de estados de salud. En todas
las situaciones de toma de decisión en la práctica clínica a la
cabecera del paciente, cuando las distribuciones de resultados son compatibles con un efecto unidireccional del tratamiento, los valores del número necesario a tratar basados en
un análisis ordinal pleno son preferibles a los obtenidos con
métodos dicotomizados u oligocotomizados.
Tener en cuenta la heterogeneidad basal y mejorar
la precisión de las medidas de la variable
de valoración
Otros pasos importantes del diseño estadístico a tener en
cuenta en el análisis de la variable de valoración en los ensayos del ictus agudo son los de tener en cuenta la heterogeneidad basal de los pacientes y mejorar la precisión de las
determinaciones de la variable de valoración.
Hay varias características de los pacientes que tienen efectos pronósticos importantes en la evolución del paciente tras
un ictus agudo. En la isquemia cerebral aguda, la edad del
paciente y la gravedad del déficit inicial causado por el ictus
son los dos factores pronóstico clínicos más importantes, y el
volumen de la lesión isquémica y la presencia y localización
de una oclusión de una arteria grande son los dos factores
pronósticos de exploraciones de imagen fáciles de obtener
que tienen más importancia, pero hay otros muchos que pueden desempeñar un papel26–29. La influencia de los principales factores pronósticos en el resultado supera habitualmente
a la influencia del efecto del tratamiento que se pretende detectar en los ensayos realizados en el ictus. Los análisis que
no introducen un ajuste respecto a la heterogeneidad basal
de los pacientes tienen diversas vulnerabilidades, como la
reducción de la potencia en la detección de efectos del tratamiento (habitualmente en un 10%–30%)30,31, la infravaloración de la magnitud del efecto real del tratamiento cuando se
emplean medidas no lineales del efecto como las odds ratios
(debido a que no es posible combinar los efectos dentro de
los estratos)32, y resultados falsamente positivos/falsamente
negativos si las variables pronósticas causantes de confusión
están desequilibradas en los distintos grupos de tratamiento26. Por consiguiente, el ictus agudo es un trastorno en el que
el ajuste estadístico respecto a las diferencias basales en las
variables pronósticas debe realizarse casi siempre en el análisis principal del ensayo. Los análisis sin la introducción del
ajuste son deseables como análisis secundarios para explorar
la robustez de la señal detectada, pero son menos fiables que
el análisis con ajuste.
Las escalas ordinales utilizadas en la medición de la variable de valoración en los ensayos del ictus agudo tienen
habitualmente una fiabilidad interevaluadores moderada. No
obstante, cualquier escala concreta administrada en 1 ocasión
por 1 evaluador es algo imprecisa, debido a la variación interevaluadores residual, la variación de la función del paciente
a lo largo del tiempo y la variación de la exactitud intrínseca de diferentes escalas a diferentes niveles de puntuación.
La imprecisión en la medición de la variable de valoración
primaria introduce un ruido que reduce la potencia estadística del estudio. Entre las técnicas validadas para reducir la
fiabilidad interevaluadores en la medición de los resultados
funcionales se encuentran el uso de entrevistas estructuradas,
los programas de formación certificados y los evaluadores
centrales10,11,33. La repetición de las mediciones a lo largo del
tiempo puede ser útil también, y permite realizar varias evaluaciones del estado alcanzado en vez de una sola34.
Otro enfoque que ha resultado útil en determinados ensayos del ictus es el de medir el resultado pretendido con varias
escalas similares y combinar estadísticamente las mediciones
utilizando una ecuación de estimación generalizada. Aunque
teóricamente se han concebido para establecer un mapa de
dimensiones diferentes del resultado, las medidas del déficit
neurológico (por ejemplo, la NIHSS), las actividades de la
vida diaria (por ejemplo, el Índice de Barthel) y la discapacidad global (por ejemplo, la mRS y la Glasgow Outcome Scale) presentan todas ellas una intensa correlación entre sí, lo
cual indica que pueden concebirse también como un mapa de
un único rasgo latente, al que se ha denominado recuperación
del ictus. Cuando se evalúan estas escalas en la misma visita,
la precisión de la medición del rasgo latente de recuperación
del ictus aumenta por encima de la que tiene la medición de
una sola escala. Sin embargo, el aumento de la potencia del
estudio que proporciona la ecuación de estimación generalizada se obtiene a costa de la interpretabilidad del resultado.
La variable latente que se evalúa, por ejemplo, la recuperación favorable, no se mide por completo con ninguna escala
individual. En consecuencia, los organismos reguladores desaconsejan con frecuencia el uso de la ecuación de estimación
generalizada en el análisis de la variable de valoración primaria de un ensayo fundamental con fines de registro.
Los efectos beneficiosos acumulativos del aumento de la
potencia del estudio son sustanciales para las tres estrategias
estadísticas clave revisadas: uso de toda la información sobre
el resultado en una escala ordinal; ajuste respecto a la heterogeneidad pronóstica basal; e incorporación simultánea de
información de múltiples escalas de la recuperación. Cada
Saver Variables de valoración óptimas para los ensayos del tratamiento del ictus agudo 135
uno por sí solo aumentará la potencia del estudio en comparación con un análisis sin ajustar de la dicotomía bruta en una
única escala. Sin embargo, estas técnicas no son mutuamente
excluyentes y pueden combinarse en pares o todas juntas. En
un análisis de un efecto de un tratamiento modelo aplicado a
los datos de placebo de los tres conjuntos de datos de ensayos
de citicolina combinados, al utilizar conjuntamente las 3 técnicas, la potencia del estudio aumentó de 3 a 6 veces. Cuando se utilizó un análisis de desplazamiento pleno y un ajuste
según el pronóstico basal, el hecho de omitir la estimación
generalizada para aumentar la interpretabilidad del resultado
elevó la potencia del estudio en 2 a 5 veces35.
Conclusiones
Durante la pasada década, se han producido varios avances importantes en el análisis de las variables de valoración de los ensayos
del ictus agudo. En la actualidad, los investigadores pueden elegir
con conocimiento de causa escalas de valoración del resultado que
sean válidas, fiables y sensibles, como la mRS, así como técnicas de
análisis que sean eficientes e interpretables, como el análisis ordinal
pleno y el análisis de dicotomía corrediza, para optimizar el diseño
del estudio y maximizar las posibilidades de éxito en el hallazgo de
nuevos tratamientos para la primera causa de muerte y discapacidad
combinadas en todo el mundo.
Fuentes de financiación
Este estudio fue financiado en parte por los NIH-NINDS Awards
U01 NS 44364 y P50 NS044378 y por el American Heart Association Pharmacy Roundtable Health Outcomes Research Center
Award.
Declaraciones
Los Regentes de la University of California reciben financiación
para los servicios del Dr. Saver como consultor científico respecto
al diseño y realización de ensayos prestados a BrainsGate, CoAxia,
ev3, Talecris, PhotoThera, y Sygnis (modesta en todos los casos).
El Dr. Saver es investigador de los ensayos clínicos multicéntricos
NIH FAST-MAG, MR RESCUE, ICES, CUFFS, CLEAR-ER e
IMS 3, por los que los Regentes de la UC reciben pagos basados en
la realización del ensayo clínico. Ha sido investigador de centro no
remunerado en ensayos multicéntricos realizados por Lundbeck y
Mitsubishi, por los que los Regentes de la UC han recibido pagos
basados en contratos de ensayos clínicos en función del número de
individuos incluidos. Es también investigador de centro en un registro multicéntrico realizado por Concentric, por el que los Regentes
de la UC han recibido pagos basados en contratos de ensayos clínicos en función del número de individuos incluidos. Es empleado de
la University of California, que tiene una patente sobre dispositivos
de extracción para el ictus. Recibe financiación del NIH-NINDS
Awards P50 NS044378 y U01 NS 44364.
Bibliografía
1. Hong KS, Lee SJ, Hao Q, Liebeskind DS, Saver JL. Acute stroke trials in
the 1st decade of the 21th century. Stroke. 2011;42:e314.
2. Fisher M, Albers GW, Donnan GA, Furlan AJ, Grotta JC, Kidwell CS, et
al. Enhancing the development and approval of acute stroke therapies:
Stroke Therapy Academic Industry roundtable. Stroke. 2005;36:
1808 –1813.
3. Higashida RT, Furlan AJ, Roberts H, Tomsick T, Connors B, Barr J, et al.
Trial design and reporting standards for intra-arterial cerebral
thrombolysis for acute ischemic stroke. Stroke. 2003;34:e109 – e137.
4. Optimising Analysis of Stroke Trials Collaboration. Calculation of
sample size for stroke trials assessing functional outcome: comparison of
binary and ordinal approaches. Int J Stroke 2008;3:78 – 84.
5. Rha JH, Saver JL. The impact of recanalization on ischemic stroke
outcome: a meta-analysis. Stroke. 2007;38:967–973.
6. Mayer SA, Brun NC, Begtrup K, Broderick J, Davis S, Diringer MN, et
al. Efficacy and safety of recombinant activated factor VII for acute
intracerebral hemorrhage. N Engl J Med. 2008;358:2127–2137.
7. Quinn TJ, Dawson J, Walters MR, Lees KR. Functional outcome
measures in contemporary stroke trials. Int J Stroke. 2009;4:200 –205.
8. World Health Organization. The international classification of
impairments, disabilities and handicaps. Geneva, Switzerland: World
Health Organization; 1980.
9. Barclay-Goddard R, Epstein JD, Mayo NE. Response shift: a brief
overview and proposed research priorities. Qual Life Res. 2009;18:
335–346.
10. Saver JL, Filip B, Hamilton S, Yanes A, Craig S, Cho M, et al. Improving
the reliability of stroke disability grading in clinical trials and clinical
practice: the Rankin Focused Assessment (RFA). Stroke. 2010;41:
992–995.
11. Quinn TJ, Lees KR, Hardemark HG, Dawson J, Walters MR. Initial
experience of a digital training resource for modified Rankin scale
assessment in clinical trials. Stroke. 2007;38:2257–2261.
12. Weisscher N, Vermeulen M, Roos YB, de Haan RJ. What should be
defined as good outcome in stroke trials; a modified Rankin score of 0 –1
or 0 –2? J Neurol. 2008;255:867– 874.
13. Samsa GP, Matchar DB, Goldstein L, Bonito A, Duncan PW, Lipscomb
J, et al. Utilities for major stroke: results from a survey of preferences
among persons at increased risk for stroke. Am Heart J. 1998;136:
703–713.
14. Hong KS, Saver JL. Quantifying the value of stroke disability outcomes:
WHO global burden of disease project disability weights for each level of
the modified Rankin Scale. Stroke. 2009;40:3828 –3833.
15. Kidwell CS, Liebeskind DS, Starkman S, Saver JL. Trends in acute
ischemic stroke trials through the 20th century. Stroke. 2001;32:
1349 –1359.
16. Altman DG, Royston P. The cost of dichotomising continuous variables.
BMJ. 2006;332:1080.
17. Fedorov V, Mannino F, Zhang R. Consequences of dichotomization.
Pharm Stat. 2009;8:50 – 61.
18. Saver JL, Gornbein J. Treatment effects for which shift or binary analyses
are advantageous in acute stroke trials. Neurology. 2009;72:1310 –1315.
19. Optimising Analysis of Stroke Trials (OAST) Collaboration, Bath PM,
Gray LJ, Collier T, Pocock S, Carpenter J. Can we improve the statistical
20. McHugh GS, Butcher I, Steyerberg EW, Marmarou A, Lu J, Lingsma HF,
et al. A simulation study evaluating approaches to the analysis of ordinal
outcome data in randomized controlled trials in traumatic brain injury:
results from the IMPACT Project. Clin Trials. 2010;7:44 –57.
21. Gadhia J, Starkman S, Ovbiagele B, Ali L, Liebeskind D, Saver JL.
Assessment and improvement of figures to visually convey benefit and
risk of stroke thrombolysis. Stroke. 2010;41:300 –306.
22. Lansberg MG, Schrooten M, Bluhmki E, Thijs VN, Saver JL. Treatment
time-specific number needed to treat estimates for tissue plasminogen
activator therapy in acute stroke based on shifts over the entire range of
the modified Rankin Scale. Stroke. 2009;40:2079 –2084.
23. Saver JL, Yafeh B. Confirmation of tPA treatment effect by baseline
severity-adjusted end point reanalysis of the NINDS-tPA stroke trials.
Stroke. 2007;38:414 – 416.
24. Kent DM, Selker HP, Ruthazer R, Bluhmki E, Hacke W. Can multivariable risk-benefit profiling be used to select treatment-favorable patients
for thrombolysis in stroke in the 3- to 6-hour time window? Stroke.
2006;37:2963–2969.
25. Saver JL. Hemorrhage after thrombolytic therapy for stroke: the clinically
relevant number needed to harm. Stroke. 2007;38:2279 –2283.
26. Mandava P, Kent TA. A method to determine stroke trial success using
multidimensional pooled control functions. Stroke. 2009;40:1803–1810.
27. König IR, Ziegler A, Bluhmki E, Hacke W, Bath PM, Sacco RL, et al.
Predicting long-term outcome after acute ischemic stroke: a simple index
works in patients from controlled clinical trials. Stroke. 2008;39:
1821–1826.
28. Johnston KC, Wagner DP, Wang XQ, Newman GC, Thijs V, Sen S, et al.
Validation of an acute ischemic stroke model: does diffusion-weighted
imaging lesion volume offer a clinically significant improvement in
prediction of outcome? Stroke. 2007;38:1820 –1825.
29. Qureshi AI. New grading system for angiographic evaluation of arterial
occlusions and recanalization response to intra-arterial thrombolysis in
136
Stroke
Noviembre 2011
acute ischemic stroke. Neurosurgery. 2002;50:1405–1414; discussion
1414 –1415.
30. Optimising the Analysis of Stroke Trials (OAST) Collaboration, Gray LJ,
Bath PM, Collier T. Should stroke trials adjust functional outcome for
baseline prognostic factors? Stroke. 2009;40:888 – 894.
31. Hernández AV, Steyerberg EW, Habbema JD. Covariate adjustment in
randomized controlled trials with dichotomous outcomes increases statistical power and reduces sample size requirements. J Clin Epidemiol.
2004;57:454 – 460.
32. Kent DM, Trikalinos TA, Hill MD. Are unadjusted analyses of clinical
trials inappropriately biased toward the null? Stroke. 2009;40:672– 673.
33. Lyden P, Raman R, Liu L, Emr M, Warren M, Marler J. National
Institutes of Health Stroke Scale certification is reliable across multiple
venues. Stroke. 2009;40:2507–2511.
34. Li N, Elashoff RM, Li G, Saver J. Joint modeling of longitudinal ordinal
data and competing risks survival times and analysis of the NINDS rt-PA
stroke trial. Stat Med. 2010;29:546 –557.
35. Torres JV, Cortes J, González JA, Sanchez JA, Secades J, Cobo E. .
Stroke clinical trials efficiency can be improved. International Society for
Clinical Biostatistics 31st Annual Meeting. Montpellier, France. September 2010.