Download Progress Review
Document related concepts
no text concepts found
Transcript
Progress Review Optimal End Points for Acute Stroke Therapy Trials Best Ways to Measure Treatment Effects of Drugs and Devices Jeffrey L. Saver, MD Downloaded from http://stroke.ahajournals.org/ by guest on July 11, 2017 Background and Purpose—Over the past decade, analysis of completed actual trials, model population studies, and theoretical work have improved approaches to selecting and analyzing end points in acute stroke treatment trials. Methods—Narrative review. Results—Because stroke affects persons in their biological, functional, social, and experiential dimensions, measures of impairment, disability, handicap, and quality of life are all desirable in pivotal trials, with disability being most important. Scales that are valid, reliable, responsive, and easy to administer are preferred; consequently, the modified Rankin Scale has become the most widely used single clinical efficacy measure. Because stroke cripples and kills, most outcome scales array patient outcome in ordered ranks, spread over the entire range from normal to disabled to dead. Generally, shift analysis, analyzing all health state transitions concurrently, is the most efficient analytic technique to detect treatment effects, with sliding dichotomy less efficient and fixed dichotomy least efficient, unless treatment effects strongly cluster at 1 or a few health state transitions that can be prespecified. Test statistics must also take into account interpretability, ie, how well they can be converted into metrics capturing all outcomes the intervention might alter in proportion to the degree they are valued by the patient; full ordinal analysis is most informative, sliding dichotomy is intermediately informative, and fixed dichotomy is least informative regarding this global outcome. Conclusions—Stroke trial power and interpretation can be substantially enhanced by adherence to the principles delineated in this review. Full ordinal and sliding dichotomy analysis will most often be advantageous compared with fixed dichotomous approaches. (Stroke. 2011;42:2356-2362.) Key Words: acute cerebral hemorrhage 䡲 acute cerebral infarction 䡲 acute stroke syndromes 䡲 emergency treatment 䡲 neuroprotectors 䡲 thrombolysis A events expected based on mechanisms of drug or device action. Examples include: including hemorrhagic transformation for reperfusion treatments in acute cerebral ischemia; thromboembolic events for prothrombotic agents in intracerebral and subarachnoid hemorrhage; and femoral artery access complications in catheter device trials. Trial phase is a key determinant of which efficacy end points should be selected as leading outcomes in acute stroke trials. In drug trials, early phase studies will focus on pharmacokinetics. Midphase drug trials and early-stage device trials seek to rapidly explore and optimize drug dosing or device design and use to select the most promising approach to move to pivotal phase testing. If available, the best primary end point for midphase trials are biomarkers that directly reflect treatment effect, which typically have fewer confounding factors and consequently less noise than clinical end points and therefore are more informative for rapid treatment refinement. Biomarkers useful as primary end points in midphase trials include: for pharmacological reperfusion, transcranial Doppler, CT, or MR evidence of early reperfusion; for device reperfusion, angiographic reperfusion scales such as the Thrombolysis in Cerebral Infarction and Arterial cute stroke trialists made great strides in the first decade of the 21st century. More than 125 acute stroke trials performed provided definitive support for 3 treatment advances (intravenous tissue-type plasminogen activator in the 3- to 4.5-hour window, hemicraniectomy for malignant infarction, and coiling for aneurysmal subarachnoid hemorrhage).1 Of equal import, these trials and accompanying theoretical work refined methods for optimizing the design of acute stroke trials, laying a foundation for even more rapid progress in the coming decade. This narrative review briefly surveys important lessons that have been learned regarding best ways to select study end points in acute stroke trials and statistically analyze for evidence of benefit, drawing whenever possible on approaches recommended by consensus groups.2– 4 Selecting End Points to Measure In all clinical trials subjecting human persons to experimental intervention, safety end points are key measures. Universal safety end points across all trials include all-cause mortality and serious adverse events. Additional safety end points in acute stroke trials should specifically interrogate adverse Received March 21, 2011; accepted May 10, 2011. From the Stroke Center and Department of Neurology, David Geffen School of Medicine, University of California Los Angeles, Los Angeles, CA. Correspondence to Jeffrey L. Saver, MD, UCLA Stroke Center, 710 Westwood Plaza, Los Angeles, CA 90095. E-mail [email protected] © 2011 American Heart Association, Inc. Stroke is available at http://stroke.ahajournals.org DOI: 10.1161/STROKEAHA.111.619122 2356 Saver Optimal End Points for Acute Stroke Trials 2357 Figure 1. Final 90-day outcome scores in the 2 NINDS tissue-type plasminogen activator trials. The NIHSS and Barthel Index both show a markedly skewed U-shape distribution unfavorable for analytic power and clinical interpretation. The Barthel Index also shows strong ceiling effect. In contrast, the modified Rankin Scale distributes substantial groups of patients among all hierarchical ranks, permitting more robust analysis and interpretation. Downloaded from http://stroke.ahajournals.org/ by guest on July 11, 2017 Occlusive Lesion scales; for neuroprotection, salvage of penumbral tissue identified on multimodal CT or MR imaging; and for intracerebral hemorrhage medical and surgical treatments, reduction in hematoma growth or hematoma volume on CT or MRI. Some, such as reperfusion scales, are well-validated by multiple studies,5 whereas others, such as reduction in hematoma growth, have not yet been confirmed as valid predictors of clinical response.6 If no biomarker is available that is clearly tied to treatment mechanism and has less variability than clinical end points, then clinical outcome measures should be used in midphase trials deploying analytic techniques that maximize detecting signals of potential efficacy rather than clinical interpretability. Pivotal registration trials must determine whether the intervention alters patient final clinical outcome for good or ill. Candidate metrics to assess clinical outcome in acute stroke are legion; ⬎45 different outcome measures have been used in recent trials.7 As a neurological disease, stroke alters the cardinal domains of human behavior, including language, spatial, executive, affective, motor, and visual functions. For acute rehabilitation trials focused on domain-specific interventions, outcome measures confined to 1 or a few of these domains are appropriate primary metrics. However, for the most common acute interventions focused on improving outcomes across all domains, more comprehensive measures are needed. The World Health Organization provided a useful framework for conceptualizing outcome domains for clinical trials, dividing health dimensions into impairments, disabilities, and handicaps.8 A more recent World Health Organization framework is more complex and adapted to social policy and population health planning, but not as useful for randomized control trials in which individual patient outcomes are the key concern. Impairment is a loss or abnormality of anatomic, physiological, or psychological function. Disability is a restriction, resulting from impairment, in the ability to perform an activity in a normal manner. Handicap is a disadvantage for an individual resulting from an impairment or disability that limits the fulfillment of a sociocultural role. The objective World Health Organization framework is usefully supplemented by patient-reported outcomes. Like all diseases, stroke affects persons in their biological, functional, social, and experiential dimensions; consequently, to capture all important qualitative aspects of outcome, pivotal clinical trials should consider deploying measures of impairment, disability, handicap, and quality of life. Among these dimensions of health, the most important in acute stroke randomized control trials is disability. Ability to perform activities related to self-care, work, and enjoyment is of unquestionable importance to patients, health providers, and society. In contrast, impairments that do not compromise patient functional capacity are of minor significance, handicaps are greatly affected by cultural and social factors beyond the scope of medical therapies to alter, and patient-reported measures of quality of life are confounded by fundamental epistemological issues. For all diseases, the human capacity for psychological adaptation alters patient-reported outcomes over time (adjustment to disease bias). In stroke, between 28% and 78% of individuals at 6 months after stroke demonstrate response shift unrelated to the impact of their stroke on their function.9 A distinctive challenge for neurological diseases is that they directly alter the brain that reports patient-reported outcomes. Aphasia, anosognosia, and hemisphere emotional valence bias may render patient reports unavailable or unreliable. Key desirable properties of an outcome scale include validity (agreement between the value of a measurement and the true value), reliability (reproducibility of a measurement), and responsiveness (sensitivity to change). Disability measures include global judgment scales, such as the modified Rankin Scale (mRS) and the Glasgow Outcome Scale, and activities of daily living scales, such as the Barthel Index and the Functional Independence Measure. Among the global scales, the mRS is preferred over the Glasgow Outcome Scale because of its greater sensitivity to change (more levels) and the availability of structured assessments and certification programs that improve its reliability.10,11 These desirable properties have made the mRS the most commonly used outcome measure in acute stroke trials.7 Among the activities of daily living scales, the Barthel Index is generally not suitable as a sole primary end point because of pronounced floor and ceiling effects (Figure 1). The Functional Independence Measure has greater sensitivity to change than global scales and has lesser issues with ceiling effects than the Barthel Index, but it is burdensome to perform. A recent innovation in disability outcome scales is item banks ordered by item response theory. These enable scoring of a patient’s disability on a continuous linear scale with a modest number of queries, potentially increasing sensitivity to change while minimizing measurement burden.12 Item banks may play more important roles in future stroke trials. 2358 Stroke August 2011 An additional challenge for outcome scales in stroke trials is that some patients and practitioners consider severely disabled states (eg, persistent vegetative state) as worse, not better, than death, challenging the common assumption in construction and interpretation of outcome scales that death is the worst possible health state. The mRS therefore often is best analyzed by collapsing the levels of 5 (severe disability) and 6 (death) into a single worst outcome category.13 The remaining levels of the mRS are all appropriately monotonically ordered, and each is a clinically worthwhile distance from its neighbors on a continuous measure of disability weight, although these distances are not uniform.14 In addition to these cardinal functional measures of outcome, economic measures may be useful adjunctive end points in pivotal trials. Cost of each quality or disabilityadjusted life-year gained provides important data for health policy decisions. Downloaded from http://stroke.ahajournals.org/ by guest on July 11, 2017 Statistical Methods for Analyzing the Primary End Point Because stroke is a condition that cripples as well as kills, final outcome health states in acute stroke trials are arrayed over a spectrum of disability/impairment/handicap. Consequently, in acute trials, the primary outcomes are intrinsically nonbinary and most commonly exist as ordinal scales that array patients among ordered ranks of ascending/ descending desirability. Accordingly, the first decision to be made in the statistical analysis of an acute stroke trial is how to handle the ordinal (multirank) nature of the primary outcome measure—whether to choose a test statistic that reflects all the health state transitions captured in the primary outcome measure, some of the transitions, or only 1 of the transitions. Analyzing ordinal scales concurrently for benefit at multiple health state transitions has been called shift analysis or analysis over ranks. Multiple test statistics appropriate for shift analysis are available, including the Wilcoxon rank sum, the Cochran Mantel-Haenszel, and ordered logistic regression. Some require data distributions to behave in tightly ordered ways and others are less restrictive. Analyzing ordinal scales at just 1 state transition requires dichotomizing the scale at a single score threshold, converting it to a binary good– bad outcome measure and discarding the remaining outcome information. Intermediate approaches are to use a sliding dichotomy (responder analysis) or to reduce the number of levels in a scale, eg, from 7 to 3 (trichotomizing) or to 4 (tetrachotomizing). Each of these approaches has been used in major phase 3 stroke trials: polychotomous (shift) analysis (eg, SAINT, ENOS, FAST-MAG), oligochotomous analysis (eg, GAIN), responder analysis (eg, AbESTT 2, PAIS, STICH), and dichotomous analysis (eg, IST, PROACT 2, ECASS 3). The 2 key considerations in selecting statistical techniques by which to analyze the primary end point in any controlled trial are efficiency and interpretability. Efficiency refers to a test’s power to detect a difference in treatments when such a difference truly exists. More efficient tests enable trials to detect genuine treatment differences using smaller sample sizes. Interpretability refers whether the test is assessing a difference that is clinically intuitive and clinically important. Statistical Efficiency Acute stroke trials are particularly expensive and challenging to conduct. The disease strikes patients unexpectedly, deprives individuals of the ability to consent for themselves to research participation, and is most effectively treated within the first minutes or few hours of onset. Centers capable of recruiting large numbers of patients in early time windows are few, and the number of patients enrolled in multicenter acute trials worldwide is currently ⬍5000 each year.1 The success rate of acute stroke trials is dismal; ⬍2% of drugs entering human testing have achieved regulatory approval.1,15 For these reasons, it is critical to avoid the use of inefficient statistical tests that render trials underpowered to detect moderate, but clinically worthwhile, treatment effects. The most efficient statistical test metric for an acute stroke trial varies depending on the expected shape of the treatment effect in the population being studied. When the treatment will improve outcomes across several health state transitions, test metrics that sample all ranks will detect the efficacy signal present at each of the transitions, whereas dichotomized analyses will detect the efficacy signal present at only 1 rank. Because dichotomized analysis will miss much of the efficacy signal, shift analysis will be more powerful. Discarding outcome information to reduce a continuous to a binary outcome typically reduces a study’s power by at least one-third or often more.16,17 In contrast, when the benefit of a treatment clusters at only a single health state transition, test metrics that sample all ranks will squander some power searching for efficacy signals at health state transitions in which they are absent. In this setting, a dichotomized analysis prespecified to focus on the health state transition at which the benefit clusters will be more powerful than shift analysis, but a dichotomized analysis prespecified to focus on a health state transition at which the benefit does not cluster will be less powerful than shift analysis.18 Analysis of model and actual acute stroke clinical trials has clarified when to select between analysis over ranks and dichotomized analysis for a particular trial. Most commonly, beneficial treatments improve outcomes to at least a modest degree at multiple health state transitions simultaneously, and shift analysis is a more powerful technique than dichotomized analysis.4,18,19 The Optimizing Acute Stroke Trials Collaboration analyzed 47 trials testing treatments with likely biological benefit or harm and found that shift analysis was positive in 26%, whereas dichotomized analysis was positive in only 9%.19 However, in certain settings treatment effects do cluster. Three key variables determine whether and where in the outcome spectrum clustering will occur: onset to treatment time, deficit severity at time of treatment, and type of treatment (Figure 2). In acute ischemic stroke, early after onset the ischemic field is all or preponderantly salvageable penumbra, with little irreversibly infarcted core tissue yet established, and excellent outcomes are possible. Late after onset, much of the ischemic field is already infarcted, placing a ceiling on the degree of attainable recovery. Patients with mild stroke deficits at start of treatment have greater potential than those with severe stroke deficits to attain excellent final outcomes with an effective intervention. Therapies capable of rescuing all threatened brain tissue can yield excellent out- Saver Optimal End Points for Acute Stroke Trials 2359 Figure 2. Clustering of treatment effect at different health state transitions of the modified Rankin Scale, depending on treatment timing, baseline prognosis, and type of acute stroke intervention. Rows show landmark analyses of 3 acute ischemic stroke treatments. Final 3 columns show P values indicating presence or absence of treatment effects at excellent (mRS 0-1), good (mRS 0-2), and fair (mRS 0-4) dichotomizations of the modified Rankin Scale. Cells with P⬍0.05 are green, 0.06 to 0.20 are yellow, and ⬎0.20 are red. All treatments studied—intravenous recanalization, intra-arterial recanalization, and hemicraniectomy— exert powerful biological effects so that clustered rather than distributed treatment effects may be expected. In the 2 NINDS trials testing a hyperacute treatment in patients with moderately severe health states, dichotomization at excellent outcome is most efficient. In the PROACT 2 trial testing an early, but not hyperacute, treatment in patients with more severe health states, dichotomization at good outcomes is most efficient. In the hemicraniectomy trials, testing a late treatment in patients with extremely severe health states, dichotomization at fair outcomes is most efficient. (Time to enrollment values are medians or means.) Downloaded from http://stroke.ahajournals.org/ by guest on July 11, 2017 come clusters; therapies capable of salvaging only fractions of brain tissue will likely provide benefits at multiple health state transitions. As a consequence of these factors, powerful brain-saving therapies applied early to moderately to severely affected patients, such as recanalization treatments in the first 3 hours of onset, tend to produce benefits clustering at the excellent functional outcome extreme of scales. Therapies applied late to severely affected patients, such as hemicraniectomy for malignant middle cerebral artery infarction, tend to produce benefits clustered at the survival/fair functional outcome extreme of scales. In exceptional circumstances, enough information will be known in advance of the trial regarding the shape of the expected treatment effect to specifically guide analytic choice. When a treatment is expected to alter outcomes modestly at a number of health state transitions, as is common for neuroprotective therapies, shift analysis is preferred. When the treatment effect can be confidently expected to strongly cluster at a single health state transition, and when the site of that transition can confidently be prespecified, dichotomization is preferred. However, most commonly, trialists have insufficient data from early and midstage trials to predict the shape of the treatment response that will occur in a pivotal trial and should then use shift analysis because it usually is more powerful. Between the extremes of analyzing all clinically important health state transitions in an ordinal scale (polychotomous analysis) and only one (fixed dichotomous analysis) are intermediate approaches. These include analyzing the scale with a sliding dichotomy (responder analysis) and collapsing the scale to fewer divisions than in the original, but ⬎1, eg, trichotomizing, and performing shift analysis over these fewer ranks (oligochotomous analysis). In sliding dichotomy, a dichotomous good outcome threshold is set at different break points in the scale for different subgroups of patients enrolled in a trial, based on their baseline prognostic features and the expected treatment effect. These intermediate approaches detect signal and expend power at fewer transitions than full shift analyses, but at more transitions (oligochoto- mous) or more informative transitions (sliding dichotomy) than fixed dichotomous analysis. Accordingly, these approaches have less power than full ordinal analysis but more power than dichotomized analysis to detect treatment effects that exert benefits at multiple health state transitions.20 Conversely, when treatments exert benefits that strongly cluster at different single health transitions in subgroups of patients, or at only 2 or a few health state transitions in all patients, and these can be prespecified with high confidence before trial performance, sliding dichotomous and oligochotomous analyses will have more power than either full ordinal or dichotomized analysis. Available evidence suggests that most acute stroke treatments exert their benefits at multiple health transitions, not just 2 or 3 clusters, so that full ordinal analysis usually will be more powerful than sliding dichotomy or oligochotomous analysis. These, in turn, usually will be more powerful than fixed dichotomous analysis. Interpretability It is a fundamental tenet of person-centered, evidence-based medicine that treatment decisions should be based on all outcomes that the intervention might alter in proportion to the degree they are valued by the patient. Each of the analytic approaches to outcome scales in acute stroke has obstacles to being converted into values that index this global outcome perspective. Full ordinal analyses are best-able to be converted into summary metrics, sliding dichotomous and oligochotomous metrics are less able to be converted, and fixed dichotomous analyses are intrinsically unable to yield the needed information. Let us first consider why fixed dichotomized analysis has the greatest difficulty in interpretability. From a binary analysis, the benefit or harm at the 1 analyzed health state transition can be calculated readily. However, the computational ease of this derivation masks the fundamental flaw that it reflects change at only 1 of the several health state transitions at which it is important to assess treatment effect. The metric needed to guide therapy, ie, the sum of benefits/ harms across all important health state transitions, cannot be 2360 Stroke August 2011 Table 1. Underestimation of Treatment Benefits by Fixed Dichotomy Analysis Treatment IV tPA ⬍3 h Trial Benefit per 100 per Shift Analysis Benefit per 100 per Dichotomized 0 –2 vs 3– 6 Sliding Dichotomy Full Ordinal Analysis Power ⫹ ⫹⫹ ⫹⫹⫹ Appropriate for broad trial population ⫺ ⫹⫹ ⫹⫹⫹ Consistent effect assumption ⫺ ⫺ ⫺ Calibration-independent ⫺ ⫺⫺ ⫹⫹⫹ 29 IV tPA 3– 4.5 h ECASS 3 14 5 36 Ease of calculation of Partial NNT ⫹⫹⫹ ⫹⫹⫹ ⫹⫹ IA pro-UK ⬍6 h PROACT 2 17 15 14 Ease of calculation of Total NNT ⫺⫺ ⫺ ⫹⫹ ISAT 17 7 59 Pooled analysis 46 5 88 NNT indicates number needed to treat. Symbols indicate the qualitative degree to which each analytic approach (columns) possesses the desirable property (row). Hemicraniectomy 59 Fixed Dichotomy NINDS 1 and 2 Coiling in SAH 12 Proportion of Benefit Missed by Dichotomized Analysis (%) Table 2. Strengths and Weaknesses of Analytic Strategies for Ordinal Scale Outcomes Benefit per 100 indicates number of patients who benefit per 100 patients treated. IA indicates intra-arterial; IV, intravenous; pro-UK, pro-urokinase; SAH, subarachnoid hemorrhage; tPA, tissue-type plasminogen activator. Downloaded from http://stroke.ahajournals.org/ by guest on July 11, 2017 calculated or even estimated in any way from a binary analysis. The weakness of dichotomized analysis in this regard can be seen from considering the analogous situation for letter grades in school classrooms. The school letter grades of A, B, C, D, and F constitute an ordinal outcome scale that all Americans are familiar with from secondary schooling. When a new teaching technique is introduced, teachers and students are interested in knowing how the pedagogical intervention affects student performance across all levels of the grading scale, not just 1 transition. Focusing on only the transition from D to C, for example, provides a radically insufficient guide to decision-making. If the intervention provides an even shift for students at every grade transition (B to A, C to B, D to C, etc), then analyzing just a single transition would substantially underestimate the number needed to treat for 1 student to benefit. Similarly, number needed to treat estimates based on dichotomized analysis typically substantially underestimate acute stroke treatment benefits (Table 1). This underestimate has had deleterious consequences for patients. When tissuetype plasminogen activator was first approved, many physicians failed to appreciate that number needed to treat estimates based on dichotomized analyses captured only onethird of the therapy’s benefit and frequently misinformed patients and families about the degree of benefit to be expected.21 In contrast, full ordinal scale test statistics do provide a basis for robust estimation, albeit not direct calculation, of the total clinical benefit or harm of a therapy. Because acute stroke trials are parallel group trials in which each trial arm experiences only 1 treatment, not crossover design trials, they are unable to directly measure the within-patient variance, precluding determination of how much of the total group benefit seen occurred through many patients benefitting a little versus a few patients benefiting a lot. However, multiple techniques are available to estimate number needed to treat values from full ordinal analyses, including joint outcome table specification, matched-pair analysis, derivation of a proportional odds ratio, and conversion of scale ranks into health-adjusted life-years gained by use of disability weights or quality weights.14,22 The sliding dichotomy approach to ordinal scales again has an intermediate result. If correctly calibrated, the sliding dichotomy will capture more of the benefits and harms of a treatment than a fixed dichotomized analysis but will still substantially underestimate the total benefit or harm of an intervention compared with full ordinal analysis. For example, for tissue-type plasminogen activator ⬍3 hours, a standard sliding dichotomy analysis captures only 39% of the actual benefit of tissue-type plasminogen activator observed in full ordinal analysis.23 A drawback of all the standard methods for end point analysis is that they each assume that a treatment exerts an effect in only 1 direction across all health state transitions, either explicitly (shift analysis) or implicitly (fixed and sliding dichotomy analysis). When this assumption is invalid, none of these analytic approaches will provide a fully informative delineation of treatment impact. A competing win–lose dichotomy analysis can be useful when benefit tends to cluster at 1 health state transition and harm clusters at another. For example, in later time windows beyond 4.5 hours, intravenous thrombolysis may improve the rate of excellent outcomes and also may increase severe disability and death. A dichotomized analysis at an excellent outcome transition (eg, mRS 1-0 or mRS 2-1) can capture the benefit and a separate dichotomized analysis at a poor outcome transition (eg, mRS 4-5 or mortality) can capture the harm. Presenting both competing effects simultaneously to the patient and provider can support an informed decision based on patient and clinician risk-taking preferences.24 It is important that the competing outcomes be independent. An incorrect, but unfortunately common, practice in presenting the effects of thrombolytics is to state benefit using a comprehensive final functional outcome scale but to state harm in terms of symptomatic hemorrhage. Because the effects of hemorrhage are already captured and summarized (together with the effects of reperfusion) in the functional outcome, it can be misleading to report this as a separate outcome.25 When treatment effects are unidirectional, considerations of efficiency and interpretability favor full ordinal analysis; accordingly, analysis over ranks should generally be the preferred analytic approach in acute stroke trials (Table 2). Sliding dichotomy is less preferred and fixed dichotomy is Saver least preferred; both should be reserved for exceptional circumstances in which the treatment effect is confidently expected to be clustered at a single or a few health state transitions. At all times for decision-making in practice at the bedside, when outcome distributions are compatible with unidirectional treatment effects, number needed to treat values based on full ordinal analysis are preferable over dichotomized and oligotochotomized approaches. Accounting for Baseline Heterogeneity and Improving End Point Measurement Precision Downloaded from http://stroke.ahajournals.org/ by guest on July 11, 2017 Additional important statistical design steps to consider in end point analysis in acute stroke trials are accounting for baseline patient heterogeneity and improving precision of end point assessment. Several patient characteristics exert strong prognostic effects on patient outcome after acute stroke. In acute cerebral ischemia, patient age and initial stroke deficit severity are the 2 most important clinical prognostic factors and ischemic lesion volume and presence and site of large artery occlusion are the 2 most important and readily available imaging prognostic factors, but many others play a role26 –29 The influence of the leading prognostic factors on outcome typically exceeds the influence of the treatment effect acute stroke trials seek to detect. Analyses that fail to adjust for baseline patient heterogeneity have several vulnerabilities, including reduced power to detect treatment effects (typically by 10%–30%),30,31 underestimation of the magnitude of the true treatment effect when using nonlinear effect measures such as odds ratios (because of noncollapsability of withinstrata effects),32 and false-positive/false-negative results if confounding prognostic variables are imbalanced across treatment arms.26 Consequently, acute stroke is a condition for which statistical adjustment for baseline differences in prognostic variables almost always should be performed in the primary trial analysis. Unadjusted analyses are desirable as secondary analyses to probe the robustness of the signal detected, but they are less reliable than adjusted analyses. The ordinal scales used in end point assessment in acute stroke trials typically have moderate inter-rater reliability. Nonetheless, any 1 scale administered at 1 time by 1 rater is somewhat imprecise because of residual inter-rater variation, patient variation in function over time, and variation in the intrinsic accuracy of different scales at different score levels. Imprecision in measurement of the primary end point introduces noise that reduces study power. Validated techniques to reduce inter-rater reliability in assessment of functional outcomes include the use of structured interviews, certified training programs, and central raters.10,11,33 Repeating measures over time can also be useful, allowing several assessments of the target outcome state rather than just 1.34 An additional approach that has proved helpful in selected stroke trials is to measure the target outcome with several similar scales and statistically combine the measures using a generalized estimating equation. Although theoretically conceived as mapping different dimensions of outcome, measures of neurological deficit (eg, the NIHSS), activities of daily living (eg, the Barthel Index), and global disability (eg, the mRS and the Glasgow Outcome Scale) are all strongly Optimal End Points for Acute Stroke Trials 2361 correlated with one another, indicating they can also be conceived of as mapping a single latent trait, which has been termed stroke recovery. When these scales are assessed at the same visit, the precision of measurement of the latent trait of stroke recovery is increased over measurement with just 1 scale. However, the increase in study power provided by the generalized estimating equation comes with a cost in result interpretability. The latent variable being assessed, eg, favorable recovery, is not fully measured on any individual scale. As a result, regulatory agencies often discourage use of the generalized estimating equation in primary end point analysis of a pivotal trial. The cumulative benefits of increased study power are substantial for the 3 key statistical strategies reviewed: use all the outcome information in an ordinal scale; adjust for baseline prognostic heterogeneity; and simultaneously incorporate information from multiple recovery scales. Each alone will increase study power compared with unadjusted analysis of crude dichotomy on a single scale. However, these techniques are not mutually exclusive and can be combined in pairs or all together. In an analysis of a model treatment effect applied to placebo data from the pooled citicoline trial dataset, when all 3 techniques were used concurrently, study power increased 3- to 6-fold. When full shift analysis and baseline prognosis adjustment were used, leaving out generalized estimating to heighten result interpretability, study power increased 2- to 5-fold.35 Conclusions In the past decade, several major advances occurred in end point analysis of acute stroke trials. Investigators can now knowledgeably select outcome scales that are valid, reliable, and responsive, like the mRS, and analytic techniques that are efficient and interpretable, like full ordinal analysis and sliding dichotomy analysis, to optimize study design and maximize chances of success in finding new treatments for the leading cause of combined death and disability worldwide. Sources of Funding This study was sponsored in part by NIH-NINDS Awards U01 NS 44364 and P50 NS044378 and an American Heart Association Pharmacy Roundtable Health Outcomes Research Center Award. Disclosures The University of California Regents receive funding for Dr Saver’s services as a scientific consultant regarding trial design and conduct to BrainsGate, CoAxia, ev3, Talecris, PhotoThera, and Sygnis (all modest). Dr Saver is an investigator in the NIH FAST-MAG, MR RESCUE, ICES, CUFFS, CLEAR-ER, and IMS 3 multicenter clinical trials, for which the UC Regents receive payments based on clinical trial performance. He has served as an unpaid site investigator in a multicenter trials performed by Lundbeck and Mitsubishi, for which the UC Regents received payments based on the clinical trial contracts for the number of subjects enrolled. He is a site investigator in a multicenter registry performed by Concentric, for which the UC Regents received payments based on the clinical trial contracts for the number of subjects enrolled. He is an employee of the University of California, which holds a patent on retriever devices for stroke. He is funded by NIH-NINDS Awards P50 NS044378 and U01 NS 44364. 2362 Stroke August 2011 References Downloaded from http://stroke.ahajournals.org/ by guest on July 11, 2017 1. Hong KS, Lee SJ, Hao Q, Liebeskind DS, Saver JL. Acute stroke trials in the 1st decade of the 21th century. Stroke. 2011;42:e314. 2. Fisher M, Albers GW, Donnan GA, Furlan AJ, Grotta JC, Kidwell CS, et al. Enhancing the development and approval of acute stroke therapies: Stroke Therapy Academic Industry roundtable. Stroke. 2005;36: 1808 –1813. 3. Higashida RT, Furlan AJ, Roberts H, Tomsick T, Connors B, Barr J, et al. Trial design and reporting standards for intra-arterial cerebral thrombolysis for acute ischemic stroke. Stroke. 2003;34:e109 – e137. 4. Optimising Analysis of Stroke Trials Collaboration. Calculation of sample size for stroke trials assessing functional outcome: comparison of binary and ordinal approaches. Int J Stroke 2008;3:78 – 84. 5. Rha JH, Saver JL. The impact of recanalization on ischemic stroke outcome: a meta-analysis. Stroke. 2007;38:967–973. 6. Mayer SA, Brun NC, Begtrup K, Broderick J, Davis S, Diringer MN, et al. Efficacy and safety of recombinant activated factor VII for acute intracerebral hemorrhage. N Engl J Med. 2008;358:2127–2137. 7. Quinn TJ, Dawson J, Walters MR, Lees KR. Functional outcome measures in contemporary stroke trials. Int J Stroke. 2009;4:200 –205. 8. World Health Organization. The international classification of impairments, disabilities and handicaps. Geneva, Switzerland: World Health Organization; 1980. 9. Barclay-Goddard R, Epstein JD, Mayo NE. Response shift: a brief overview and proposed research priorities. Qual Life Res. 2009;18: 335–346. 10. Saver JL, Filip B, Hamilton S, Yanes A, Craig S, Cho M, et al. Improving the reliability of stroke disability grading in clinical trials and clinical practice: the Rankin Focused Assessment (RFA). Stroke. 2010;41: 992–995. 11. Quinn TJ, Lees KR, Hardemark HG, Dawson J, Walters MR. Initial experience of a digital training resource for modified Rankin scale assessment in clinical trials. Stroke. 2007;38:2257–2261. 12. Weisscher N, Vermeulen M, Roos YB, de Haan RJ. What should be defined as good outcome in stroke trials; a modified Rankin score of 0 –1 or 0 –2? J Neurol. 2008;255:867– 874. 13. Samsa GP, Matchar DB, Goldstein L, Bonito A, Duncan PW, Lipscomb J, et al. Utilities for major stroke: results from a survey of preferences among persons at increased risk for stroke. Am Heart J. 1998;136: 703–713. 14. Hong KS, Saver JL. Quantifying the value of stroke disability outcomes: WHO global burden of disease project disability weights for each level of the modified Rankin Scale. Stroke. 2009;40:3828 –3833. 15. Kidwell CS, Liebeskind DS, Starkman S, Saver JL. Trends in acute ischemic stroke trials through the 20th century. Stroke. 2001;32: 1349 –1359. 16. Altman DG, Royston P. The cost of dichotomising continuous variables. BMJ. 2006;332:1080. 17. Fedorov V, Mannino F, Zhang R. Consequences of dichotomization. Pharm Stat. 2009;8:50 – 61. 18. Saver JL, Gornbein J. Treatment effects for which shift or binary analyses are advantageous in acute stroke trials. Neurology. 2009;72:1310 –1315. 19. Optimising Analysis of Stroke Trials (OAST) Collaboration, Bath PM, Gray LJ, Collier T, Pocock S, Carpenter J. Can we improve the statistical 20. 21. 22. 23. 24. 25. 26. 27. 28. 29. 30. 31. 32. 33. 34. 35. analysis of stroke trials? Statistical reanalysis of functional outcomes in stroke trials. Stroke. 2007;38:1911–1915. McHugh GS, Butcher I, Steyerberg EW, Marmarou A, Lu J, Lingsma HF, et al. A simulation study evaluating approaches to the analysis of ordinal outcome data in randomized controlled trials in traumatic brain injury: results from the IMPACT Project. Clin Trials. 2010;7:44 –57. Gadhia J, Starkman S, Ovbiagele B, Ali L, Liebeskind D, Saver JL. Assessment and improvement of figures to visually convey benefit and risk of stroke thrombolysis. Stroke. 2010;41:300 –306. Lansberg MG, Schrooten M, Bluhmki E, Thijs VN, Saver JL. Treatment time-specific number needed to treat estimates for tissue plasminogen activator therapy in acute stroke based on shifts over the entire range of the modified Rankin Scale. Stroke. 2009;40:2079 –2084. Saver JL, Yafeh B. Confirmation of tPA treatment effect by baseline severity-adjusted end point reanalysis of the NINDS-tPA stroke trials. Stroke. 2007;38:414 – 416. Kent DM, Selker HP, Ruthazer R, Bluhmki E, Hacke W. Can multivariable risk-benefit profiling be used to select treatment-favorable patients for thrombolysis in stroke in the 3- to 6-hour time window? Stroke. 2006;37:2963–2969. Saver JL. Hemorrhage after thrombolytic therapy for stroke: the clinically relevant number needed to harm. Stroke. 2007;38:2279 –2283. Mandava P, Kent TA. A method to determine stroke trial success using multidimensional pooled control functions. Stroke. 2009;40:1803–1810. König IR, Ziegler A, Bluhmki E, Hacke W, Bath PM, Sacco RL, et al. Predicting long-term outcome after acute ischemic stroke: a simple index works in patients from controlled clinical trials. Stroke. 2008;39: 1821–1826. Johnston KC, Wagner DP, Wang XQ, Newman GC, Thijs V, Sen S, et al. Validation of an acute ischemic stroke model: does diffusion-weighted imaging lesion volume offer a clinically significant improvement in prediction of outcome? Stroke. 2007;38:1820 –1825. Qureshi AI. New grading system for angiographic evaluation of arterial occlusions and recanalization response to intra-arterial thrombolysis in acute ischemic stroke. Neurosurgery. 2002;50:1405–1414; discussion 1414 –1415. Optimising the Analysis of Stroke Trials (OAST) Collaboration, Gray LJ, Bath PM, Collier T. Should stroke trials adjust functional outcome for baseline prognostic factors? Stroke. 2009;40:888 – 894. Hernández AV, Steyerberg EW, Habbema JD. Covariate adjustment in randomized controlled trials with dichotomous outcomes increases statistical power and reduces sample size requirements. J Clin Epidemiol. 2004;57:454 – 460. Kent DM, Trikalinos TA, Hill MD. Are unadjusted analyses of clinical trials inappropriately biased toward the null? Stroke. 2009;40:672– 673. Lyden P, Raman R, Liu L, Emr M, Warren M, Marler J. National Institutes of Health Stroke Scale certification is reliable across multiple venues. Stroke. 2009;40:2507–2511. Li N, Elashoff RM, Li G, Saver J. Joint modeling of longitudinal ordinal data and competing risks survival times and analysis of the NINDS rt-PA stroke trial. Stat Med. 2010;29:546 –557. Torres JV, Cortes J, González JA, Sanchez JA, Secades J, Cobo E. . Stroke clinical trials efficiency can be improved. International Society for Clinical Biostatistics 31st Annual Meeting. Montpellier, France. September 2010. Optimal End Points for Acute Stroke Therapy Trials: Best Ways to Measure Treatment Effects of Drugs and Devices Jeffrey L. Saver Downloaded from http://stroke.ahajournals.org/ by guest on July 11, 2017 Stroke. 2011;42:2356-2362; originally published online June 30, 2011; doi: 10.1161/STROKEAHA.111.619122 Stroke is published by the American Heart Association, 7272 Greenville Avenue, Dallas, TX 75231 Copyright © 2011 American Heart Association, Inc. All rights reserved. Print ISSN: 0039-2499. Online ISSN: 1524-4628 The online version of this article, along with updated information and services, is located on the World Wide Web at: http://stroke.ahajournals.org/content/42/8/2356 An erratum has been published regarding this article. Please see the attached page for: /content/42/11/e634.full.pdf Data Supplement (unedited) at: http://stroke.ahajournals.org/content/suppl/2013/10/17/STROKEAHA.111.619122.DC1 Permissions: Requests for permissions to reproduce figures, tables, or portions of articles originally published in Stroke can be obtained via RightsLink, a service of the Copyright Clearance Center, not the Editorial Office. Once the online version of the published article for which permission is being requested is located, click Request Permissions in the middle column of the Web page under Services. Further information about this process is available in the Permissions and Rights Question and Answer document. Reprints: Information about reprints can be found online at: http://www.lww.com/reprints Subscriptions: Information about subscribing to Stroke is online at: http://stroke.ahajournals.org//subscriptions/ Correction In the article by Saver, “Optimal End Points for Acute Stroke Therapy Trials: Best Ways to Measure Treatment Effects of Drugs and Devices,” which published ahead of print on June 30, 2011, and printed in the August 2011 issue of the journal (Stroke. 2011;42:2356 –2362), Table 1 was incorrectly titled. The correct title for Table 1 is: Underestimation of Treatment Benefits by Fixed Dichotomy Analysis. This correction will be made to the print version and the online version of the article. (Stroke. 2011;42:e634.) © 2011 American Heart Association, Inc. Stroke is available at http://stroke.ahajournals.org DOI: 10.1161/STR.0b013e3182309334 e634 Revisión de los progresos Variables de valoración óptimas para los ensayos del tratamiento del ictus agudo Los métodos más adecuados para medir los efectos terapéuticos de fármacos y dispositivos Jeffrey L. Saver, MD Antecedentes y objetivo—A lo largo de la pasada década, el análisis de los ensayos finalizados, los estudios de poblaciones modelo y el trabajo teórico han permitido mejorar la forma de elegir y analizar las variables de valoración en los ensayos de tratamiento del ictus agudo. Métodos—Revisión descriptiva. Resultados—Dado que el ictus afecta a las personas en sus dimensiones biológica, funcional, social y de experiencia, es deseable utilizar medidas de deterioro, discapacidad, handicap y calidad de vida en los ensayos realizados con fines de registro; y las de la discapacidad son las más importantes. Se prefiere el empleo de escalas que sean válidas, fiables, sensibles y fáciles de administrar; esto ha hecho que la escala de Rankin modificada haya pasado a ser la medida de eficacia clínica más ampliamente utilizada. Dado que el ictus causa invalidez y muerte, la mayor parte de las escalas de valoración del resultado clínico distribuyen la evolución de los pacientes en un rango ordenado, que abarca todo el espectro desde el estado normal hasta la discapacidad y la muerte. En general, el análisis de desplazamiento (shift analysis), evaluando todas las transiciones de estados de salud de forma simultánea, constituye la técnica de análisis más eficiente para detectar los efectos del tratamiento, mientras que la dicotomía corrediza (sliding dichotomy) tiene una eficiencia menor y la dicotomía fija es la menos eficiente, a no ser que los efectos del tratamiento muestren una intensa agrupación en 1 o unas pocas transiciones de estados de salud que pueden preespecificarse. Los parámetros estadísticos deben tener en cuenta también la interpretabilidad, es decir, la medida en la que pueden ser convertidos en medidas métricas que capturen todos los resultados que la intervención podría modificar en proporción al grado en el que son valorados por el paciente; el análisis ordinal pleno es el más informativo, mientras que la dicotomía corrediza tiene un valor informativo intermedio y la dicotomía fija es la técnica menos informativa respecto a este resultado global. Conclusiones—La potencia estadística y la interpretación de los ensayos realizados en el ictus pueden potenciarse considerablemente con la adherencia a los principios que se describen en esta revisión. El análisis ordinal pleno y el de dicotomía corrediza serán ventajosos la mayor parte de las veces, en comparación con los métodos de dicotomía fija. (Traducido del inglés: Optimal End Points for Acute Stroke Therapy Trials. Best Ways to Measure Treatment Effects of Drugs and Devices. Stroke. 2011;42:2356-2362.) Palabras clave: acute cerebral Q acute cerebral infarction Q acute stroke syndromes Q emergency treatment Q neuroprotectors Q thrombolysis L os autores de ensayos clínicos en el ictus agudo han realizado importantes trabajos en la primera década del siglo XXI. Más de 125 ensayos realizados en el ictus agudo han aportado un respaldo definitivo a 3 avances terapéuticos (activador de plasminógeno de tipo tisular por vía intravenosa en la ventana temporal de las primeras 3 a 4,5 horas, hemicraniectomía para el infarto maligno, e implantación de coils [espirales] para la hemorragia subaracnoidea aneurismática)1. Igualmente importante es el hecho de que estos ensayos y el trabajo teórico que los acompaña hayan perfeccionado los métodos para optimizar el diseño de ensayos en el ictus agudo, sentando las bases para un avance aún más rápido en la próxima década. En esta revisión descriptiva se examinan varias enseñanzas importantes que hemos obtenido en cuanto a la mejor forma de elegir las variables de valoración para los ensayos clínicos en el ictus agudo y de analizar estadísticamente la evidencia obtenida respecto al efecto beneficioso, utilizando siempre que sea posible los enfoques recomendados por grupos de establecimiento de consenso2–4. Elección de las variables de valoración a medir En todos los ensayos clínicos en los que se someta a personas a una intervención experimental, las variables de valoración de la seguridad constituyen parámetros de medición clave. Recibido el 21 de marzo de 2011; aceptado el 10 de mayo de 2011. Stroke Center and Department of Neurology, David Geffen School of Medicine, University of California Los Angeles, Los Angeles, CA. Remitir la correspondencia a Jeffrey L. Saver, MD, UCLA Stroke Center, 710 Westwood Plaza, Los Angeles, CA 90095. Correo electrónico [email protected] © 2011 American Heart Association, Inc. Stroke está disponible en http://www.stroke.ahajournals.org DOI: 10.1161/STROKEAHA.110.619122 128 Saver Variables de valoración óptimas para los ensayos del tratamiento del ictus agudo 129 NIHSS Índice de Barthel Escala de Rankin Figura 1. Puntuaciones finales del resultado a los 90 días en los 2 ensayos del activador de plasminógeno de tipo tisular del NINDS. Tanto la escala NIHSS como el Índice de Barthel muestran una distribución en forma de U, marcadamente asimétrica, poco favorable para la potencia estadística y la interpretación clínica. El Índice de Barthel muestra también un intenso efecto techo. En cambio, la escala de Rankin modificada distribuye grupos sustanciales de pacientes en todos los rangos de ordenación jerárquicos, lo cual permite un análisis y una interpretación más robustos. Las variables de valoración de la seguridad universales en los diversos ensayos clínicos son la mortalidad por todas las causas y los acontecimientos adversos graves. Otras variables de valoración adicionales de la seguridad en los ensayos del ictus agudo deben evaluar específicamente los acontecimientos adversos que se prevén en función de los mecanismos de acción de los fármacos o los dispositivos. Como ejemplos cabe citar los siguientes: inclusión de la transformación hemorrágica en los tratamientos de reperfusión en la isquemia cerebral aguda; los episodios tromboembólicos cuando se trata de agentes protrombóticos en la hemorragia intracerebral y subaracnoidea; y las complicaciones del acceso femoral en los ensayos de dispositivos percutáneos. La fase del ensayo clínico es un factor determinante clave de las variables de valoración de la eficacia que deben elegirse como resultados principales en los ensayos del ictus agudo. En los ensayos de fármacos, los estudios de las fases iniciales se centrarán en la farmacocinética. Los ensayos de fármacos correspondientes a una fase media y los de dispositivos en una fase inicial pretenden explorar y optimizar rápidamente la posología del fármaco o el diseño y uso del dispositivo, con objeto de elegir el enfoque más prometedor para pasar a los ensayos fundamentales con fines de registro (pivotal). Si los hay, los biomarcadores que reflejan directamente el efecto del tratamiento constituyen la mejor variable de valoración primaria para los ensayos de fases medias, puesto que habitualmente tienen menos factores de confusión y, por consiguiente, hay menos ruido que con las variables de valoración clínicas, y por consiguiente son más informativos para un perfeccionamiento rápido del tratamiento. Los biomarcadores útiles como variables de valoración primarias para los ensayos de fases medias incluyen los siguientes: para la reperfusión farmacológica, los signos de reperfusión temprana en Doppler transcraneal, TC o RM; para la reperfusión con dispositivos, las escalas de reperfusión angiográfica como las escalas Thrombolysis in Cerebral Infarction and Arterial Occlusive Lesion; para la neuroprotección, el salvamento de tejido de penumbra identificado mediante técnicas de imagen de RM o TC multimodales; y para los tratamientos médicos y quirúrgicos para la hemorragia intracerebral, la reducción del crecimiento del hematoma o el volumen del hematoma en la TC o la RM. Algunos de estos marcadores, como las escalas de reperfusión, han sido adecuadamente validados en múltiples estudios5, mientras que en otros, como la reducción del crecimiento del hematoma, no se ha confirmado todavía que sean predictores válidos de la respuesta clínica6. Si no se dispone de ningún biomarcador que esté claramente ligado al mecanismo de acción del tratamiento y que tenga menos variabilidad que las variables de valoración clínicas, deben usarse parámetros clínicos en los ensayos de fases medias, aplicando técnicas de análisis que maximicen la detección de las señales de una posible eficacia más que la interpretabilidad clínica. Los ensayos fundamentales con fines de registro deben determinar si la intervención modifica la evolución clínica final del paciente de forma favorable o desfavorable. Los parámetros propuestos para evaluar el resultado clínico en el ictus agudo son legión; en los ensayos recientes se han usado más de 45 parámetros de valoración diferentes7. Al tratarse de una enfermedad neurológica, el ictus modifica los dominios clave de la conducta humana, como las funciones del lenguaje, espacial, ejecutiva, afectiva, motora y visual. En los ensayos de rehabilitación aguda, centrados en intervenciones para dominios específicos, los parámetros de valoración limitados a 1 o unos pocos de estos dominios son instrumentos de medida principales adecuados. Sin embargo, para la mayor parte de las intervenciones agudas, centradas en la mejora de los resultados en todos los dominios, son necesarias medidas más globales. La Organización Mundial de la Salud estableció un marco de referencia útil para conceptualizar los dominios de evaluación en los ensayos clínicos, dividiendo las dimensiones de la salud en deterioros, discapacidades y handicaps8. Un marco de referencia más reciente de la Organización Mundial de la Salud es más complejo y está mejor adaptado a la política social y la planificación sanitaria poblacional, pero no es tan útil para los ensayos controlados y aleatorizados, en los que el centro de interés fundamental es el resultado obtenido en el paciente individual. El deterioro es la pérdida o anomalía de una función anatómica, fisiológica o psicológica. La discapacidad es una limitación, causada por el deterioro, en la capacidad de realizar una actividad de una forma normal. El handicap es una desventaja que padece un individuo como resultado de un deterioro o una discapacidad que limitan el desempeño de un rol sociocultural. El marco de referencia objetivo de la Organización Mundial de la Salud es complementado de forma útil por las variables de valoración evaluadas por el propio paciente. Como todas las enfermedades, 130 Stroke Noviembre 2011 el ictus afecta a las personas en sus dimensiones biológica, funcional, social y de experiencia; por consiguiente, para capturar todos los aspectos cualitativos importantes del resultado del tratamiento, los ensayos clínicos fundamentales de registro deben contemplar el uso de medidas del deterioro, la discapacidad, el handicap y la calidad de vida. De entre estas dimensiones de la salud, la más importante en los ensayos controlados y aleatorizados en el ictus agudo es la discapacidad. La capacidad de realizar actividades relacionadas con el autocuidado, el trabajo y el disfrute es de una importancia indudable para los pacientes, los profesionales de la salud y la sociedad. En cambio, los deterioros que no comprometen la capacidad funcional del paciente tienen menor trascendencia, los handicaps se ven muy influidos por factores culturales y sociales que quedan fuera del ámbito de lo que pueden modificar los tratamientos médicos, y los parámetros de calidad de vida evaluados por el paciente se ven afectados por factores de confusión derivados de problemas epistemológicos fundamentales. En todas las enfermedades, la capacidad humana de adaptación psicológica modifica los resultados descritos por los pacientes a lo largo del tiempo (ajuste al sesgo de enfermedad). En el ictus, al cabo de 6 meses, entre el 28% y el 78% de los individuos muestran un cambio de la respuesta que no está relacionado con las consecuencias que el ictus sufrido tiene sobre su función9. Una dificultad distintiva de las enfermedades neurológicas es que modifican directamente el cerebro que es el responsable de notificar los resultados evaluados por el paciente. La afasia, la anosognosia y el sesgo de valencia emocional hemisférica pueden hacer que no se disponga de una evaluación realizada por el paciente o que ésta no sea fiable. Las propiedades clave que son deseables para una escala de valoración son la validez (coincidencia entre el valor indicado por la medición y el valor real), la fiabilidad (reproducibilidad de una medición) y la sensibilidad al cambio (capacidad de respuesta). Las medidas de la discapacidad incluyen escalas de valoración global, como la escala de Rankin modificada (mRS, modified Rankin Scale) y la Glasgow Outcome Scale, así como escalas de la vida diaria, como el Índice de Barthel y la medida de la independencia funcional Functional Independence Measure. De entre las escalas globales, se prefiere la mRS a la Glasgow Outcome Scale debido a su mayor sensibilidad al cambio (más niveles) y a la disponibilidad de evaluaciones estructuradas y programas de certificación que mejoran su fiabilidad10,11. Estas propiedades deseables han hecho que la mRS sea la variable de valoración más comúnmente utilizada en los ensayos del ictus agudo7. De entre las escalas de actividades de la vida diaria, el Índice de Barthel no es adecuado generalmente como único parámetro de valoración primario, dados sus efectos de techo y suelo pronunciados (Figura 1). La Functional Independence Measure tiene una sensibilidad al cambio superior a la de las escalas globales y plantea menos problemas de efectos de techo que el Índice de Barthel, pero su aplicación es laboriosa. Una innovación reciente en las escalas de evaluación de la discapacidad son los bancos de ítems ordenados según la teoría de respuesta de ítems. Ello permite puntuar la discapacidad de un paciente en una escala lineal continua con el empleo de un número modesto de preguntas, con lo que puede incre- mentarse la sensibilidad al cambio al tiempo que se reduce al mínimo la carga que representa la medición12. Es posible que los bancos de ítems desempeñen un papel más importante en futuros ensayos del ictus. Otra dificultad que presentan las escalas de valoración del resultado en los ensayos del ictus es que algunos pacientes y médicos consideran que los estados de discapacidad grave (por ejemplo, el estado vegetativo persistente) son peores, y no mejores, que la muerte, poniendo en duda con ello el supuesto común aceptado para la elaboración e interpretación de las escalas de valoración en cuanto a que la muerte es el peor estado de salud posible. Así pues, a menudo la mejor forma de analizar la mRS es combinando los niveles de 5 (discapacidad grave) y 6 (muerte) en una sola categoría correspondiente al peor resultado13. Todos los demás niveles de la mRS están ordenados monotónicamente de manera adecuada, y cada uno de ellos está a una distancia clínicamente apreciable de los valores adyacentes en una medida continua de ponderación de la discapacidad, aun cuando estas distancias no sean uniformes14. Además de estas medidas funcionales clave del resultado, las medidas económicas pueden ser variables de valoración útiles en los ensayos fundamentales de registro. El coste de cada año de vida ajustado por calidad o discapacidad ganado aporta datos importantes para las decisiones de política sanitaria. Métodos estadísticos para analizar la variable de valoración primaria Dado que el ictus es un trastorno que causa invalidez y muerte, los resultados finales de estados de salud en los ensayos del ictus agudo están dispuestos en un espectro de discapacidad/deterioro/handicap. Por consiguiente, en los ensayos del tratamiento agudo, las variables de valoración primarias son intrínsecamente no binarias y lo más frecuente es que consistan en escalas ordinales que distribuyen a los pacientes en rangos de ordenación de deseabilidad ascendente/descendente. En consecuencia, la primera decisión a tomar en el análisis estadístico de un ensayo del ictus agudo es la forma de manejar el carácter ordinal (multirango) de la variable de valoración primaria, es decir, si elegir una prueba estadística que refleje todas las transiciones de estados de salud capturadas en la variable de valoración primaria, algunas de las transiciones o tan solo 1 de ellas. Al análisis de las escalas ordinales de forma simultánea para el beneficio observado en múltiples transiciones de estados de salud se la ha denominado análisis de desplazamiento o análisis por rangos (analysis over ranks). Existen múltiples pruebas estadísticas apropiadas para el análisis de desplazamiento, incluida la suma de rangos de Wilcoxon, la prueba de Cochran Mantel-Haenszel y la regresión logística ordenada. Algunas de ellas requieren que las distribuciones de datos se comporten de una forma ordenada estricta y otras son menos restrictivas. El análisis de escalas ordinales en tan solo 1 estado de transición requiere una dicotomización de la escala en una única puntuación umbral, lo cual la convierte en una medida del resultado binaria de bueno-malo y descarta el resto de información sobre el resultado. Los enfoques intermedios consisten en utilizar Saver Variables de valoración óptimas para los ensayos del tratamiento del ictus agudo 131 Dicotomizado 0-2 (valor de p) Dicotomizado 0-4 (valor de p) Momento de inclusión NINDS 1+2 1h 30m 67 17 0,02 0,10 0,31 Pro-UK i.a. < 6h PROACT 2 4h 54m 64 17 0,16 0,04 0,99 23h 30m 46 22 0,99 0,12 <0,001 TPA i.v. < 3h Hemicraniectomía D/DH Edad NIHSS Dicotomizado 0-1 (valor de p) Ensayo(s) Figura 2. Agrupación del efecto del tratamiento en diferentes transiciones de estados de salud de la escala de Rankin modificada, en función del momento del tratamiento, el pronóstico basal y el tipo de intervención aguda en el ictus. En las filas se muestran los análisis clave de 3 tratamientos para el ictus isquémico agudo. Las 3 últimas columnas presentan los valores de p que indican la presencia o ausencia de efectos del tratamiento en las dicotomizaciones de excelente (mRS 0-1), bueno (mRS 0-2) y regular (mRS 0-4) de la escala de Rankin modificada. Las casillas con valores de p < 0,05 se indican en verde, las de 0,06 a 0,20 en amarillo y las de > 0,20 en rojo. Todos los tratamientos estudiados (recanalización intravenosa, recanalización intraarterial y hemicraniectomía) ejercen unos efectos biológicos potentes, de manera que cabe prever que los efectos del tratamiento estén agrupados más que distribuidos. En los 2 ensayos del NINDS en los que se evaluó un tratamiento hiperagudo en pacientes con estados de salud moderadamente graves, la dicotomización respecto al resultado excelente es la más eficiente. En el ensayo PROACT 2 en el que se evaluó un tratamiento temprano pero no hiperagudo, en pacientes con estados de salud más grave, la dicotomización respecto a un resultado bueno es la más eficiente. En los ensayos de la hemicraniectomía, en los que se evaluó un tratamiento tardío en pacientes con estados de salud extremadamente graves, la dicotomización respecto a un resultado regular es la más eficiente. (Los valores del tiempo hasta la inclusión corresponden a medianas o medias.) una dicotomía corrediza (análisis de respondedores [responder analysis]) o en reducir el número de niveles de la escala, por ejemplo de 7 a 3 (tricotomización) o a 4 (tetracotomización). Todos estos enfoques se han utilizado en ensayos importantes de fase 3 en el ictus: análisis policotómico (de desviación) (por ejemplo, SAINT, ENOS, FAST-MAG), análisis oligocotómico (por ejemplo, GAIN), análisis de respondedores (por ejemplo, AbESTT 2, PAIS, STICH), y análisis dicotómico (por ejemplo, IST, PROACT 2, ECASS 3). Las 2 consideraciones clave para la elección de las técnicas estadísticas con las que analizar la variable de valoración primaria en cualquiera ensayo controlado son la eficiencia y la interpretabilidad. Se entiende por eficiencia la capacidad de una prueba de detectar una diferencia entre los tratamientos cuando esa diferencia existe realmente. Las pruebas más eficientes permiten que los ensayos detecten diferencias reales entre los tratamientos utilizando tamaños muestrales más pequeños. La interpretabilidad hace referencia a si la prueba está evaluando una diferencia que sea clínicamente intuitiva y clínicamente importante. Eficiencia estadística Los ensayos del ictus agudo son especialmente costosos y difíciles de realizar. La enfermedad afecta al paciente de forma inesperada, priva al individuo de la capacidad de dar su consentimiento para participar en la investigación, y el tratamiento más eficaz para ella es el que se aplica en los primeros minutos o a las pocas horas del inicio. Los centros que son capaces de reclutar un número elevado de pacientes en la ventana temporal inicial son pocos, y el número de pacientes incluidos en ensayos multicéntricos del ictus agudo en todo el mundo es en la actualidad inferior a 5000 al año1. El porcentaje de éxitos en los ensayos del ictus agudo es muy bajo; < 2% de los fármacos que llegan a la fase de prueba en el ser humano llegan a alcanzar la autorización de las autoridades reguladoras1,15. Por estas razones, es crucial evitar el uso de pruebas estadísticas poco eficientes que hacen que los ensa- yos tengan una potencia estadística insuficiente para detectar unos efectos del tratamiento moderados, pero clínicamente útiles. La prueba estadística más eficiente para un determinado ensayo en el ictus agudo varía en función de la forma prevista del efecto del tratamiento en la población estudiada. Cuando el tratamiento mejore las variables de valoración en varias transiciones de estados de salud, la prueba que muestra todos los rangos de origen detectará la señal de eficacia presente en cada una de las transiciones, mientras que un análisis dicotomizado detectará la señal de eficacia presente tan solo en 1 rango de ordenación. Dado que el análisis dicotomizado no detectará gran parte de la señal de eficacia, será más potente un análisis de desplazamiento. Desechar parte de la información sobre el resultado al reducir una variable continua a una binaria comporta generalmente una disminución de la potencia estadística de un estudio en al menos una tercera parte o más16,17. En cambio, cuando el efecto beneficioso de un tratamiento se agrupa en una sola transición de estados de salud, las pruebas que muestrean todos los rangos de ordenación malgastarán parte de la potencia buscando señales de eficacia en transiciones de estados de salud en las que no las hay. En este contexto, un análisis dicotomizado preespecificado para centrarlo en la transición de estado de salud en la que se agrupa el efecto beneficioso será más potente que un análisis de desplazamiento, pero un análisis dicotomizado preespecificado para centrarlo en una transición de estados de salud en la que no haya una agrupación del efecto beneficioso será menos potente que un análisis de desplazamiento18. El análisis de modelos y de ensayos clínicos reales en el ictus agudo ha permitido aclarar cuándo debe elegirse un análisis de desplazamiento o un análisis dicotomizado para un ensayo concreto. Lo más frecuente es que los tratamientos con un efecto beneficioso aporten una mejora en la variable de valoración, al menos de un grado modesto, en múltiples transiciones de estados de salud simultáneamente, y el análisis de desplazamiento es una técnica más potente que el aná- 132 Stroke Noviembre 2011 Tabla 1. Infravaloración de los efectos beneficiosos del tratamiento en el análisis de dicotomía fija Tratamiento tPA i.v. < 3 h Beneficio por Proporción de Beneficio por 100 según la beneficio no 100 según el dicotomización detectado análisis de de 0–2 frente mediante el a 3–6 análisis Ensayo desplazamiento dicotomizado (%) NINDS 1y2 29 12 59 tPA i.v. 3– 4,5 h ECASS 3 14 5 36 pro-UK i.a. < 6 h PROACT 2 17 15 14 ISAT 17 7 59 Análisis combinado 46 5 88 Coiling in HSA Hemicraniectomía Tabla 2. Fortalezas y debilidades de las estrategias de análisis para variables de valoración de escala ordinal Dicotomía Dicotomía fija corrediza Análisis ordinal pleno Potencia Apropiado para una población de ensayo amplia Supuesto de efecto consistente Independiente del calibrado Facilidad de cálculo de NNT parcial El beneficio por 100 indica el número de pacientes que obtienen un efecto beneficioso por cada 100 pacientes tratados. i.a. indica intraarterial; i.v., intravenoso; pro-UK, pro-uroquinasa; HSA, hemorragia subaracnoidea; tPA, activador de plasminógeno de tipo tisular. lisis dicotomizado4,18,19. La Optimizing Acute Stroke Trials Collaboration analizó 47 ensayos en los que se evaluaron tratamientos con un probable efecto beneficioso o nocivo biológico y observó que el análisis de desplazamiento fue positivo en el 26%, mientras que el análisis dicotomizado lo fue tan solo en el 9%19. Sin embargo, en determinados contextos, los efectos del tratamiento sí muestran una agrupación. Hay tres variables clave que determinan si se va a producir una agrupación de los resultados y en dónde: tiempo desde el inicio hasta el tratamiento, gravedad del déficit en el momento del tratamiento y tipo de tratamiento utilizado (Figura 2). En el ictus isquémico agudo, poco después del inicio, el área isquémica se encuentra toda ella o de forma predominante en una penumbra rescatable, y aún hay poco tejido central con un infarto irreversible ya establecido, por lo que el resultado que puede obtenerse es excelente. Posteriormente, gran parte del área isquémica ha sufrido ya un infarto, lo cual comporta un techo para el grado de recuperación alcanzable. Los pacientes con déficits causados por el ictus leve al inicio del tratamiento tienen un mayor potencial que los que presentan déficits graves de alcanzar un resultado final excelente con una intervención efectiva. Los tratamientos capaces de rescatar la totalidad del tejido cerebral amenazado pueden producir agrupaciones de resultados excelentes; los tratamientos capaces de salvar tan solo fracciones de tejido cerebral aportarán probablemente efectos beneficiosos en múltiples transiciones de estados de salud. Como consecuencia de estos factores, los tratamientos de salvación cerebral potentes aplicados de forma temprana a pacientes con una afectación de moderada a grave, como los de recanalización en las 3 horas siguientes al inicio del cuadro, tienden a producir una agrupación de los efectos beneficiosos en el extremo de un resultado funcional excelente de las escalas. Los tratamientos aplicados de forma tardía en pacientes con una afectación grave, como la hemicraniectomía para un infarto maligno de arteria cerebral media, tienden a producir efectos beneficiosos agrupados en el extremo de un resultado funcional regular/supervivencia de las escalas. Facilidad de cálculo de NNT total NNT indica número necesario a tratar. Los símbolos indican el grado cualitativo en el que cada enfoque de análisis (columnas) posee una propiedad deseable (fila). En circunstancias excepcionales, se dispondrá por adelantado de información suficiente del ensayo respecto a la forma del efecto terapéutico esperado como para poder orientar específicamente la elección del análisis. Cuando se prevé que un tratamiento modificará el resultado de forma modesta en diversas transiciones de estados de salud, como ocurre con frecuencia con los tratamientos neuroprotectores, se prefiere el análisis de desplazamiento. Cuando cabe prever con fundamento que el efecto del tratamiento mostrará una agrupación intensa en una sola transición de estados de salud, y cuando puede especificarse a priori con confianza el lado en el que se encuentra esa transición, se prefiere la dicotomización. Sin embargo, lo más frecuente es que los datos de los que disponen los investigadores del ensayo, basados en ensayos iniciales y de fases medias, sean insuficientes para predecir la forma que tendrá la respuesta terapéutica en un ensayo fundamental de registro, y en estos casos debe utilizarse un análisis de desplazamiento ya que suele ser más potente. Entre los extremos de analizar todas las transiciones de estados de salud clínicamente importantes en una escala ordinal (análisis policotómico) y analizar tan solo una (análisis dicotómico fijo), hay enfoques intermedios. Entre ellos se encuentra el análisis de la escala con una dicotomía corrediza (análisis de respondedores) y la reducción de la escala a un número de divisiones inferior al original, pero > 1, por ejemplo la tricotomización, y realizar un análisis de desplazamiento para este número inferior de rangos de ordenación (análisis oligocotómico). En la dicotomía corrediza, se establece un umbral dicotómico para un buen resultado en valores de corte de la escala diferentes para distintos subgrupos de pacientes incluidos en un ensayo, en función de sus características pronósticas basales y del efecto esperado del tratamiento. Estos enfoques intermedios detectan las señales y aplican la potencia a menos transiciones que el análisis de desviación pleno, pero a más transiciones (oligocotómico) o a transiciones más informativas (dicotomía corrediza) que el análisis dicotómico fijo. En consecuencia, estos enfoques tienen menos potencia que el análisis ordinal pleno, pero más que el análisis dicotomizado para detectar efectos del tratamiento que aporten un beneficio en múltiples transiciones de estados de salud20. Y a la inversa, cuando los tratamientos producen efectos beneficiosos que muestran una intensa agrupación en transiciones de salud diferentes en los subgrupos de pacientes o tan solo Saver Variables de valoración óptimas para los ensayos del tratamiento del ictus agudo 133 en 2 o unas pocas transiciones de estados de salud en todos los pacientes, y estas transiciones pueden preespecificarse con un alto grado de confianza antes de realizar el ensayo, los análisis de dicotomía corrediza y oligocotímico tendrán una potencia superior a la del análisis ordinal pleno o el análisis dicotomizado. La evidencia existente sugiere que la mayor parte de los tratamientos del ictus agudo producen su efecto beneficioso en múltiples transiciones de estados de salud, y no sólo en 2 ó 3 agrupaciones, por lo que generalmente el análisis ordinal pleno es más potente que la dicotomía corrediza o el análisis oligocotómico. Éstos, a su vez, suelen ser más potentes que el análisis dicotómico fijo. Interpretabilidad Una premisa fundamental de la medicina basada en la evidencia y centrada en la persona es que las decisiones terapéuticas deben basarse en todos los resultados que la intervención podría modificar en proporción al grado en el que el paciente las valora. Cada uno de los enfoques de análisis de las escalas de valoración del resultado en el ictus agudo plantea dificultades para la conversión en unos valores que sirvan de índice de esta perspectiva global del resultado. El análisis ordinal pleno es el más apto para la conversión en medidas de resumen; los análisis de dicotomía corrediza y oligocotómicos son menos aptos para la conversión, y el análisis dicotómico fijo es intrínsecamente incapaz de aportar la información necesaria. Consideremos en primer lugar por qué el análisis dicotomizado fijo es el que tiene mayores dificultades de interpretabilidad. A partir de un análisis binario puede calcularse con facilidad el efecto beneficioso o nocivo en la única transición de estados de salud analizada. Sin embargo, la facilidad de este cálculo enmascara el defecto fundamental de que refleja el cambio en tan solo una de las varias transiciones de estados de salud en las que es importante evaluar el efecto del tratamiento. La medida necesaria para orientar el tratamiento, es decir, la suma de beneficios/daños en todas las transiciones de estados de salud importantes, no puede calcularse o siquiera estimarse en modo alguno a partir de un análisis binario. La debilidad del análisis dicotomizado a este respecto puede apreciarse si se considera la situación análoga de las notas de una clase indicadas mediante letras. Las notas de la escuela con las letras A, B, C, D y F constituyen una escala ordinal del resultado con la que todos los norteamericanos están familiarizados desde la escuela secundaria. Cuando se introduce una nueva técnica de enseñanza, los maestros y los estudiantes están interesados en saber de qué modo afecta la intervención pedagógica al rendimiento de los estudiantes en todos los niveles de la escala de notas, y no sólo en 1 de las transiciones. Al centrarse, por ejemplo, tan solo en la transición de D a C, se obtiene una orientación radicalmente insuficiente para la toma de decisiones. Si la intervención proporciona un desplazamiento uniforme de los estudiantes en todas las transiciones de notas (B a A, C a B, D a C, etc.), el análisis de una única transición infravalorará sustancialmente el número necesario a tratar para que 1 estudiante obtenga un efecto beneficioso. De forma análoga, las estimaciones del número necesario a tratar basadas en un análisis dicotomizado infravaloran generalmente de manera sustancial los efectos beneficiosos de un tratamiento para el ictus agudo (Tabla 1). Esta infravaloración ha tenido consecuencias negativas para los pacientes. Cuando se autorizó por primera vez el activador de plasminógeno de tipo tisular, muchos médicos no supieron apreciar que las estimaciones del número necesario a tratar basadas en análisis dicotomizados capturaban tan solo una tercera parte del efecto beneficioso del tratamiento, y con frecuencia informaron equivocadamente a los pacientes y las familias respecto al grado de beneficio que cabía esperar21. En cambio, el análisis estadístico con una escala ordinal completa sí proporciona una base para la estimación robusta, aunque no para un cálculo directo, del efecto clínico beneficioso o nocivo total de un tratamiento. Dado que los ensayos realizados en el ictus agudo consisten en ensayos clínicos de grupos paralelos en los que cada grupo sólo recibe un tratamiento, y no en ensayos de diseño cruzado, no permiten medir directamente la varianza intrapaciente, y ello impide la determinación de qué parte del efecto beneficioso observado en el conjunto del grupo se ha producido por un efecto beneficioso pequeño en muchos pacientes o por un efecto beneficioso grande en unos pocos pacientes. Sin embargo, existen múltiples técnicas para estimar los valores del número necesario a tratar a partir de un análisis ordinal pleno, como la especificación de tablas de resultados asociados, el análisis de pares igualados, el cálculo de una odds ratio proporcional y la conversión de los rangos de ordenación de la escala en años de vida ajustados por la salud ganados con el uso de ponderaciones por discapacidad o ponderaciones por calidad14,22. El enfoque de la dicotomía corrediza para las escalas ordinales aporta nuevamente un resultado intermedio. Si está correctamente calibrada, la dicotomía corrediza capturará los efectos beneficiosos y nocivos de un tratamiento en mayor medida que un análisis dicotomizado fijo pero continuará infravalorando sustancialmente el efecto beneficioso o nocivo total de una intervención, en comparación con el análisis ordinal pleno. Por ejemplo, en el caso del activador de plasminógeno de tipo tisular antes de las 3 horas, un análisis de dicotomía corrediza estándar captura tan solo el 39% del efecto beneficioso real del activador de plasminógeno de tipo tisular observado en el análisis ordinal pleno23. Uno de los inconvenientes de todos los métodos estándar de análisis de las variables de valoración es que parten del supuesto de que un tratamiento ejerce un efecto en un mismo sentido en todas las transiciones de estados de salud, ya sea de forma explícita (análisis de desplazamiento) ya de modo implícito (análisis de dicotomía corrediza o fija). Cuando este supuesto no es válido, ninguno de estos métodos de análisis proporcionará una descripción plenamente informativa de los efectos del tratamiento. Un análisis de dicotomía de ganador-perdedor en competencia puede ser útil cuando el efecto beneficioso tiende a agruparse en una sola transición de estados de salud y el efecto nocivo se agrupa en otra. Por ejemplo, en las ventanas temporales posteriores, después de las primeras 4,5 horas, la trombolisis intravenosa puede mejorar la tasa de resultados excelentes y puede elevar también la discapacidad grave y la muerte. Un análisis dicotomizado aplicado a la transición de resultado excelente (por ejemplo, mRS 1-0 o mRS 2-1) puede capturar el efecto beneficioso y 134 Stroke Noviembre 2011 otro análisis dicotomizado distinto, aplicado a la transición de mal resultado (por ejemplo, mRS 4-5 o mortalidad) puede capturar el efecto nocivo. La presentación simultánea al paciente y al prestador de asistencia de los dos efectos en competencia permite respaldar una decisión informada basada en las preferencias de asunción de riesgo del paciente y el clínico24. Es importante que los resultados en competencia sean independientes. Una práctica incorrecta, aunque lamentablemente frecuente, al presentar los efectos de los trombolíticos es informar del efecto beneficioso utilizando una escala final global del resultado funcional, pero presentar el efecto nocivo en términos de hemorragia sintomática. Dado que los efectos de la hemorragia se han capturado y resumido ya (junto con los efectos de la reperfusión) en el resultado funcional, puede llevar a confusión informar de ello como un resultado aparte25. Cuando los efectos del tratamiento son unidireccionales, las consideraciones de eficiencia e interpretabilidad son favorables al análisis ordinal pleno; en consecuencia, el análisis de desplazamiento debe ser generalmente el método analítico preferido en los ensayos realizados en el ictus agudo (Tabla 2). La dicotomía corrediza es menos adecuada y la dicotomía fija es la que lo es menos; ambas técnicas deben reservarse para circunstancias excepcionales en las que se espera con fundamento que el efecto del tratamiento se agrupe en una única o unas pocas transiciones de estados de salud. En todas las situaciones de toma de decisión en la práctica clínica a la cabecera del paciente, cuando las distribuciones de resultados son compatibles con un efecto unidireccional del tratamiento, los valores del número necesario a tratar basados en un análisis ordinal pleno son preferibles a los obtenidos con métodos dicotomizados u oligocotomizados. Tener en cuenta la heterogeneidad basal y mejorar la precisión de las medidas de la variable de valoración Otros pasos importantes del diseño estadístico a tener en cuenta en el análisis de la variable de valoración en los ensayos del ictus agudo son los de tener en cuenta la heterogeneidad basal de los pacientes y mejorar la precisión de las determinaciones de la variable de valoración. Hay varias características de los pacientes que tienen efectos pronósticos importantes en la evolución del paciente tras un ictus agudo. En la isquemia cerebral aguda, la edad del paciente y la gravedad del déficit inicial causado por el ictus son los dos factores pronóstico clínicos más importantes, y el volumen de la lesión isquémica y la presencia y localización de una oclusión de una arteria grande son los dos factores pronósticos de exploraciones de imagen fáciles de obtener que tienen más importancia, pero hay otros muchos que pueden desempeñar un papel26–29. La influencia de los principales factores pronósticos en el resultado supera habitualmente a la influencia del efecto del tratamiento que se pretende detectar en los ensayos realizados en el ictus. Los análisis que no introducen un ajuste respecto a la heterogeneidad basal de los pacientes tienen diversas vulnerabilidades, como la reducción de la potencia en la detección de efectos del tratamiento (habitualmente en un 10%–30%)30,31, la infravaloración de la magnitud del efecto real del tratamiento cuando se emplean medidas no lineales del efecto como las odds ratios (debido a que no es posible combinar los efectos dentro de los estratos)32, y resultados falsamente positivos/falsamente negativos si las variables pronósticas causantes de confusión están desequilibradas en los distintos grupos de tratamiento26. Por consiguiente, el ictus agudo es un trastorno en el que el ajuste estadístico respecto a las diferencias basales en las variables pronósticas debe realizarse casi siempre en el análisis principal del ensayo. Los análisis sin la introducción del ajuste son deseables como análisis secundarios para explorar la robustez de la señal detectada, pero son menos fiables que el análisis con ajuste. Las escalas ordinales utilizadas en la medición de la variable de valoración en los ensayos del ictus agudo tienen habitualmente una fiabilidad interevaluadores moderada. No obstante, cualquier escala concreta administrada en 1 ocasión por 1 evaluador es algo imprecisa, debido a la variación interevaluadores residual, la variación de la función del paciente a lo largo del tiempo y la variación de la exactitud intrínseca de diferentes escalas a diferentes niveles de puntuación. La imprecisión en la medición de la variable de valoración primaria introduce un ruido que reduce la potencia estadística del estudio. Entre las técnicas validadas para reducir la fiabilidad interevaluadores en la medición de los resultados funcionales se encuentran el uso de entrevistas estructuradas, los programas de formación certificados y los evaluadores centrales10,11,33. La repetición de las mediciones a lo largo del tiempo puede ser útil también, y permite realizar varias evaluaciones del estado alcanzado en vez de una sola34. Otro enfoque que ha resultado útil en determinados ensayos del ictus es el de medir el resultado pretendido con varias escalas similares y combinar estadísticamente las mediciones utilizando una ecuación de estimación generalizada. Aunque teóricamente se han concebido para establecer un mapa de dimensiones diferentes del resultado, las medidas del déficit neurológico (por ejemplo, la NIHSS), las actividades de la vida diaria (por ejemplo, el Índice de Barthel) y la discapacidad global (por ejemplo, la mRS y la Glasgow Outcome Scale) presentan todas ellas una intensa correlación entre sí, lo cual indica que pueden concebirse también como un mapa de un único rasgo latente, al que se ha denominado recuperación del ictus. Cuando se evalúan estas escalas en la misma visita, la precisión de la medición del rasgo latente de recuperación del ictus aumenta por encima de la que tiene la medición de una sola escala. Sin embargo, el aumento de la potencia del estudio que proporciona la ecuación de estimación generalizada se obtiene a costa de la interpretabilidad del resultado. La variable latente que se evalúa, por ejemplo, la recuperación favorable, no se mide por completo con ninguna escala individual. En consecuencia, los organismos reguladores desaconsejan con frecuencia el uso de la ecuación de estimación generalizada en el análisis de la variable de valoración primaria de un ensayo fundamental con fines de registro. Los efectos beneficiosos acumulativos del aumento de la potencia del estudio son sustanciales para las tres estrategias estadísticas clave revisadas: uso de toda la información sobre el resultado en una escala ordinal; ajuste respecto a la heterogeneidad pronóstica basal; e incorporación simultánea de información de múltiples escalas de la recuperación. Cada Saver Variables de valoración óptimas para los ensayos del tratamiento del ictus agudo 135 uno por sí solo aumentará la potencia del estudio en comparación con un análisis sin ajustar de la dicotomía bruta en una única escala. Sin embargo, estas técnicas no son mutuamente excluyentes y pueden combinarse en pares o todas juntas. En un análisis de un efecto de un tratamiento modelo aplicado a los datos de placebo de los tres conjuntos de datos de ensayos de citicolina combinados, al utilizar conjuntamente las 3 técnicas, la potencia del estudio aumentó de 3 a 6 veces. Cuando se utilizó un análisis de desplazamiento pleno y un ajuste según el pronóstico basal, el hecho de omitir la estimación generalizada para aumentar la interpretabilidad del resultado elevó la potencia del estudio en 2 a 5 veces35. Conclusiones Durante la pasada década, se han producido varios avances importantes en el análisis de las variables de valoración de los ensayos del ictus agudo. En la actualidad, los investigadores pueden elegir con conocimiento de causa escalas de valoración del resultado que sean válidas, fiables y sensibles, como la mRS, así como técnicas de análisis que sean eficientes e interpretables, como el análisis ordinal pleno y el análisis de dicotomía corrediza, para optimizar el diseño del estudio y maximizar las posibilidades de éxito en el hallazgo de nuevos tratamientos para la primera causa de muerte y discapacidad combinadas en todo el mundo. Fuentes de financiación Este estudio fue financiado en parte por los NIH-NINDS Awards U01 NS 44364 y P50 NS044378 y por el American Heart Association Pharmacy Roundtable Health Outcomes Research Center Award. Declaraciones Los Regentes de la University of California reciben financiación para los servicios del Dr. Saver como consultor científico respecto al diseño y realización de ensayos prestados a BrainsGate, CoAxia, ev3, Talecris, PhotoThera, y Sygnis (modesta en todos los casos). El Dr. Saver es investigador de los ensayos clínicos multicéntricos NIH FAST-MAG, MR RESCUE, ICES, CUFFS, CLEAR-ER e IMS 3, por los que los Regentes de la UC reciben pagos basados en la realización del ensayo clínico. Ha sido investigador de centro no remunerado en ensayos multicéntricos realizados por Lundbeck y Mitsubishi, por los que los Regentes de la UC han recibido pagos basados en contratos de ensayos clínicos en función del número de individuos incluidos. Es también investigador de centro en un registro multicéntrico realizado por Concentric, por el que los Regentes de la UC han recibido pagos basados en contratos de ensayos clínicos en función del número de individuos incluidos. Es empleado de la University of California, que tiene una patente sobre dispositivos de extracción para el ictus. Recibe financiación del NIH-NINDS Awards P50 NS044378 y U01 NS 44364. Bibliografía 1. Hong KS, Lee SJ, Hao Q, Liebeskind DS, Saver JL. Acute stroke trials in the 1st decade of the 21th century. Stroke. 2011;42:e314. 2. Fisher M, Albers GW, Donnan GA, Furlan AJ, Grotta JC, Kidwell CS, et al. Enhancing the development and approval of acute stroke therapies: Stroke Therapy Academic Industry roundtable. Stroke. 2005;36: 1808 –1813. 3. Higashida RT, Furlan AJ, Roberts H, Tomsick T, Connors B, Barr J, et al. Trial design and reporting standards for intra-arterial cerebral thrombolysis for acute ischemic stroke. Stroke. 2003;34:e109 – e137. 4. Optimising Analysis of Stroke Trials Collaboration. Calculation of sample size for stroke trials assessing functional outcome: comparison of binary and ordinal approaches. Int J Stroke 2008;3:78 – 84. 5. Rha JH, Saver JL. The impact of recanalization on ischemic stroke outcome: a meta-analysis. Stroke. 2007;38:967–973. 6. Mayer SA, Brun NC, Begtrup K, Broderick J, Davis S, Diringer MN, et al. Efficacy and safety of recombinant activated factor VII for acute intracerebral hemorrhage. N Engl J Med. 2008;358:2127–2137. 7. Quinn TJ, Dawson J, Walters MR, Lees KR. Functional outcome measures in contemporary stroke trials. Int J Stroke. 2009;4:200 –205. 8. World Health Organization. The international classification of impairments, disabilities and handicaps. Geneva, Switzerland: World Health Organization; 1980. 9. Barclay-Goddard R, Epstein JD, Mayo NE. Response shift: a brief overview and proposed research priorities. Qual Life Res. 2009;18: 335–346. 10. Saver JL, Filip B, Hamilton S, Yanes A, Craig S, Cho M, et al. Improving the reliability of stroke disability grading in clinical trials and clinical practice: the Rankin Focused Assessment (RFA). Stroke. 2010;41: 992–995. 11. Quinn TJ, Lees KR, Hardemark HG, Dawson J, Walters MR. Initial experience of a digital training resource for modified Rankin scale assessment in clinical trials. Stroke. 2007;38:2257–2261. 12. Weisscher N, Vermeulen M, Roos YB, de Haan RJ. What should be defined as good outcome in stroke trials; a modified Rankin score of 0 –1 or 0 –2? J Neurol. 2008;255:867– 874. 13. Samsa GP, Matchar DB, Goldstein L, Bonito A, Duncan PW, Lipscomb J, et al. Utilities for major stroke: results from a survey of preferences among persons at increased risk for stroke. Am Heart J. 1998;136: 703–713. 14. Hong KS, Saver JL. Quantifying the value of stroke disability outcomes: WHO global burden of disease project disability weights for each level of the modified Rankin Scale. Stroke. 2009;40:3828 –3833. 15. Kidwell CS, Liebeskind DS, Starkman S, Saver JL. Trends in acute ischemic stroke trials through the 20th century. Stroke. 2001;32: 1349 –1359. 16. Altman DG, Royston P. The cost of dichotomising continuous variables. BMJ. 2006;332:1080. 17. Fedorov V, Mannino F, Zhang R. Consequences of dichotomization. Pharm Stat. 2009;8:50 – 61. 18. Saver JL, Gornbein J. Treatment effects for which shift or binary analyses are advantageous in acute stroke trials. Neurology. 2009;72:1310 –1315. 19. Optimising Analysis of Stroke Trials (OAST) Collaboration, Bath PM, Gray LJ, Collier T, Pocock S, Carpenter J. Can we improve the statistical 20. McHugh GS, Butcher I, Steyerberg EW, Marmarou A, Lu J, Lingsma HF, et al. A simulation study evaluating approaches to the analysis of ordinal outcome data in randomized controlled trials in traumatic brain injury: results from the IMPACT Project. Clin Trials. 2010;7:44 –57. 21. Gadhia J, Starkman S, Ovbiagele B, Ali L, Liebeskind D, Saver JL. Assessment and improvement of figures to visually convey benefit and risk of stroke thrombolysis. Stroke. 2010;41:300 –306. 22. Lansberg MG, Schrooten M, Bluhmki E, Thijs VN, Saver JL. Treatment time-specific number needed to treat estimates for tissue plasminogen activator therapy in acute stroke based on shifts over the entire range of the modified Rankin Scale. Stroke. 2009;40:2079 –2084. 23. Saver JL, Yafeh B. Confirmation of tPA treatment effect by baseline severity-adjusted end point reanalysis of the NINDS-tPA stroke trials. Stroke. 2007;38:414 – 416. 24. Kent DM, Selker HP, Ruthazer R, Bluhmki E, Hacke W. Can multivariable risk-benefit profiling be used to select treatment-favorable patients for thrombolysis in stroke in the 3- to 6-hour time window? Stroke. 2006;37:2963–2969. 25. Saver JL. Hemorrhage after thrombolytic therapy for stroke: the clinically relevant number needed to harm. Stroke. 2007;38:2279 –2283. 26. Mandava P, Kent TA. A method to determine stroke trial success using multidimensional pooled control functions. Stroke. 2009;40:1803–1810. 27. König IR, Ziegler A, Bluhmki E, Hacke W, Bath PM, Sacco RL, et al. Predicting long-term outcome after acute ischemic stroke: a simple index works in patients from controlled clinical trials. Stroke. 2008;39: 1821–1826. 28. Johnston KC, Wagner DP, Wang XQ, Newman GC, Thijs V, Sen S, et al. Validation of an acute ischemic stroke model: does diffusion-weighted imaging lesion volume offer a clinically significant improvement in prediction of outcome? Stroke. 2007;38:1820 –1825. 29. Qureshi AI. New grading system for angiographic evaluation of arterial occlusions and recanalization response to intra-arterial thrombolysis in 136 Stroke Noviembre 2011 acute ischemic stroke. Neurosurgery. 2002;50:1405–1414; discussion 1414 –1415. 30. Optimising the Analysis of Stroke Trials (OAST) Collaboration, Gray LJ, Bath PM, Collier T. Should stroke trials adjust functional outcome for baseline prognostic factors? Stroke. 2009;40:888 – 894. 31. Hernández AV, Steyerberg EW, Habbema JD. Covariate adjustment in randomized controlled trials with dichotomous outcomes increases statistical power and reduces sample size requirements. J Clin Epidemiol. 2004;57:454 – 460. 32. Kent DM, Trikalinos TA, Hill MD. Are unadjusted analyses of clinical trials inappropriately biased toward the null? Stroke. 2009;40:672– 673. 33. Lyden P, Raman R, Liu L, Emr M, Warren M, Marler J. National Institutes of Health Stroke Scale certification is reliable across multiple venues. Stroke. 2009;40:2507–2511. 34. Li N, Elashoff RM, Li G, Saver J. Joint modeling of longitudinal ordinal data and competing risks survival times and analysis of the NINDS rt-PA stroke trial. Stat Med. 2010;29:546 –557. 35. Torres JV, Cortes J, González JA, Sanchez JA, Secades J, Cobo E. . Stroke clinical trials efficiency can be improved. International Society for Clinical Biostatistics 31st Annual Meeting. Montpellier, France. September 2010.