Thursday 30 November 2017

تعريف الهامش غير الهامش


تجارب عدم الدونية الهدف من تجارب عدم الدونية هو مقارنة معاملة جديدة لعلاج فعال بهدف إظهار أنه ليس أسوأ من الناحية السريرية فيما يتعلق بنقطة نهاية محددة. ومن المفترض أن العلاج المقارنة تم تأسيسها ليكون لها تأثير سريري كبير (ضد الدواء الوهمي). وكثيرا ما تستخدم هذه التجارب في الحالات التي يمكن فيها استخدام محاكمة تفوق ضد السيطرة وهمي قد تعتبر غير أخلاقية. يتم تقييم عدم الدونية بسهولة أكبر باستخدام نهج فاصل الثقة (سي). أولا نحدد هامش عدم الدونية، د. هذا هو الحد الأقصى للفرق نحن مستعدون للتسامح في اتجاه معين إذا كان العلاج الجديد لا يعتبر (سريريا) أدنى. إذا كانت فترة الثقة 95 للفرق بين وسائل العلاج تقع فوق أو أقل من هذه القيمة الحدودية (في اتجاه مواتية) ثم يعتبر عدم الدونية قد أنشئت. لنفترض أن علاج الاختبار، T، يعتبر أقل شأنا إذا كان ينتج قياس 3 نقاط أو أكثر تحت بعض معاملة السيطرة، C، في المتوسط. إذا كان 95 سي للفرق بين الوسائل، T C، وتقع فوق د -3 ثم يعتبر علاج الاختبار أقل شأنا من السيطرة. ويوضح الرسم البياني أدناه النتائج المحتملة: يؤثر اختيار هامش الدونية (د) على حساب حجم العينة واستنتاج الدراسة. والقاعدة العامة هي أن هذه الكمية يجب أن تكون أصغر بكثير (12 أو 13) من الحد الأدنى من الاختلافات السريرية التي قد نستخدمها لحساب حجم العينة في محاكمة التفوق. بعض الروابط والمقالات على شبكة الإنترنت: من خلال النظرة الزجاجية: فهم عدم الدونية تجارب عدم الدونية اختبار ما إذا كان منتج جديد ليس أسوأ بشكل غير مقبول من المنتج قيد الاستخدام بالفعل. تقدم هذه الورقة مفاهيم تتعلق بعدم الدونية، وتناقش وجهات النظر التنظيمية لكل من وكالة الأدوية الأوروبية وإدارة الغذاء والدواء الأمريكية. إنترودكتيون حسنا، في بلادنا، أليس أليس، لا يزال يملأ قليلا، يود عموما الوصول إلى مكان آخر - إذا كنت ركض سريع جدا لفترة طويلة كما كنا نفعل. وقال نوع بطيء من البلاد الملكة. الآن، هنا، ترى، فإنه يأخذ كل تشغيل يمكنك القيام به، للحفاظ على في نفس المكان. إذا كنت ترغب في الحصول على مكان آخر، يجب عليك تشغيل مرتين على الأقل بسرعة أن لويس كارول، من خلال زجاج النظر الإحصاءات الكلاسيكية غير بديهية بما فيه الكفاية عندما كنت تحاول أن تظهر أن التدخل الجديد هو أفضل من سابقتها. لا يمكنك إثبات ما تريد إثباته كل ما يمكنك قوله هو أن البيانات التي تشاهدها توفر أدلة كافية لرفض الفرضية القائلة بأن التدخلين لهما نفس التأثير. ثم، عند محاولة تقدير حجم التأثير، كل ما يمكنك قوله هو أنه إذا قمت بتكرار تجربتك عدد لا حصر له من الأوقات وحساب فترة الثقة الخاصة بك (سي) كما كنت تدرس، 95 من تلك الفواصل تغطي الحقيقية تأثير. (لا عجب الناس يفرون إلى الاستدلال بايزي) ولكن كما صعبة ومتناقضة كما قد تكون الإحصاءات الكلاسيكية، فهي بسيطة مقارنة مع مشاكل الاستدلال في تجارب عدم الدونية. عند تصميم تجربة لإظهار تفوق تدخل جديد، يمكنك تحديد فرضية فارغة تتفق مع كلمة نول، تؤكد فرضيتك أن التدخلين هي نفسها. ثم تختار فرضية بديلة تفيد بأن الفرق بين الوسائل أو بعض الإحصاءات الأخرى هو. في جميع أنحاء هذه الورقة، نفترض أن نتائج إيجابية أكبر هي أفضل من النتائج الإيجابية الأصغر، وفرق العلاج إيجابي،، ويقدم دليلا على الفائدة. في الحالات التي تكون فيها النتيجة الأصغر أفضل من نتيجة أكبر (على سبيل المثال، حجم الورم في تطبيقات السرطان) فإن الإشارات في هذه الورقة تتغير من السلبية إلى الإيجابية. يمكنك استخدام معدل الخطأ من النوع الأول الذي اخترته، أو القوة المطلوبة، وتحديد حجم العينة. الهدف من تجربتك هو رفض هذه الفرضية الصفرية، وبالتالي فهي في بعض الحالات أداة لمساعدتك في تحديد حجم العينة. في نهاية التجربة، قد يكون التأثير المقدر أكبر أو أصغر من، ولكن طالما أن الحد الأدنى من 95 سي أعلى من الصفر، يمكنك رفض فرضية فارغة. المسرحيات المختارة مسبقا لا يوجد دور إحصائي رسمي في تحليل محاكمة التفوق، على الرغم من أن الفرق في الحجم بين الافتراض والتأثير المقدر من المرجح أن تؤثر على كيفية تفسير النتائج. على النقيض من ذلك، تحاول تجربة عدم الدونية أن تبين أن التدخل الجديد ليس أقل شأنا من التدخل السابق، أو بشكل أدق، أن التدخل الجديد ليس أسوأ من التدخل المستخدم كسيطرة. وهكذا تبدو الفرضية الباطلة إلى الوراء، بمعنى ما، لأن هذه الفرضية ليست باطلة على الإطلاق. بدلا من ذلك، فإنه ينص على أن العلاج الجديد هو أسوأ من القديم من قبل - حيث - هو هامش عدم الدونية. الفرضية البديلة تشير إلى أن الفرق في التأثير بين التدخلات الجديدة والقديمة أقل من - (الشكل 1). في العالم المقلوب من عدم الدونية، تبدو الفرضية البديلة فارغة، في حين أن الفرضية الصفرية تتضمن فرق علاج محدد -. هنا، - هو جزء لا يتجزأ ليس فقط من التصميم، كما هو الحال في تجارب التفوق، ولكن من التحليل أيضا، دورا لا يلعب في تجارب التفوق. دور تجارب التفوق والتكافؤ وعدم الدونية. قد يكون عكس الفرضيات الباطلة والبدائية أول مشكلة زجاجية غير دونية، ولكن كلما كنا نظراء أعمق، يبدو أن التخلف يتضاعف المحاكمات لإظهار التفوق تعاقب عموما المحقق القذر (على الرغم من أن معالجة غير صحيحة دائما للبيانات المفقودة يمكن أن تفيد علاج أكثر سمية، وأقل فعالية، مما يزيد من احتمال وجود نتيجة كاذبة في محاكمة التفوق). وعلى النقيض من ذلك، تميل تجارب عدم الدونية إلى مكافأة الإهمال. فكلما قلت التجربة بشكل صارم، كان من الأسهل إظهار عدم الدونية. ومع تحسن العالجات، تصبح فائدة العالج اجلديد أكثر صعوبة، إال أن إظهار عدم الدونية يصبح أسهل من أي وقت مضى، والناجمة عن نقص الثبات) الذي يطلق عليه بيوكريب في األدوية وتكنوكريب في األجهزة (. ولكن الانتظار ثيريس المزيد من التجارب غير الدونية تواجه أيضا قضية حساسية مقايسة، والحقيقة التي، في بعض إعدادات المرض، حتى المخدرات فعالة حقا لا تظهر دائما فائدة في تجربة سريرية. وهذا يعني أن محاكمة عدم الدونية في وضع لا يمكن أن يكون الدواء القياسي قد أظهرت أعلى من الدواء الوهمي من المرجح أن تثبت عدم دونية العلاج الجديد (انظر 1. 2 لمزيد من المناقشات حول حساسية مقايسة وغيرها من القضايا المتعلقة بالمحاكمات النشطة التي تخضع للمراقبة). ولجميع هذه الأسباب وربما أكثر من ذلك، واجه العديد من المحققين التحدي المتمثل في تصميم وتفسير محاكمات عدم الدونية في كثير من الأحيان اليأس عند محاولة فهمها. في هذا التعليق، نوضح ما تحاول محاولات عدم الدونية لإظهار أننا تضخيم بعض المشاكل التي نوقشت أعلاه نميز وجهة النظر التنظيمية لإدارة الغذاء والدواء الأمريكية (فدا) من الوكالة الأوروبية للأدوية (إما) ربما، والأهم من ذلك، نناقش لماذا هذه المحاكمات غالبا ما تكون مرغوبة لأداء. التفوق والتكافؤ وعدم الدونية فهم المحققون بشكل حدسي، حتى قبل تطبيق الصرامة الإحصائية، وكيفية إجراء محاكمة لتحديد التفوق من العلاج الجديد. عندما يتم مقارنة العلاج الجديد مع السيطرة وهمي، أو، إذا كان موجودا، السيطرة النشطة، يحدد المحقق نتيجة (مثل مستوى الألم أو البقاء على قيد الحياة بشكل عام) ويعلن العلاج الجديد متفوقة إذا، في نهاية المحاكمة ، فإن القيمة المقدرة للحصيلة في المجموعة المعالجة أفضل من التقدير في المجموعة الضابطة. من الناحية الإحصائية، يعني أفضل أن البيانات تسمح رفض الفرضية الصفرية أن التوزيعين متساويين، لصالح فرضية أن العلاج الجديد هو أفضل من السيطرة. في بعض الأحيان، والهدف هو عدم إظهار أن العلاج الجديد هو أفضل، ولكن أن العلاج الجديد هو ما يعادل السيطرة. لأنه فقط مع حجم عينة لانهائي سيكون من الممكن لإظهار التكافؤ الدقيق، المحققين بدلا من ذلك تحديد الهامش. مرة أخرى، نسميها. في نهاية التجربة، يتم حساب سي حول الفرق بين إحصائيين اختبار (تجارب التكافؤ عادة ما تستخدم 90 سي) وإذا كان سي يكمن بدقة داخل -، ويسمى اثنين من العلاجات ما يعادلها. وتستخدم مثل هذه التجارب لإظهار أن المخدرات الجنيسة هي بيولوجيا نفس الدواء الذي تحاول تقليد. كما أنها تستخدم لإظهار اتساق الكثير في تجارب اللقاحات، والتي تكون فيها النتيجة مقياسا للاستجابة المناعية. يختلف عدم الدونية عن التكافؤ. في تجربة التكافؤ، الاستنتاج المنشود هو أن اثنين من المنتجات هي نفسها أو لا تختلف بشكل غير مقبول عن بعضها البعض. وفي محاآاة غير دونية، على النقيض من ذلك، فإن الهدف هو إظهار أن المنتج الجديد ليس أسوأ من غيره. لماذا قد يكون من المعقول متابعة منتج قد يكون أقل فعالية من العلاج القائم العلاج الجديد الذي ليس أسوأ بكثير من، أو غير أدنى من، والعلاج القياسية قد تكون جذابة إذا، بالمقارنة مع العلاج القياسي، فإنه ومن المتوقع أن يسبب آثار جانبية أقل، أو يؤدي إلى تحسين نوعية الحياة، أو إذا كان نظام الجرعات هو أسهل للتحمل. نفترض أنه من الممكن تحديد ما هو أسوأ بكثير يعني (التفكير في هذا كنافذة للتمييز، أو الهامش الذي سوف ندعو - أدناه نناقش كيفية اختيار مثل هذا الهامش)، وأن هناك العلاج القائم المتاحة التي إلى مقارنة العلاج الجديد. ويمكن القول أن العلاج الجديد ليس أسوأ بشكل غير مقبول من 3 (أي غير أدنى من) المعاملة الحالية إذا، عندما يتم حساب سي حول الفرق في حجم التأثير بين العلاجات الجديدة والقائمة، والحد الأدنى من فإن هذا الفاصل الزمني لا يتجاوز نافذة عدم التمييز التي تم تعريفها أعلاه. واحد يركز على الحد الأدنى لهذه المقارنة عدم الدونية ما يحدث في الطرف العلوي من سي ليست الشاغل الرئيسي. في محاكمة التكافؤ، على النقيض من ذلك، المحققين يهتمون كلا طرفي سي، وسوف تعلن عن العلاج الجديد يعادل العلاج الحالي فقط إذا كان سي بأكملها تقع ضمن هذا الهامش على جانبي الصفر. ومن الواضح أن التجارب غير الدونية مناسبة لبعض الأمراض وبعض العلاجات. عند تطوير علاج جديد لمنع السل، قد يكون المحققون على استعداد للتضحية ببعض كمية صغيرة من الفائدة (كما هو موضح في الهامش) لجدول الجرعات أبسط، آثار جانبية أقل، أو غيرها من المزايا، ولكن سيكون من دواعي سروري إذا كان العلاج الجديد كانت أفضل من العلاجات الحالية (وبالتالي لا قيود على الحد الأعلى من الفاصل الزمني)، ويمكن أيضا أن تعلن التفوق. وهذا لن يحدث إلا إذا كان الحد الأدنى من الفاصل الزمني أعلى من الصفر، وليس فقط فوق -. حتى الآن، المشكلة تبدو واضحة. يحتاج المرء إلى تحديد هامش عدم الدونية، تشغيل المحاكمة مقارنة العلاج التجريبي إلى السيطرة النشطة، وحساب سي حول الفرق بين العلاجات، ودراسة الحد الأدنى من سي. إذا كان الحد الأدنى هو أعلى من الهامش -، ويعتبر العلاج الجديد غير أدنى، والمحاكمة هي نجاح. وعلاوة على ذلك، إذا كان العلاج الجديد إحصائيا أفضل بكثير من المقارنة (أي، الحد الأدنى من نفس سي هو أيضا فوق الصفر)، ثم التفوق للعلاج الجديد ويمكن أيضا أن أعلن. الأهم من ذلك، اختبار لأول مرة لعدم الدونية ومن ثم للتفوق لا يتطلب عقوبة إحصائية للاختبار المتعدد، لأن الاختبار الأول لعدم الدونية قبل اختبار للتفوق (أثناء فحص سي واحد) يستخدم إجراء الاختبار التي تسيطر بشكل مناسب على النوع العام I، أو، معدل الخطأ من الاختبارين. ويشير الإحصائيون إلى هذا النوع من الاختبارات كاختبار مغلق، وتضمن هذه العملية الحفاظ على معدل الخطأ الكلي في التجربة عند المستوى الصحيح عند اختبار أكثر من فرضية واحدة. ترتيب الاختبار مهم لإعلان التفوق، والعلاج الجديد بالضرورة بالضرورة أن تعلن غير أدنى. العكس (اختبار أولا للتفوق ثم لعدم الدونية) ليست دائما إجراء مغلقة. ويمكن أن يؤدي الاختبار بهذا الترتيب إلى نتائج شاذة على ما يبدو، حتى عند فحص مؤشر سي واحد. قد تظهر محاكمة كبيرة مع سي الضيقة حول الفرق بين السيطرة النشطة والعلاج الجديد أن الحد الأدنى من الفاصل الزمني يقع ضمن الهامش، وهذا يعني أن العلاج الجديد هو أقل من السيطرة النشطة، ولكن الحد الأعلى من الفاصل الزمني هو أقل من الصفر، وبالتالي فإن العلاج الجديد هو أيضا أدنى شأنا من السيطرة النشطة. نضع في اعتبارنا أن العكس من غير السفلي هو ليس أقل شأنا هو النظرة الزجاج المعاكس، وليس غير أدنى. على سبيل المثال، لنفترض أن الهامش - هو -3، و 95 سي المرئي في نهاية التجربة هو -2.7، 1.5. الحد الأدنى من سي هو فوق -3، وبالتالي فإن الدواء الجديد هو غير أدنى من القديم، ولكن الحد الأعلى من -1.5 هو أقل من الصفر، وبالتالي فإن الدواء الجديد هو أيضا أدنى شأنا من القديم. في هذه الحالة، يمكن استخدام سي واحد ليقول أن العلاج الجديد هو في وقت واحد غير أدنى وأدنى. على الرغم من أن هذا المثال قد يبدو غير متوقع، عند تفسير نتائج محاكمة عدم الدونية، يجب أن نتذكر أن الغرض من المحاكمة هو لتقدير الحد الأدنى من سي، وليس لتحديد تقدير نقطة من تأثير العلاج. هذا الاختبار، يجلس على الجانب الآخر من الزجاج يبحث، يتطلب تفسير مختلف عن المعتاد. في بعض التجارب، فمن المناسب إحصائيا لإجراء مقارنة التفوق أولا، وإذا لم يظهر ذلك فائدة إحصائية، لإجراء مقارنة عدم الدونية. ولا يكون ذلك مناسبا إلا عندما يتم انتقاء هامش عدم الدونية. والسبب في هذا التحول هو جائز من حقيقة أننا يمكن أن ينظر إلى اختبار كتفسير ل سي. لا يعرف سي المحسوب ما إذا كان الغرض منه هو الحكم على التفوق أو عدم الدونية. إذا كان يجلس كليا فوق الصفر، ثم أنها أظهرت التفوق. إذا كان يجلس تماما فوق -، ثم أظهرت عدم الدونية. يمكن أن يكون لمحاكمة عدم الدونية خمسة أنواع محتملة من النتائج كما هو مبين في الشكل 2. الخطوط العموديين تشير إلى صفر و -. كل خط أفقي يمثل سي، مع تأثير العلاج المقدر يرمز إلى نقطة في المركز. و سي في الجزء العلوي من الرقم يجلس تماما فوق الصفر محاكمة مع هذه النتيجة سوف نستنتج أن العلاج الجديد هو متفوقة وبالتالي، أيضا غير أدنى، إلى السيطرة. الفاصل الزمني التالي، الذي يمتد الصفر ولكن يكمن تماما فوق -، يمثل محاكمة التي أظهرت عدم الدونية، ولكن ليس التفوق. الفاصل الثالث، الذي يمتد على حد سواء الصفر و -، يمثل محاكمة التي أظهرت عدم عدم الدونية ولا التفوق. يوضح المعيار الرابع الحالة التي تمت مناقشتها أعلاه بين الخطين الرأسيين، ويظهر كلا من عدم الدونية (لأنه يكمن تماما فوق خط -) ونقص (لأنه يكمن أيضا تحت الصفر تماما). يظهر سي النهائي على الجزء السفلي من الشكل الدونية ولا تظهر عدم الدونية. النتائج المحتملة لمحاكمة عدم الدونية. المضاعفات - بخلاف الهامش من بين التحديات في محاكمات عدم الدونية مقارنة مع تجارب التفوق هي خيارات الهامش، السكان الأولي للتحليل، والعلاج المقارن. وكما هو الحال في القسم السابق، فإننا نؤجل مناقشة الهامش ومعالجة المشاكل الأخيرة أولا. وتشير الحكمة التقليدية إلى أنه في محاكمة غير دونية، ينبغي أن يكون السكان الأساسيون للتحليل من السكان في كل بروتوكول (ب)، والتي في هذه الحالة هي مجموعة من الناس الذين أخذوا العلاج المعين لهم والتمسك به. (أذكر أن تجارب التفوق تستخدم المجموع، أو نية لعلاج (إيت)، والسكان للتحليل الأولي). العديد من نداء إلى السكان ب في محاكمة عدم الدونية لأن أكثر سوء تشغيل محاكمة، والأرجح أن تحليل إيت سوف تظهر عدم الدونية. النظر في محاكمة مع العشوائية معيبة ميؤوس منها، حيث بدلا من إنشاء مجموعتين معاملة متميزة (مجموعة واحدة من المواضيع التي تلقي العلاج الجديد والآخر المقارنة النشطة)، ووضع مخطط العشوائية فعلا مجموعتين المخلوطة، تتألف كل منها من نصف المواضيع تلقي والعلاج الجديد ونصف تلقي المقارنة النشطة. إذا كانت هذه التجربة اختبار للتفوق، فإن الاختبار، مع احتمال كبير، لا تجد أي فرق بين المجموعات بشكل صحيح. ومع ذلك، فإن مثل هذه التجربة المعيبة، باعتبارها محاكمة غير دونية، من المرجح جدا أن تثبت بشكل غير صحيح عدم الدونية. هذه التجربة كما هو موضح هو مثال متطرف على أهمية حساسية مقايسة، في أن محاكمة مع هذا مخطط توزيع معيبة فقد القدرة على التمييز بين أي اختلافات حقيقية بين مجموعات العلاج التي قد تكون موجودة، وهو حجة لماذا الحكمة التقليدية تفضل والتي تبين فائدة في السكان ب. آخرون (4 بما في ذلك المؤلفين) لا يتفقون مع هذا الرأي. النداء إلى مخاطر الانحلال ليس سببا لاستخدام السكان ب ولكن بدلا من ذلك سبب لضمان أن التجربة مصممة بشكل جيد ورصدها بعناية، مع إجراء التحليل الأولي على السكان إيت. ولكن من وجهة نظر تنظيمية، فإن كلا المجموعتين لهما مصلحة. تهتم الهيئات التنظيمية الأمريكية والأوروبية بالنجاح في كل من إيت و ب السكان. يشير المنشور إما نقاط للنظر في التحول بين التفوق وعدم الدونية 5 على وجه التحديد أن محاكمة عدم الدونية يجب أن تظهر عدم الدونية في كل من إيت و ب السكان. إن المنظمين الأمريكيين 6 يثيرون مخاوف كبيرة مع إمكانية الرقابة المفيدة في المعالجة أو ب، وتحليل، وتقديم المشورة للمحققين لتخطيط كلا النوعين من التحليلات في تجاربهم عدم الدونية. ويذهبون إلى القول بأن التناقضات بين هذين النوعين من التحليلات تتطلب فحصا دقيقا، والكلمات التي لا يريد المحقق أن يسمعها من المنظمين. قد يكون للمحقق أيضا خيارات عديدة للذراع املقارن في محاكمة غير دونية، ولكن يجب أن يكون معركة عادلة. ومن الأمثلة على الرقابة غير العادلة أن يكون هناك مقارنات مع جرعة أقل من المستوى الأمثل. آخر ينبع من بيوكريب. لنفترض أن محاكمة سابقة وجدت المخدرات A ليكون أفضل بشكل واضح من الدواء الوهمي، ثم بعد عدة سنوات، تم العثور على المخدرات B غير أدنى من المخدرات A في محاكمة مع هامش كبير عدم الدونية. ثم يتم مقارنة المخدرات C إلى المخدرات B، مرة أخرى مع هامش كبير غير أدنى، وتبين أنها ليست أقل شأنا من B. هذا هو مثال على بيوكريب في كل خطوة، وقد تبين أن المخدرات الجديدة ليست أسوأ بشكل غير مقبول من السابق. وبالتالي، فإن مقارنة دواء جديد مع المخدرات C قد لا تكون عادلة، لأن المخدرات C قد تكون في الواقع أقل فعالية من المخدرات ألف، وإذا كانت الهوامش كبيرة جدا، حتى أقل فعالية من الدواء الوهمي. نذكر هذا الوضع مرة أخرى أدناه عندما نتحدث عن الثبات. وينبغي أن تكون البيانات الكافية متاحة للسماح بحساب هامش عدم الدونية لنفس المرض ونقطة النهاية. ومع ذلك، فإن إرشادات إدارة الأغذية والعقاقير (6) تسمح بضرورة عدم الموافقة على التحكم النشط للإشارة إلى الاهتمام بمحاكمة عدم الدونية إذا وجدت هذه البيانات. اختيار الهامش، من الناحية النظرية بعد أن وافق على تحليل كل من السكان إيت وبعض نسخة من السكان ب، وبعد اختيار السيطرة النشطة المناسبة، يجب على المحقق المقبل تحديد هامش عدم الدونية وطريقة التحليل. ويتمثل أحد النهج في مطالبة الأطباء أو المرضى بالنظر في درجة الفعالية التي سيكونون على استعداد للتضحية بها مقابل المنافع المحتملة التي يوفرها العلاج الجديد. وقد تكون هناك مجموعة من الخبراء السريريين الذين لديهم معرفة بخيارات العلاج القائمة والأمراض الكامنة قد تكون قادرة على النظر في المفاضلات على مستوى السكان المرضى، ويمكن أن تقترح هامش معقول غير دونية. قد تقدم مجموعات المرضى المزيد من التبصر في المفاضلات التي قد يكون المرضى المحتملين على استعداد لجعل منتج مع فوائد مثل جدول الجرعات المحسنة أو آثار جانبية أقل. قد تكون هذه الحجة، التي تسعى للحصول على توجيهات من أوراكيل من الحكم السريري أو تجربة المريض، جذابة من وجهة نظر بعض الأطباء، ولكن مثل هذه الطريقة دلفيك قد يكون نجاحا محدودا في وضع علمي أو تنظيمي، الأمر الذي قد يتطلب تبرير الآثار العلاجية المتوقعة والتفاوت. اثنين من النهج الرسمية الأخرى إلى الهامش والتحليل هي وهمي المفترض (المعروف أيضا باسم طريقة التوليف) والنهج 95-95 في روثمان 7. 8. يبدأ الأسلوب 95-95 بحساب M 1. التأثير الكامل للسيطرة النشطة بالنسبة إلى الدواء الوهمي. يستخدم هذا الحساب عادة أساليب التحليل التلوي مع البيانات من الدراسات السابقة، كما هو موضح أدناه، للحصول على 95 سي حول الفرق المقدر بين السيطرة النشطة وهمي. وعندئذ يتم استخدام تقدير متحفظ لهذا الاختلاف، وهو الحد الأدنى من ذلك سي، ك M 1. بعد ذلك، هامش أصغر، M 2. من أجل الحفاظ على جزء محدد سلفا من تأثير التحكم النشط المقدر، على سبيل المثال، 50 أو 75. ويمكننا تفسير M 2 باعتباره أكبر خسارة للتأثير (الدونية) التي تكون مقبولة سريريا عند مقارنة دواء الاختبار مع النشاط مراقبة. هذه التعاريف من M 1 و M 2 تأتي من التدوين المستخدم في وثيقة التوجيه فدا، والتي نناقشها في القسم التالي. بعد إنشاء الهامش M 2. فإن تجربة عدم الدونية باستخدام نهج الهامش الثابت ناجحة إذا كان الحد الأدنى من 95 سي حول الفرق بين العلاج الجديد والسيطرة النشطة فوق هذا الهامش. على النقيض من ذلك، لا يتطلب أسلوب التوليف تحديد هامش معين أو تأثير تحكم نشط 6. 9. يحدد هذا النهج عتبة للجزء المطلوب من تأثير السيطرة النشطة التي يتم الاحتفاظ بها من قبل العلاج الجديد. وهكذا، فإن اختبار فرضية عدم الدونية في هذا النوع من التحليل يستند إلى مزيج من التقدير والخطأ القياسي (سي) لمقارنة السيطرة النشطة مع الدواء الوهمي، وهو ما لم يلاحظ في الدراسة الحالية، والتقدير و سي لمقارنة المعاملة الجديدة مع السيطرة النشطة في الدراسة الحالية. تفترض هذه الطريقة أن تأثير السيطرة النشطة يبقى ثابتا بشكل معقول مع مرور الوقت، أو أنه إذا كان التأثير يتضاءل مع مرور الوقت (نتيجة لذلك، على سبيل المثال، لتحسين العلاجات المصاحبة)، يمكن تقدير هذا التأثير المعدل. انظر روثمان إت آل. 7 للحصول على رؤى في نمذجة إما تأثير السيطرة النشطة أو تقلبها، وأوراق سنابين وجيانغ 10. 11 لنهج موحد لكل من نهج الهامش الثابت والتوليف، الذي يعالج افتراضات حساسية الفحص والثبات، و الآثار على معدل الخطأ من النوع الأول. ونعزز هذه المفاهيم أدناه في القسم المتعلق بالمسائل التقنية. المنظورات التنظيمية في مارس 2010، أصدرت مراكز تقييم الأدوية والبحوث (سدر) والبحوث البيولوجية والبحوث (كبر) من ادارة الاغذية والعقاقير الامريكية مشروع دليل للصناعة بشأن تجارب عدم الدونية 6. فدا وثائق التوجيه تمثل تفكير الوكالة الحالي على مجموعة واسعة من المواضيع في عملية تطوير المخدرات، بما في ذلك القضايا السريرية والإحصاءات والتصنيع والسلامة، ووضع العلامات. ويفتح هذا التوجيه مع نظرة عامة تمهيدية لمحاكمات عدم الدونية. ثم تقدم مناقشة دقيقة للمسائل الاحصائية، بما في ذلك طرق تحديد هامش مناسب لعدم الدونية، وتغلق عن طريق معالجة المسائل من خلال أمثلة توضيحية من التقارير المقدمة مؤخرا. ويتناول الكثير من الفلسفة الكامنة وراء هذه الإرشادات مع القلق من ادارة الاغذية والعقاقير أنه في محاكمة دون مجموعة وهمي (أو بشكل عام، السيطرة غير المعالجة)، والفشل في العثور على الفرق بين العلاج الجديد والسيطرة النشطة قد يعني في الواقع أن لا كان أفضل من العلاج الوهمي. وبالتالي، هناك طريقة واحدة للنظر في الإرشاد هي أن نعتبرها محاولة لضمان أن الدراسة التي تخلص من عدم الدونية قد حددت العلاج الذي هو أعلى من العلاج الوهمي. وتقدم الإرشادات إرشادات مفيدة، اعتمدناها لمناقشتنا في هذه الورقة. كما هو موضح أعلاه، ونحن نستخدم M 1 للدلالة على التأثير الكامل للرقابة النشطة له نسبة إلى الدواء الوهمي، و M 2 للدلالة على أكبر خسارة للتأثير (نقص) التي من شأنها أن تكون مقبولة سريريا عند مقارنة المخدرات اختبار مع عنصر التحكم النشط. يتم حساب تأثير M 1 من المعلومات التاريخية التي لا تقاس مباشرة في محاكمة عدم الدونية (إلا إذا كانت المحاكمة تتضمن ذراع ثالث، إما وهمي أو أي علاج). ومع ذلك، فإن الميزة المفترضة للسيطرة النشطة على الدواء الوهمي يجب أن تكون موجودة أيضا في الدراسة الحالية، حتى لو لم يتم ملاحظة الميزة مباشرة. وسوف نناقش هذا الافتراض، والمعروف باسم حساسية مقايسة، بمزيد من التفصيل أدناه. وتلاحظ الإرشادات أنه قد يكون من المعقول في بعض البيئات إظهار عدم الدونية على الهامش M 1 فقط. وتبين هذه النتيجة أن المخدرات اختبار له تأثير غير الصفر، ولكن هذا التأثير قد لا تكون ذات مغزى سريريا. الهامش الأصغر، M 2. تشديد الاتصال بين اختبار المخدرات والسيطرة النشطة، مما يسمح للمطالبة بعدم الدونية إلا إذا كان الدواء اختبار لم تفقد الكثير من تأثير السيطرة النشطة. وتنص التوجيهات على ما يلي: أظهرت دراسة ناجحة غير الدونية بدقة أن الدواء اختبار له تأثير أكبر من الصفر إذا كان يستبعد هامش N1 من M1، طالما M1 هو اختيار جيد ويمثل تأثير أن المخدرات السيطرة في الواقع كان سيكون (مقابل وهمي ، كان هناك مجموعة وهمي). ويمكن أيضا أن تظهر أن المخدرات اختبار كان له تأثير أكبر من بعض جزء من تأثير المخدرات السيطرة، اعتمادا على M2 التي يتم استخدامها. (6، الصفحة 12، الفرع ثالثا - باء). على الرغم من أن محاولات عدم الدونية غالبا ما تكون مرغوبة من الناحية المفاهيمية، إلا أن الصعوبات التشغيلية قد تعصف بعملية اختيار الهامش، إما بسبب عدم كفاية البيانات لدعم الهامش المحدد أو الهامش المحسوب الذي يؤدي إلى حجم عينة غير عملي. وتناقش الإرشادات بإيجاز التصاميم البديلة التي قد تكون مفضلة في هذه الحالات، بما في ذلك الدراسات الإضافية، أو مجموعات المرضى المختارة بعناية، أو دراسات الانسحاب العشوائية. ويأتي التركيز الرئيسي للإرشاد في القسم الرابع: اختيار هامش عدم الدونية وتحليل نتائج تجربة ني. من الناحية المفاهيمية، فإن التوجيه يكسر العملية إلى خطوتين: تحديد طريقة معقولة لتقييم تأثير السيطرة النشطة في الدراسة الحالية، ومن ثم تبين أن فائدة السيطرة النشطة على المخدرات الاختبار في الدراسة الحالية ليست أكبر من المفترض (المفترض) تأثير كامل من السيطرة النشطة على الدواء الوهمي. وبمجرد اختيار الهامش، إما من رأي الخبراء أو من التحليلات الرسمية للبيانات التاريخية، يجب على مصممي المحاكمة تحديد كيفية تحليل نتائج دراسة عدم الدونية. وتوضح الإرشادات نهجين ممكنين، قدمناهما بإيجاز أعلاه: أسلوب الهامش الثابت (المعروف أيضا باسم طريقة سي المزدوجة أو الأسلوب 95-95 7) وطريقة التجميع. في طريقة الهامش الثابت، تنجح تجربة غير دونية إذا كان الحد الأدنى من 95 سي حول الفرق بين دواء الاختبار والسيطرة النشطة يقع فوق الهامش، إما M 1 أو M 2. وعلى النقيض من ذلك، فإن طريقة التوليف لا تحدد هامش أو تأثيرا محددا للسيطرة النشطة استنادا إلى التجارب السابقة. وتقول التوجيهات أن طريقة التوليف مصممة لمعالجة مباشرة مسألة ما إذا كان المنتج اختبار كان قد كان متفوقا على الدواء الوهمي كان وهمي في التركيز ني دراسة لنا، وأيضا لمعالجة مسألة ذات الصلة من ما جزء من النشطة يتم الحفاظ على مقارنة تأثير المنتج الاختبار (6، صفحة 30). هذا النهج يجمع بين تأثير المنتج الاختبار الذي لوحظ في محاكمة عدم الدونية مع تأثير السيطرة المقدرة، من إما محاكمة واحدة أو التحليل التلوي، للحصول على سي واحد يستخدم لاختبار فرضية عدم الدونية مقارنة المنتج الاختبار مع المقارنة النشطة. ومع ذلك، يمكن اعتبار طريقة التوليف (في ظل وضع 0 الاحتفاظ بأثر التحكم النشط) في طريقة أخرى، لاختبار ما إذا كان منتج الاختبار أفضل من العلاج الوهمي، بافتراض أنه يمكن الحصول على تقدير غير متحيز للمراقبة النشطة تأثير بالنسبة إلى الدواء الوهمي. أهم الافتراضات هنا هي أن تأثير السيطرة النشطة ظل ثابتا نسبيا (أو يمكن نمذجة كما نوقش أعلاه) من الماضي إلى تجربة عدم الدونية الحالية. هذا الأسلوب هو أكثر كفاءة قليلا في المعنى الإحصائي (من حيث الحاجة إلى حجم عينة أصغر أن يكون لها نفس القوة الإحصائية)، ولكنها حساسة للافتراضات، ولا تدمج بسهولة الحكم السريري في تعريف M 2. وتختتم التوجيهات بالردود على سلسلة من األسئلة الشائعة حول محاكمات عدم الدونية وبعض األمثلة. تركز الأسئلة على اختيار الهامش والتمييز بين M1 و M2. ومدى ملاءمة السيطرة النشطة، والخيارات عندما تكون المحاكمة غير الدونية غير ممكنة. وتوضح الأمثلة الفرق بين نهج الهامش الثابت والتوليف للتحليل، وكيفية تقدير تأثير التحكم النشط في غياب التجارب العشوائية التي تسيطر عليها العلاج الوهمي، وهي حالة يكون فيها تأثير التحكم النشط التاريخي ضئيلا لدرجة أن عدم الدونية ستكون المحاكمة غير عملية، والحالة التي يمكن فيها تخفيف معايير عدم الدونية للنجاح عندما توفر دراستان نتائج متسقة. وعلى النقيض من ذلك، فإن وثيقة التوجيه إما بشأن اختيار هامش عدم الدونية 9 لا تحدد طريقة لاختيار الهامش. بدلا من ذلك، توجه إما الرعاة المحاكمة لاستخدام مزيج من الحكم الإحصائي والسريرية. طريقة اختيار الهامش يمكن أن تأتي من نهج دلفي من نوع يسأل الخبراء مدى الفائدة على الدواء الوهمي انهم على استعداد للتخلي عن طريق استخدام المنتج الجديد بدلا من المنتج بالفعل أظهرت أن تكون فعالة. وبدلا من ذلك، يمكن للمحققين اختيار هامش باستخدام نهج أكثر رسمية. بيد أن الوثيقة تحذر من أن الهامش المختار يجب أن يكون صغيرا بما فيه الكفاية لضمان أن العلاج التجريبي أفضل من العلاج الوهمي. على حد تعبير إما، شرط الحد الأدنى لعملية صنع القرار التي تنطوي على تفسير البيانات من محاكمة عدم الدونية هو أننا يجب أن نكون واثقين من أن المنتج اختبار كان قد ثبت أن تكون فعالة إذا كانت التجربة التي تسيطر عليها وهمي كان يؤدونها. اختيار الهامش، من الناحية الفنية إذا تم استخدام طريقة دلفيك، طريقة التوليف، أو النهج 95-95، فإن الخطوة الأولى في تحديد هامش عدم الدونية هي جمع كل المعلومات ذات الصلة حول تأثير السيطرة النشطة. لطريقة دلفيك، يمكن أن تقع جميع المعلومات ذات الصلة في العقول، والخبرة، والحكم من الأطباء الخبراء. لتركيب وطرق 95-95، جميع المعلومات ذات الصلة تتكون من مجموعة من البيانات التي تتناول حجم تأثير العلاج السيطرة مقارنة مع الدواء الوهمي. كل من هذه الأساليب الأخيرة قد تستخدم نفس النهج لتحديد تأثير السيطرة بالنسبة إلى الدواء الوهمي. أول 95 (أو كيف مقارنة السيطرة مع الدواء الوهمي) كما هو موضح أعلاه، والغرض من أول 95 في طريقة 95-95 هو لحساب حجم التأثير لمجموعة السيطرة التي تعطي تأكيدا معقولا لا تقل عن حجم التأثير الحقيقي. الفلسفة هي أن حساب سي 95 لحجم التأثير المقدر، ومن ثم اختيار الطرف الأدنى من تلك الفترة يعطي 95 الثقة بأن حجم التأثير الحقيقي للتدخل السيطرة بالنسبة إلى الدواء الوهمي هو على الأقل كبيرة مثل حجم التأثير المحسوب. بعد قبول هذا المبدأ كطريق لحساب، فإن القرار التالي هو ما هي البيانات التي تستخدم لحساب سي. وتقترح إرشادات إدارة الأغذية والعقاقير (فدا) تطبيق تقنيات التحليل التلوي لحساب حجم التأثير المقدر، وبالتالي الحد الأدنى لمعدل الفعالية. For convenience in exposition, we discuss here binary outcomes much of the discussion is relevant to other types of outcomes as well. Meta-analysis is a set of methods used to combine data from a group of studies to obtain an estimate of a treatment effect. Thus, the first step in performing a meta-analysis is to collect the group of studies to use. When designing a non-inferiority trial, under ideal conditions the investigator would select a set of studies that includes only randomized trials comparing the control intervention with placebo. The patient population should be similar to the population being studied in the non-inferiority trial being planned the outcomes studied in the trials should be the same as that planned the control regimen (intervention and dose) should be the same as the regimen to be used in the new trial and the current standard of care should be the same as the standard of care in the previous trials (the constancy assumption). Furthermore, the total population studied in the set of trials under consideration should be sufficiently large to produce a precisely estimated effect size. In practice, limitations of available data often force investigators to compromise on some of these criteria. The populations studied in the previous trials may differ in important ways from the population planned for the new trial. The former trials may not all have uniformly compared the control intervention to placebo some of the trials may have used placebo whereas others may have used standard of care, and some might have used another active control. The outcome measures in the previous trials may differ from the outcome in the trial being designed. The intervention in the previous trials might have used different doses from that being contemplated in the new trial, or the relevant trials might have used a drug from the same class as the planned control, but not the same drug. And perhaps the most vexing problem of all, because it is essentially unmeasurable, is the possibility that the standard of care has changed in the years between the time of the previous trials and the trial being planned. If so, a drug shown to be effective in the past would perhaps not be shown to be effective were the same trial performed today. Similarly, if the trials under consideration for the meta-analysis were performed in countries with very different standards of care from the country in which the non-inferiority trial is to be performed, then the effect size of the control may be different from what it would have been in the country for which approval is being sought. Assuming that the set of trials being considered do not egregiously violate the ideal standards mentioned above, the investigators are ready to produce an overall estimate of the effect size. A meta-analysis comparing treatment A with treatment B starts with T randomized trials. If the primary outcome of the trial is binary, for k 1, 2. T . trial k has sample sizes n kA and n kB with S kA and S kB successes, respectively. The outcome of the Mantel-Haenszel (MH) method is the pooled odds ratio across the T trials. Each study can be represented by a 2 2 table with the structure depicted in Table 1. Illustration of a 2 2 table for the k th trial. A method of Peto described by Yusuf 13 is also often used in these settings. The method differs slightly from the MH approach however, for large sample sizes, the two methods yield almost identical results. In both the MH and the Peto methods, the logarithm of the odds ratio under the null hypothesis is approximately normally distributed, with mean zero and variance estimated from the observations. Both methods weight studies according to their sample size, not the size of the treatment effect within the study. In other words, large studies have a large influence on the pooled effect size, while small studies have a small influence on the estimated effect. Furthermore, if the true effect size is in fact identical in all of the studies, then the MH test is the optimal procedure, in the sense that it has the highest statistical power of all possible unbiased tests. This property is often subverted by saying that these tests require that the studies have the same true effect size, or that they are fixed effects models. In fact, neither the MH nor the Peto method requires identical effect sizes. The logical interpretation of a meta-analysis using either of these methods is not that the true effect of the treatment is the same in all situations, but rather that the overall estimate obtained from a meta-analysis is the best estimate of the treatment effect, averaged over all studies included. The FDA Guidance suggests a preference for so-called random-effects models in meta-analyses that will be used to establish the margin in non-inferiority trials. These models, in contrast to the MH and Peto approaches, make very specific assumptions about the distribution of the effect size across all potential studies. The standard method, introduced by DerSimonian and Laird 14 , assumes that the effect size (which in the case of binomial variables is the log odds ratio) comes from a normal distribution with mean and variance 2. This assumption implies that the estimated pooled effect is a weighted average of the effect obtained in each study in contrast to the MH and Peto methods, the weights are a function both of the sample sizes of the various studies and the closeness of each within-study estimate to the estimates from the other studies. As Petitti 15 points out, when results from studies are heterogeneous, random-effects models tend to overemphasize the importance of small studies. Such weighting may be inappropriate small studies are often conducted at a single center, and are more likely to be subject to bias and less likely to have had rigorous checking of data quality or the use of rigorous methods in study conduct. See Teo et al . 16 for a discussion of a random-effects meta-analysis on the use of magnesium, which led to erroneous results. In that case, one small study, with results quite different from other, larger, trials, dominated the estimated effect size because the assumptions of the random-effects model put undue weight on the small trial. The typical presentation of a meta-analysis shows a forest plot depicting the results of each trial, and then a summary statistic showing the estimated effect. Having completed this meta-analysis, the investigator calculates the 95 CI and finds what FDA calls M 1 . the effect size of the control therapy that will be assumed (Figure 3 ). If the outcome is a time-to-event variable or a continuous variable, the meta-analysis is typically performed on the estimated hazard ratios or means, respectively. Choice of M 2 . how much are we willing to lose As the EMA Guidance document stresses, both statistical and clinical judgment should play into the choice of margin. M 1 is calculated, as described above, as the lower end of the 95 CI around the best estimate of the effect size of the control group relative to placebo. This number becomes the starting point for the determination of the margin. The investigator must now ask how much of that benefit is acceptable to lose if the new therapy is adopted. The past experience of the investigators may allow them to define the magnitude of a loss of efficacy that they would be clinically willing to accept. By thinking through a population of, for example, 100 cases, a clinician may be able to quantify such judgments by considering what might be an acceptable loss of efficacy compared with a standard treatment. Sometimes, investigators do not carry out such a formal analysis instead they figure out how much money they can spend. From there, they determine the largest trial that they can run, and justify the margin after the fact. This (not exactly a secret) is what investigators often do for superiority trials the difference is that the purpose of a superiority trial is to show benefit, and if the power is too low for a given sample size, the trial is unlikely to show superiority. In the looking-glass non-inferiority world, however, the analogous action is to make the margin too big, increasing the chance of successfully demonstrating non-inferiority of the new treatment. M 2 is often selected to preserve half of the effect of M 1 however, when a drug is highly effective, losing half its effect, even though it may still be better than placebo, may not be clinically acceptable (Figure 4 ). Consider, for example, a childhood vaccine that prevents 96 of potential cases of disease. A new oral vaccine that only prevents 48 of disease would still be much more effective than placebo, but would hardly be attractive, even if less painful to the child than a shot. Thus, highly effective products for serious diseases should generally be evaluated in trials in which the margin preserves a large proportion of M 1. In other settings, if the benefits of the new product, in terms of adverse events, ease of administration, and cost are very great, investigators might be willing to forego an even higher percentage of M 1 . The second 95 (or, is the new product non-inferior to the old) Having selected M 1 (from the first 95) and M 2 (from judgment), the trial begins. At the end of the trial a 95 CI is calculated from the observed data. If that interval sits completely above the prespecified -, the trial has shown non-inferiority. In fact, we can refer back to Figure 2 and see how the confidence limit compares with the limits shown in the figure. Sample size The sample size for a non-inferiority trial is calculated to satisfy the following equation: In words, this means that the sample size must be large enough so that the probability is sufficiently high that the lower bound of the 95 CI for the estimated difference between the treated group and the control group is greater than the margin, -, when the true difference between the groups, T - C . is . Sample size for a non-inferiority trial is usually calculated under the assumption that the experimental agent and control treatment have equal effects, that is, when is assumed to be zero. Under the assumption that the new treatment is a little better, as is often the case for a new product, the required sample size decreases considerably. Consider, for example, a comparison of two proportions as illustrated in Table 2. For a fixed margin, set to be 10 of the true proportion in the active control, the table presents the approximate sample size required assuming equal treatment effects, a small (5), and a larger (10) benefit for the experimental agent. Approximate sample sizes required for non-inferiority comparison of proportions Sample sizes calculated using Pass 2008 methods for non-inferiority tests of two independent proportions, using the Z statistic with continuity correction and pooled variance, with a target power of 90 and level of 0.025. As an example of how to read the table, consider the row in bold font, in which the true proportion in the active control is 50. The smallest proportion that would be considered not non-inferior is 45 (a loss of 10 from the active control effect). Assuming that the proportions in the new treatment and the active control are equal, the total sample size required would be approximately 2,100 per group. If, however, the new treatment actually provided a 5 benefit over the active control, corresponding to a true proportion of 52.5, the required sample size would be approximately 1,000 per group to show non-inferiority. That is, with a sample size of 1,000 per group, if the true proportion in the active control is 50 and the true proportion in the new treatment is 52.5, then the probability is 90 that the lower bound of the CI is above -5. A 10 benefit, corresponding to a proportion of 55 in the new treatment, would require a sample size of just over 500 per group to show non-inferiority. Assuming a small benefit of the experimental agent compared with the active control cuts the sample size required roughly in half if the larger benefit is more realistic, the sample size is roughly a quarter of that required for the assumption of equal treatment effect. These are still, however, relatively modest improvements over the effect of active control, and although the sample size reductions when assuming these benefits are non-trivial, they are not so large as to suggest switching to a superiority trial to prove these benefits. The sample size required for a superiority trial to demonstrate the small benefit would be nearly 10 times larger than required for the non-inferiority trial, and around four times as large for the larger effect. Concerns about non-inferiority trials Non-inferiority trials have a host of complications. A serious concern, as briefly described above, is assay sensitivity, the ability of a trial to distinguish an effective therapy from one that is not effective, and the issues differ for non-inferiority trials and superiority trials. A superiority trial that lacks assay sensitivity will probably show that the new therapy does not have a statistically significant benefit over control, as the trial will be unable to declare efficacy. By contrast, a non-inferiority trial without assay sensitivity may generate a positive result (that is, it may show evidence of non-inferiority) if it shows no difference between the treatment groups, as this would lead to a conclusion of non-inferiority. Unlike superiority trials, non-inferiority trials have no internal check on assay sensitivity. (The check in a superiority trial is showing that the tested intervention is superior to control.) The EMA, in an effort to mitigate this problem, has suggested that non-inferiority trials, wherever possible, include a placebo arm to allow a direct comparison of both the active control and experimental agent with placebo. (Note that the study may be the new drug, the old drug, and the placebo, all on a background of standard of care.) In many cases, such a trial is not ethically acceptable. That is, randomizing participants to placebo may not be appropriate when an existing therapy with a proven survival benefit exists (for example, in cancer), whereas in other cases (for example, pain relief) a three-arm trial could work well. Another concern specific to non-inferiority trials pertains to the evolving standard of care, as discussed above. Consider the situation with an existing drug (drug A) that is approved for the treatment of an infectious disease on the basis of a placebo-controlled trial. Now suppose that a company applies to regulatory agencies for approval of a new treatment (drug B) using a non-inferiority design with drug A as the active control. Suppose that the trial is successful, that is, drug B is shown to be non-inferior to drug A with respect to the cure rate. Presumably, if drug B has some advantages, such as fewer side effects or an improved dosing schedule, it will then become the standard of care. Then suppose the next company applies for approval of another drug (drug C) using a non-inferiority comparison against drug B. If drug A were actually not superior to placebo in the first trial, it could be fairly easy to show that each new drug is non-inferior to the active control, even when none is any better than placebo. In most cases, the issue with standard of care is not as dire as this illustration might suggest, as the point estimates could show a positive effect even if the margin allowed some loss of efficacy, but the concern is valid. As mentioned earlier, this change in effect is termed biocreep in the case of drugs, and technocreep in the case of devices. Further, in the case of infectious diseases, the organisms themselves might evolve, leaving us with the possibility of true biological biocreep. That is, over time, organisms develop resistance to earlier drugs in the pharmacopoeia, meaning that each new drug is being compared with an active control that might be becoming less and less effective against a strengthening infectious agent. Here, biocreep represents actual biological change in the organism. What is usually called biocreep is more precisely virtual biocreep, where each successive product may be a little bit less effective than the previous product 17. 18 . But what if a non-inferiority trial cannot be performed As alluded to above, a variety of reasons may render a non-inferiority trial unfeasible. A rigorously calculated margin could yield a sample size that cannot be supported financially or by the potential study population. The EMA Guidance specifically warns investigators not to increase their non-inferiority margin when the scientifically derived margin produces an impractically large sample size. Sometimes the necessary data may not exist (or may not be available to a new investigator) to calculate a margin as carefully as desired or the treatment landscape may have changed so much since the historical data were collected that it is unclear what active control to use and whether or not that control really does show a benefit over placebo or the trial may be in a therapeutic area in which well-known effective treatments do not always beat placebo (for example, depression), making it difficult to argue for the assay sensitivity required to plan a non-inferiority trial. Although challenging, such circumstances offer opportunity to the creative trialist (and statistician). Conclusions A non-inferiority trial is reasonable when a new treatment has some property sufficiently favorable that physicians, and their patients, would be willing to sacrifice some degree of benefit relative to an already approved therapy. The advantage could be reduced cost, improved ease of use or dosing schedule (monthly versus weekly injections), simpler storage (not requiring refrigeration), or an improved safety profile. The benefit given up in exchange for these advantages, however, should not be so large that patients and physicians are not willing to use the new product. As discussed in the vaccine example above, an oral formulation that loses half the protection provided by an injection would not be a viable product. The choice of the non-inferiority margin and how much of the existing treatment effect to preserve incorporates in some sense these other aspects of treatment viability. From the perspective of regulators in the USA, however, success in a non-inferiority trial cannot formally incorporate these multi-faceted aspects it simply is not the way their regulations are written at this point. The M 2 does provide some room for flexibility by varying the proportion of the active control effect that is preserved. For serious diseases with known and highly effective treatments, any new product would need to preserve a large amount of the known treatment effect to be considered successful. In other settings (mild headache, for example), a more modest preservation of effect might still be of interest. In selecting M 2 . investigators and drug developers should consider consulting with patients to ascertain whether a margin acceptable to regulators is too large to be acceptable to patients. Expanding the primary endpoint into a composite incorporating efficacy and quality of life, efficacy and cost, or efficacy and safety, would be complicated. We advocate considering whether to revise the relevant legislation to modify the regulations so that regulators are legally able to take into account multiple dimensions of a new product. The resulting analyses would become ever more complicated, but the regulatory decisions would be more nuanced and ultimately better for the public health. At present, however, success in a non-inferiority trial in the USA depends upon success in the primary outcome measure, not on other aspects of benefit, such as safety, and regulatory success using non-inferiority trial designs may require completion of more than one such trial. Declarations Authors original submitted files for images Below are the links to the authors original submitted files for images. The authors declare that they have no competing interests. Authors contributions JS and JW drafted the manuscript. Both authors read and approved the final manuscript. We thank the reviewers for helpful comments and suggestions, and Tara Gentile for assistance with creation of the figures. Authors Affiliations Statistics Collaborative, Inc. References Temple R, Ellenberg SS: Placebo-controlled trials and active-control trials in the evaluation of new treatments Part 1: Ethical and scientific issues. Annals of Internal Medicine. 2000, 133: 455-463. View Article PubMed Google Scholar Ellenberg SS, Temple R: Placebo-controlled trials and active-control trials in the evaluation of new treatments Part 2: Practical issues and specific cases. Annals of Internal Medicine. 2000, 133: 464-470. View Article PubMed Google Scholar Wittes J: Active-control trials: a linguistic problem. International Chinese Stat Assoc Bulletin. 2001, 39-40. Google Scholar Wiens BL, Zhao W: The role of intention to treat in analysis of noninferiority studies. Clin Trials. 2007, 4: 286-291. 10.11771740774507079443. View Article PubMed Google Scholar EMA Committee for Proprietary Medicinal Products (CPMP): Points to Consider on Switching between Superiority and Non-inferiority London. 2000 Google Scholar United States Food and Drug Administration: Guidance for Industry Non-Inferiority Clinical Trials. 2010 Google Scholar Rothmann M, Li N, Chen G: Design and analysis of non-inferiority mortality trials in oncology. Stat Med. 2003, 22: 239-264. View Article PubMed Google Scholar Rothmann MD, Tsou HH: On non-inferiority analysis based on delta-method confidence intervals. J Biopharm Stat. 2003, 13: 565-583. 10.1081BIP-120022775. View Article PubMed Google Scholar EMA Committee for Medicinal Products for Human Use (CHMP): Guideline on the Choice of the Non-inferiority Margin London. 2005 Google Scholar Snappin S, Jiang Q: Controlling the type 1 error rate in non-inferiority trials. Stat Med. 2008, 27: 371-381. 10.1002sim.3072. View Article Google Scholar Snappin S, Jiang Q: Preservation of effect and the regulatory approval of new treatments on the basis of non-inferiority trials. Stat Med. 2008, 27: 382-391. 10.1002sim.3073. View Article Google Scholar Mantel N, Haenszel W: Statistical aspects of the analysis of data from retrospective studies of disease. J Natl Cancer Inst. 1959, 22: 719-748. PubMed Google Scholar Yusuf S, Collins R: Why do we need some large, simple randomized trials. Stat Med. 1984, 3: 409-420. 10.1002sim.4780030421. View Article PubMed Google Scholar DerSimonian R, Laird N: Meta-analysis in clinical trials. Control Clin Trials. 1986, 7: 177-188. 10.10160197-2456(86)90046-2. View Article PubMed Google Scholar Petitti DB: Meta-analysis, Decision Analysis, and Cost-effectiveness Analysis: Methods for Quantitative Synthesis in Medicine. 2000, Oxford: Oxford University Press, 306 pp Google Scholar Teo KK, Yusuf S: Effects of intravenous magnesium in suspected acute myocardial infarction: overview of randomized trials. BMJ. 1991, 303: 1499-1503. 10.1136bmj.303.6816.1499. View Article PubMed PubMed Central Google Scholar Fleming TR: Current issues in non-inferiority trials. Stat Med. 2008, 27: 317-332. 10.1002sim.2855. View Article PubMed Google Scholar Fleming TR, Powers JH: Issues in noninferiority trials: The evidence in community-acquired pneumonia. Clin Infect Dis. 2008, 47 (Suppl 3): S108-S120. View Article PubMed PubMed Central Google Scholar Schumi and Wittes licensee BioMed Central Ltd. 2011 This article is published under license to BioMed Central Ltd. This is an Open Access article distributed under the terms of the Creative Commons Attribution License ( creativecommons. orglicensesby2.0 ), which permits unrestricted use, distribution, and reproduction in any medium, provided the original work is properly cited.

No comments:

Post a Comment