د.عبدالإله آل سودا
أجرى المجتمعُ العلمي مراجعةً لمدى صحة استعمال مصطلح Statistical Significance ، وذلك بعد ظهور ما عُرف بأزمة التكرار العلمي، وبعد رصده عددًا كبيرًا من النتائج المصنفة بأنها: «ذات دلالة إحصائية» ولكنْ لا يُمكن إعادة إنتاجها عند التكرار في نفس الظروف. عندها تغيّر السؤال جذريًا: هل الإحصاء نفسه قاصِر، أم أن اللغة التي نستخدمها لوصف نتائجه هي التي تقودنا إلى سوء الفهم؟ في هذا السياق، أصدرت الجمعية الإحصائية الأمريكية (ASA) بيانًا تاريخيًا عام 2016 حذّرت فيه رسميًا من ستة أمورٍ تُفهَم فهمًا خاطئا عن قيمة الاحتمال (p-value) والدلالة الإحصائية، مؤكدة أن المشكلة ليست فردية، بل بنيوية ومتجذرة في الممارسة العلمية.
حذّر البيان أولًا من المغالطة الأخطر، المتمثّلة في مساواة الدلالة بالأهمية؛ إذْ كَوْنُ النتيجة «دالة إحصائيًا» لا يعني أنها مهمة علميًا أو ذات أثر عملي؛ فالدلالة لا تعني الأهمية، ولا تُفيدُ الجَسَامَة، ولا تَـلْبس مُسُوحَ اليقين. ثم نبّه إلى المغالطة العكسية التي تُفهم فيها قيمة p على أنها احتمال صحة الفرضية الصفرية، فيُقال إن (p = 0.05) تعني أن هناك احتمالًا 5% أن يكون العدم صحيحًا، في حين أنّ p في حقيقتها تتحدث عن البيانات بافتراض صحة العدم، لا عن صحة العدم نفسه. كما حذّر من مغالطة «كل شيء أو لا شيء»، حيث يُفهم (عدمُ وجودِ فرقٍ) في معادلة: p أكبر من 0.05 ، والواقعُ أنها قد تعني أن البيانات غير حاسمة أو أن الدراسة ركيكة. وأشار البيان إلى خطأ الاعتقاد بأن قيمة p تقيس حجم الأثر، أو أنها مستقلة عن حجم العينة، أو أنها تخبرنا عن احتمال تكرار النتيجة. كانت هذه التحذيرات اعترافًا مؤسسيًا بأن الإحصاء أُسيء فهمه لغويًا، وأن اللغة مارَسَتْ دورًا مركزيًا في تضليل الفهم ذاتَ غفلةٍ مِـنّا.
من هنا أخَذَ النقدُ يتجه مباشرة إلى كلمة Significant نفسها التي تعني في الاستعمال اليومي الشائع: «مهم، ملحوظ، كبير، ذو شأن»، غير أنها في السياق الإحصائي لا تعني أكثر من أن النتيجة قابلة للتمييز عن التقلبات العشوائية، بدرجةٍ معقولة من الاحتمال، ضمن نموذج افتراضي معيّن، ودون أن يتضمن ذلك أي حُكم على حجم الأثر أو أهميته العملية. الفارق بين المعنيين هو الفارق بين الحكم والوصف. ولهذا اقترحَ عدد من الإحصائيين والمحررين الغربيين الاستعاضة عنها بمصطلحات أكثر حيادًا، مثل Statistically discernible، أي «قابل للتمييز إحصائيًا».
وعندما ننتقل إلى اللغة العربية، تتفاقم المشكلة! فكلمة «دلالة» في لغتنا ليست محايدة؛ هي محمّلة بإيحاءات بلاغية ومعرفية إقناعية؛ إذ تُوحي بــ: الإيعاز إلى معنى، الإشارة إلى مغزى، التأكيد على حُجة. لذلك، حين يقرأ القارئ أن النتيجة «ذات دلالة إحصائية»، يَفهم تلقائيًا أنها نتيجة مهمة ومؤكدة وحاسمة. هذا الالتباس اللغوي ينعكس مباشرة على الممارسة البحثية التربوية؛ ففي عددٍ من الرسائل الجامعية، يغدو الحصول على (p ( 0.05) هدفًا بحد ذاته، وفي بعض الأبحاث المنشورة يُهمل الحديث عن حجم الأثر وفترات الثقة. أما في صُنع السياسات فقد تُبنى قرارات مكلِّفة، على فروق إحصائية غير مهمة! وهذا ما سيجعل بعض التربويين من الباحثين يَرون أن المصطلح الحالي قد يكون خاطئًا حين تُرجم منذ البداية، زلكنه أصبح تقليدًا لا يجرؤ أحد على مساءلته!
ولأجْلِ ذا؛ تَبرز أهمية التحوّل التدريجي من استعمال مصطلح «الدلالة الإحصائية» إلى «التمييز الإحصائي». فمصطلح «التمييز الإحصائي» أي تمييز الإشارة عن ضجيج العشوائية بدرجة كافية إحصائيًا؛ فهو لا يُـثْبت ولا يؤكد ولا يحكم على الأهمية. إنّ هذا التحول ليس ترفًا لغويًا، بل ضرورةٌ معرفية، وإعادة ضبطٍ للعلاقة بين الباحث وبياناته، وانتقال من لغة الحسم واليقين الزائف، إلى لغة الإدراك والوصف الدقيق. فهو تحوّلٌ يضع في الاعتبار أهمية السَّك الدقيق للمصطلحات؛ نظرًا إلى أنها تَصنع طريقة فهمنا واتخاذنا للقرار، فضلاً عن إشارتها إلى معنى ضمني اُتُّفِق عليه. وبعد الإقرار بأنّ الأثر «مميَّز إحصائيًا»؛ سيُجبر الباحث أخلاقيًا ومنهجيًا على الإجابة عن السؤال الأهم: ماذا يعني هذا التمييز؟ ما حجمه؟ وهل له قيمة في السياق الواقعي؟
وهذا الإقرار بالمفهوم الصحيح، لا يَعني نسف المصطلحات الراسخة فجأة كـ«الدلالة الإحصائية/ذو دلالة إحصائية» (Statistically Significant/Statistical Significance) ، وإنما هو إصلاحٌ تدريجيٌ واع، حيث يَظل في وسعنا إدخال المصطلح الجديد بوصفه مصطلحًا موازيًا مشروحًا، مع تطويق المصطلح القديم بتحذير دائم مِنْ مِثْل: «الدلالة لا تعني الأهمية، الإحصاء يُميِّز ولا يَحكُم، التمييز الإحصائي بداية النقاش لا نهايته، التمييز الإحصائي يُميز النمطَ عن الضجيج، ولا يُقرر أهميته؛ فتقرير الأهمية هو مسؤولية ال باحث». هذا الإصلاح اللغوي يجب أن يرافقه إصلاح ثقافي منهجي: إلزام بالإبلاغ عن حجم الأثر وفترات الثقة، وتعليم الإحصاء بصفته فلسفةً لإدارة عدم اليقين لا بصفته إرشادات جاهزة، وتغيير معايير النشر لتكافئ جودة السؤال والتصميم لا مجرد «النتيجة الدالة».
لكنْ ماذا يفعل الباحث أو المشرف أو المحرر؟ في ظني أنّ الحلول العملية الفورية واضحة، إذ يستطيع الباحثُ أن يَكتب: «كان الفرق مميَّزًا إحصائيًا» بدلاً من «دالًا»، مع التزامه بمناقشة حجم الأثر. أما المشرف الأكاديمي، فيَطلب من طلبته تفسير فترات الثقة قبل الاحتفاء بقيمة p. وأما محررو المجلات؛ فيُمكنهم تعديلُ تعليمات النشر لتتضمن شروطًا مثل: إبراز حجم الأثر مع أي نتيجة مميَّزة إحصائيًا. هذه خطوات صغيرة في الظاهر، لكنها تُغيّر الثقافة البحثية من الجذور.
في النهاية، أؤكدُّ ما بَدَأتُه؛ أنّ اللغة ليست وعاءً محايدًا للأفكار، بل هي ما يصنع عقلنا العلمي ويُوجِّهُـهُ. حين نستعمل لغةً غير احتمالية، لغةً توهمنا باليقين، لوصف نتائج احتمالية؛ نحن هنا لا نسيء إلى اللغة/الكلمات فحسب، بل إلى العلم نفسه. التحول من «الدلالة الإحصائية» إلى «التمييز الإحصائي» هو اعتراف بتواضع المعرفة، وتحرير للبحث من طغيان الرقم، وخطوة نحو نضج منهجي لا يكتفي بأن يكون الفرق مميَّزًا، بل يشترط أن يكون ذا معنى. ولا معنى لـ«التمييز الإحصائي» إذا لم يرافقه الإبلاغ عن حجم الأثر وفترات الثقة، كما لا قيمةَ للإحصاء إذا دُرّسَ بوصفه وصفاتٍ جاهزة لإنتاج «نتائج دالة»، في حين أنه فلسفةٌ للاستدلال في ظل عدم اليقين. ولا قيمةَ له أيضًا، إذا استمرت ثقافة النشر البحثي في تفضيل النتائج «المميَّزَة» على حساب الأسئلة الجيدة والتصاميم المتينة، أو إذا ظل بَـعضُ صُنّاع القرار يتعاملون مع الأرقام بوصفها أحكامًا نهائية؛ فالإحصاء-في حقيقته- ليس سحرًا يحوّل البيانات إلى حقائق، وإنما فن دقيق لتمييز الإشارة من الضجيج/العشوائية، وربما يكون أول ما ينبغي علينا تمييزه هو كلماتنا/لغتنا، حتى نستطيع بعد ذلك أن نميّز أفكارنا وقراراتنا على نحو أكثر رشدا.