د.عبدالإله آل سودا
هل نفكّر أولًا ثم نعبّر بالكلمات، أم أننا نفكّر أصلًا داخل اللغة، لا قبلها؟ هذا سؤال لغوي - فلسفي ليس له جواب حاسم، غير أن ما استقرّت عليه بعضٌ من الدراسات المعرفية وفلسفة العلم هو أن اللغة -أيّ لغة- ليست وعاءً محايدًا للأفكار، وإنما إطار يوجّه طرائق تفكيرنا العلمية والفكرية في الغالب. فاللغة تَنقل إلينا المعنى، وتَمنحنا إلى جانب ذلك عدساتٍ تُحددُ زاويا النظر؛ لتؤثر في الكيفية التي نفسّر بها الأدلة، ونبني عليها الأحكام. وتتجلّى هذه الخَصِيْصَةُ بوضوح في الخطاب العلمي، الذي لا يكون الخلاف فيه – أحيانًا - في النتائج أو المعادلات ذاتها، بل في الصياغة اللغوية التي نعرض بها هذه النتائج، وما تحمله من إيحاءات تصنع الفهم قبل أن يبدأ النقاش العلمي نفسه!.
وإذا تناولنا علمًا مهمًا كالإحصاء مثلاً؛ فكم قرارًا تربويًا مهمًا اتُّـخِذَ بناءً على فهم خاطئ لمصطلح إحصائي واحد؟ هذا السؤال لم يعد بلاغيًا لغويًا، بل أصبح سؤالًا ذا أثرٍ واقعي ملموس، وله تبعات مالية وتربوية وثقافية جسيمة. تخيّل لو أنّ جسرًا صُمّمَ ليتحمل 50 سيارة في اللحظة الواحدة، ولكن المهندس الذي صممه وصفه بأنه قوي دون تحديد العدد الذي يتحمله الجسر، فعموم المتلقين سيفهمون أن «القوة» تعني تحمّل مئات السيارات. المشكلة هنا ليست في الحسابات الهندسية، بل في الكلمة التي خانت المعنى، وقد تقود إلى كارثة!! هذا بالضبط ما يحدث اليوم في بعضٍ من البحوث التربوية، خصوصًا في تناولها مصطلحَ «الدلالة الإحصائية»، الذي يُقابل في الإنجليزية Statistical Significance ويُعرّف بأنه أداة للاستدلال الاحتمالي، تُستعمل لتقدير مدى عدم توافق النتائج الملاحظة مع فرضية العدم، وذلك عبر مقارنة قيمة p بمستوى دلالة محدد مسبقًا، فمفهوم الإحصاء يَدور حول علاقة بيانات بفرضية فحسْب، إذ الدلالة الإحصائية أداة ضمن منظومة أوسع لاختبار الأدلة، لا حُكمًا نهائيًا على صدق النتائج أو أهميتها التطبيقية.
ومن الملحوظ أن هذا المصطلح تَحوّلَ، بما يحمله من إيحاءات لغوية خادعة، إلى قبعة سحرية تُخرِج للباحثين وهْمَ اليقين من جَـوْفِ الاحتمال، وتمنح نتائج هشة معرفيًا؛ تُوحي بالقوة والحسم، في حين أنها لا تُقَدّم الإحصاء في جوهره، سوى محاولة متواضعة لتمييز نمط من وسط ضجيج عشوائي. هذا الخلل لم يعد موضع جدلٍ نظري فقط، إذْ كُشِف عنه علميًا في الدول الغربية في السنوات القليلة الماضية، فيما عُرف بأزمة التكرار العلمي (The Replication Crisis)، وجَرَتْ نقاشات كثيرة عن مشكلة «اللغة» التي تُغَلِّف اختبارات الفرضيات (NHST)، وتَـبِعَ ذلك شريحةٌ من المهتمين في العالم العربي، وجميعهم يكادون يتفقون على أن جزءًا مهمًا من سوء الفهم التاريخي لمفهوم «الدلالة الإحصائية» لا يعود إلى علم الإحصاء ذاته، بل إلى «القِـشرة اللفظية» التي تُلْبِـس نتيجةً احتماليةً محكومةً بنموذجٍ افتراضي، لباسَ الأهميةِ والحسم والصحة!.
أهمية الالتفات إلى هذه الإشكالية في استعمال مصطلح «دلالة إحصائية / ذو دلالة إحصائية» تتضح أكثر حين نخرج من التنظير إلى السياسات التعليمية التطبيقية، وهنا لا تَبقى القضية مجرد إشكالية مصطلحية، وإنما تمتد لتتحول إلى قرارات مُكلّفة تؤثر في ملايين الطلبة.
أحد أبرز الأمثلة على ذلك برنامج Reading First في الولايات المتحدة، الذي كان جزءًا من قانون No Child Left Behind، وبلغت تكلفته أكثر من ستة مليارات دولار بين عامي 2002 و2008. بُني البرنامج على دراسات وتجارب أظهرت أن مكونات معينة من «علوم القراءة» ، مثل: الوعي الصوتي وفك التشفير والتعرف على الكلمات، تُحدث فروقًا ذات دلالة إحصائية في مهارات قرائية جزئية، ضمن بيئات بحثية مضبوطة. وقد بدت الأدلة قوية بما يكفي لتطبيقه على نطاقٍ واسع. غير أن التقييم الوطني المستقل الذي أجراه معهد العلوم التربوية الأمريكي كشف مفارقة حاسمة: نعم، غيّر البرنامج ممارسات المعلمين، وحقق تحسنًا محدودًا في بعض المهارات الدنيا، لكنّه لم يُنتج تحسنًا ذا دلالة إحصائية، أو معنى تربوي ملموس في فهم القراءة لدى الطلاب في الصفوف الأولى، مقارنةً بالمجموعات التي تلقت التمويل العادي. وهنا تتجلى الفجوة بوضوح، حيث إنّ وجود دلالات إحصائية جزئية على مكونات صغيرة؛ لم تترجم إلى فاعلية تعليمية كلية تُسوّغ الاستثمار الهائل. المثال لا يُظهر فشل الإحصاء، بل فشل الاستدلال الذي قفز من «قابل للتمييز» إلى «واجب التطبيق».
وهناك مثال آخر، لا يقل دلالة، هو ذيوع ما عُرفَ بـ «أنماط المتعلّم» هل نمطه: بصري أو سمعي أو حركي. هذه الفكرة انتشرت عالميًا في المدارس وبرامج التدريب، مدعومة بدراسات فردية أظهرت تفاعلات «دالّة إحصائيًا» بين طريقة التدريس ونمط المتعلم المزعوم؛ فراجَتْ هذه الفكرة الخلابة التي تفترض أن لكل متعلم نمطًا ثابتًا يجب أن يُدرّس على أساسه. وصَدَّقَها كثيرون! لكنها حين خضعت لمراجعة منهجية صارمة ذات تصميم تجريبي قوي، اتّضح أن أدلتها لا تدعم الفرضية الأساسية؛ فمعظم الدراسات المثبِتة لها، كانت ضعيفة المنهجية أو ذات أحجام أثر صغيرة وغير مستقرة، وأما الدراسات المحكمة ففشلت في إعادة إنتاج النتائج مرة أخرى. وهنا لم تكن المشكلة في وجود فروق «مميّزة إحصائيًا» هنا أو هناك، ولا أنّ لكل متعلم تفضيلات، بل في تحويل هذه التفضيلات إلى هوية تعليمية ثابتة تُبنى عليها سياسات ومناهج بلا دليل قوي.
هاتان الحالتان ليستا استثناءً، بل نموذجان مكتملان لسلسلة الخطأ نفسها: نتائج بدت دالّة إحصائيًا في سياقات محدودة، ولغة أوحت بالأهمية والحسم، وقفزة استدلالية إلى التعميم، ثم اختبار قاسٍ في الواقع التعليمي كشف أن الأثر ضعيف أو غير ذي معنى. وهنا تتضح أهمية تحديد الفجوة المصطلحية لا بوصف المصطلح مجرد كلمة، وإنما بوصفه أداة توجيهٍ للفهم والقرار.
وقد بدأ المجتمع العلمي العالمي يراجع نفسه بجرأة، لَـمَّا رأى أن عددًا كبيرًا من النتائج تُصَنّفُ بأنها «ذات دلالة إحصائية»؛ لا يمكن إعادة إنتاجها. عندها تغيّر السؤال جذريًا: هل الإحصاء نفسه قاصِر، أم أن اللغة التي نستخدمها لوصف نتائجه هي التي تقودنا إلى سوء الفهم؟ في هذا السياق، أصدرت الجمعية الإحصائية الأمريكية (ASA) بيانًا تاريخيًا عام 2016 حذّرت فيه رسميًا من ستة أمورٍ تُفهَم فهمًا خاطئا عن قيمة الاحتمال (p-value) والدلالة الإحصائية، مؤكدة أن المشكلة ليست فردية، بل بنيوية ومتجذرة في الممارسة العلمية. (للحديث بقية)