باحثون لا يتحدثون الإنجليزية غير مرئيين على الباحث العلمي من Google

by Ayesha Al Jaber
Clavier d

ربما يمكن إلقاء اللوم على Google في الكثير من الأشياء ، ولكن ليس بسبب عدم معرفتها كيفية وضع اللغة الإنجليزية في دائرة الضوء. هذا هو بالضبط المكان الذي يقرص فيه الحذاء لثلاثة باحثين إسبان. في مقال نشر في نهاية يناير 2021 بالمجلة إنترنت المستقبل، هذا الفريق من كلية الاتصالات بجامعة بومبيو فابرا في برشلونة يوضح كيف يعاني الباحث العلمي من Google ، محرك البحث المخصص للعمل البحثي الأكاديمي ، من تحيز لغوي واضح. كل ما هو غير مكتوب باللغة الإنجليزية يكاد يكون غير مرئي لمستخدمي الإنترنت أو الباحثين أنفسهم أم لا.

عمل باحثون إسبان باختبار المحرك. يعمل الباحث العلمي من Google وفقًا لخوارزمية منفصلة عن تلك الخاصة بالمحرك العام ، ولكنها سرية تمامًا. معايير الإحالة غير معروفة. لذلك كان من خلال الاستنتاج ، من خلال التجريبية ، كما يفعل متخصصو تحسين محركات البحث مع نظام ترتيب الصفحات الشهير ، أن الفريق لاحظ كيف ظهرت المقالات غير الناطقة باللغة الإنجليزية في صفحات النتائج. وهذا ما يسمى بالهندسة العكسية ، وتتكون من البدء من نتيجة (في معالجة البيانات كما في الصناعة) لتشريح العمليات التي تنتجها.

ثقل الاقتباسات

بمرور الوقت ، من خلال الممارسة والدراسة والمراقبة ، ظهرت معايير معينة من الباحث العلمي من Google ، كما يتذكر الباحثون الثلاثة. مثل وجود الكلمات الرئيسية في عنوان المقالة ، مثل PageRank ، ولكن أيضًا عدد الاقتباسات في المقالات الأخرى. سيلعب عمر الدراسة أيضًا لصالح مرجعها الجيد. “يجب أن تتطابق المصطلحات التي تم إدخالها في محرك البحث تمامًا مع تلك الموجودة في المقالةوشرح الباحثين ، ولا يوسع الباحث العلمي من Google عمليات البحث لتشمل الكلمات الرئيسية المترادفة كما هو الحال في Google “.

بشكل ملموس ، أجرى الفريق 45 بحثًا عن مقالات متعددة اللغات ، أسفر كل منها عن ألف نتيجة.

تم إجراء عمليات البحث هذه باستخدام ثلاث طرق مختلفة: أسماء المؤلفين والتاريخ والكلمات الرئيسية. انتقلت مجموعة المقالات من عام 2000 إلى عام 2014. لتجنب التحيز ومحاولة الحصول على نتائج متعددة اللغات ، كانت الكلمات الرئيسية الـ 15 التي تم اختبارها شائعة بين الإنجليزية والإسبانية. لم يشروا إلى مجالات بحث محددة أيضًا ، بل كانوا مصطلحات عامة (أزمة ، إرهاب ، عام ، فيدرالي ، مهرجان ، فكرة …). للأسباب نفسها ، كانت أسماء المؤلفين الخمسة عشر هي الألقاب الناطقة بالإسبانية من بين أكثر الأسماء شيوعًا في الولايات المتحدة (كروز ، دياز ، مارتينيز ، سانشيز ، فلوريس ، موراليس …).

مرئي من رتبة 900

ورقة التوازن؟ اعتمادًا على السنة ، تبدأ الإشارة إلى ما بين 77٪ و 97٪ من المحتوى غير الناطق باللغة الإنجليزية من 900ه المكان ، مقابل 1 إلى 26 للنصوص الإنجليزية. أدرك الفريق أيضًا أن المعيار الرئيسي لعدد الاقتباسات التي تلقاها مقال لم يعد له أي وزن لأن هذه المقالة لم تكن ناطقة بالإنجليزية.

Concernant la recherche par mot-clef, dans le meilleur des cas (le mot “popular”) le nombre de contenus non-anglophones atteint 8,6% des résultats sur l’ensemble des recherches menées (2,5% avec le mot “ مجموع”). باستخدام استعلام باسم المؤلف ، تم إنشاء أفضل معدل بواسطة “Garcia” بنسبة 15.7٪. كل ما تبقى هي مقالات باللغة الإنجليزية ، بغض النظر عن جنسية المؤلفين والمؤسسات الأكاديمية.

كما يتضح من هذا البحث ، فإن التحيز اللغوي لـ Google Scholar والاختلاف في المعاملة بين المحتوى باللغة الإنجليزية والمحتوى غير الإنجليزي يكاد يكون صعبًا ، سواء كان مقصودًا أو عرضيًا. بالنسبة للباحثين ، يتعلق الأمر بجعل العمل الأكاديمي غير الإنجليزي غير موجود تقريبًا ، مما يعطي الانطباع بأنه لا أحد يكتب غير اللغة الإنجليزية ، بغض النظر عن التخصص. “من الواضح أنه حتى يتم معالجة هذا الأمر ، فإن فرص الإدراج في بحث Google Scholar متعدد اللغات تزداد بشكل ملحوظ عندما يختار المؤلفون النشر باللغة الإنجليزية “، استنتج المؤلفون. خلاف ذلك ، لا يزال هناك حل الشبكات الاجتماعية أو المدونات للإشارة إلى أنفسهم بشكل أفضل. حتى تنفتح Google على العالم.

Related Articles

Leave a Comment