الأسس الخاطئة للذكاء الاصطناعي

by Ayesha Al Jaber
Erreurs étiquetage MIT

عليك استدعاء الأشياء بأسمائها الحقيقية. إنها حرفياً الخطوة الضرورية قبل تدريب خوارزمية ذكاء اصطناعي: وضع العلامات أو التعليقات التوضيحية على جميع محتويات قاعدة البيانات ، وإرفاق الكلمة التي تصف بوضوح الصورة والفيديو وما إلى ذلك. صورة قطة؟ نكتب “قطة”. سيتم استخدام هذا في هذه الحالة لتدريب خوارزمية التعرف المرئي. هذا التصنيف ، الذي لا يزال غير معروف نسبيًا ، يتم يدويًا ، بشكل عام من قبل الأشخاص الذين يدفعون مقابل المهام الصغيرة المتكررة. ومع ذلك ، في مقال نُشر في نهاية شهر مارس ، اكتشف فريق مكون من ثلاثة باحثين أنشأه معهد ماساتشوستس للتكنولوجيا أن قواعد بيانات التدريب الأكثر استخدامًا كانت مشلولة بأخطاء في التوسيم: سرطان البحر يحمل علامة “جراد البحر” ، شوهد ضفدع كقط ، يصف “إبريق” إبريق شاي و “فتاحة علب” كسارة بندق. يتم تجميع أي أخطاء يتم العثور عليها على موقع Labelerrors الذي تم وضعه على الإنترنت لهذه المناسبة.

وهكذا تم مسح عشر قواعد بيانات. تم إنشاء MNIST في عام 1998 ، ويقوم بتجميع الأرقام المكتوبة بخط اليد. CIFAR-10 و CIFAR-100 صورتان صغيرتان جدًا. تعد Caltech-256 و ImageNet أيضًا قواعد بيانات للصور. بسرعة! يرسم! تجمع عشرات الملايين من الرسومات المكتوبة بخط اليد معًا ، وقاعدة بيانات 20news مكرسة لموضوعات منتديات Usenet وتتكون مراجعات Amazon من مراجعات نصية وتقييمات قدمها مستخدمو الإنترنت على Amazon. يتم استخدام موقع IMDB Film Industry لمراجعات الأفلام الخاصة به ، مما يسمح بتدريب خوارزمية للتعرف على المشاعر الإيجابية أو السلبية. أخيرًا ، يحتوي AudioSet على أكثر من مليوني مقطع صوتي مدته 10 ثوانٍ من مقاطع فيديو YouTube.

معدل خطأ إجمالي يبلغ 3.4٪

وفقًا للباحثين ، يبلغ معدل الخطأ الإجمالي 3.4٪. مع الاختلافات: 0.54٪ في CIFAR-10 و 2.9٪ في IMDB و 5.85٪ في ImageNet وأكثر بقليل من 10٪ في Quick! يرسم! للوصول إلى هذه الملاحظة ، من الواضح أن الفريق لم يقم بإجراء مراجعة يدوية شاملة لكل عنصر من عناصر البيانات في كل قاعدة بيانات ، لكنه صمم خوارزمية من المفترض أن تتنبأ بالوسم. تمت مقارنة النتيجة التي تم التوصل إليها بالتصنيف الفعلي وعندما كان هناك عدم تطابق ، قام خمسة أشخاص تم تجنيدهم على منصة Amazon Mechanical Turk (النظام الأساسي نفسه المستخدم لتجنيد الأشخاص الذين قاموا بتعليق البيانات في الأصل) بالتحقق من الخطأ ، والتحقق الخوارزمية أو التعليق التوضيحي الأولي.

الأخطاء التي تم العثور عليها من عدة أنواع. إما أنها حقًا أي شيء (“قطة” بدلاً من “ضفدع”) أو أنها مشكلة سوء فهم أو غموض. وهكذا في ImageNet ، تظهر صورة للسيركات تحمل علامة “الباندا الحمراء” ، ويتم التقاط شاشة كومودو لوحش جيلا ، ويوصف البابون بـ “سيامانغ” ، وهو عقرب باسم “القراد”. تم إعطاء ملصق “العقعق” لصورة غزال ولكن مع وجود دليل على ظهره. يتم تمييز الدلو المملوء بكرات القاعدة على أنه “دلو” فقط. دراجة جبلية مكتوب عليها “زجاجة ماء” لأن هناك واحدة متصلة بالإطار. في Caltech-256 ، يُخطئ نصف مقطورة تسحب خارجيًا على أنها شاحنة إطفاء.

فراشة أم كوع؟

في QuickDraw ، وهو الأكثر انفتاحًا على التفسير نظرًا للرسومات التي غالبًا ما تكون سطحية ، إن لم تكن غامضة تمامًا ، تم الخلط بين العين والنمر وما يمكن أن يكون فراشة يوصف بأنه “مرفق”. بشكل أكثر دقة ، في 20News ، يتم إعادة تصنيف موضوع المناقشة المشروحة على أنها “إلكترونية” على أنها “مكانية”. في أمازون ، تتعلق الأخطاء بتأهيل المراجعات والتقييمات على أنها “إيجابية” أو “سلبية” أو “محايدة”.

التحدي الذي يواجه هذا العمل ليس فقط الإشارة إلى الأخطاء أو زيادة الوعي بالصعوبة ، أحيانًا ، في تصنيف معطى ولكن أيضًا للتنبيه بشأن الآثار المترتبة عليها. وهكذا اختبر الباحثون عدة خوارزميات وقارنوا أدائها: فبعضها يصبح فجأة أفضل من البعض الآخر عندما يتم تصحيح وضع العلامات على قواعد البيانات. ومع ذلك ، يؤكد المقال ، “يختار ممارسو التعلم الآلي الخوارزمية التي سيستخدمونها بناءً على مدى أدائها في الاختبار.”. لذلك يصر مؤلفو هذه الدراسة على حقيقة تصحيح الملصقات بانتظام ، على وجه الخصوص ، فيما يتعلق بالصور ، عندما يتعلق الأمر بمشاهد من الحياة الواقعية ، أكثر تعقيدًا ومصادر الغموض من كائن بسيط معروض .. على خلفية محايدة. إذا تم ترك كل شيء كما هو ، فليس من المستحيل أن يكون لأخطاء التعليقات التوضيحية عواقب وخيمة بمجرد انتهاء السلسلة ، أو وجود سيارة مستقلة للتشغيل أو إصدار تشخيص طبي تلقائيًا.

Related Articles

Leave a Comment