استفاده از هوش مصنوعی مولد ضمن بهبود عملکرد در حل مسائل پیچیده، باعث ایجاد هوش مصنوعی و اعتماد به نفس کاذب در کاربران می شود که طی آن افراد توانایی واقعی خود را بسیار فراتر از واقعیت تخمین می زنند.
تحقیقات جدید نشون می ده که استفاده از هوش مصنوعی برای انجام کارها می تونه عملکرد آدم رو بهتر کنه، اما در عین حال، توانایی فرد برای ارزیابی درست اون عملکرد رو هم مختل می کنه. یافته ها حاکی از اینه که با وجود اینکه کاربران ابزارهای هوش مصنوعی مثل ChatGPT در تست های استدلال منطقی نسبت به کسایی که تنهایی کار می کنن نمرات بالاتری می گیرن، اما به طور مداوم موفقیت خودشون رو خیلی بیشتر از چیزی که هست برآورد می کنن. این الگو نشون می ده که کمکِ هوش مصنوعی ممکنه باعث بشه درک کاربر از توانایی هاش با نتایج واقعی اش فاصله بگیره و منجر به یک نوع هوش مصنوعی و اعتماد به نفس کاذب بشه. این مطالعه در مجله علمی Computers in Human Behavior منتشر شده است.
بررسی پدیده هوش مصنوعی و اعتماد به نفس کاذب
دانشمندان و روان شناسان اخیرا بیشتر روی این موضوع تمرکز کردن که چطور شناخت انسان وقتی با تکنولوژی تقویت می شه، تغییر می کنه و حتی موضوعاتی مانند کاهش فرسودگی با بازی سوپر ماریو و تاثیر آن بر سلامت روان را هم در کنار ابزارهای جدی تر بررسی کرده اند. با رایج شدن سیستم های هوش مصنوعی مولد در محیط های حرفه ای و آموزشی، خیلی مهمه که بفهمیم این ابزارها چطور روی «فراشناخت» تاثیر می ذارن و چگونه می توانند به هوش مصنوعی و اعتماد به نفس کاذب منجر شوند. فراشناخت به توانایی فرد برای نظارت و تنظیم فرآیندهای فاتی خودش گفته می شه. این همون چیزیه که به آدم ها اجازه می ده بفهمن کی دارن درست می گن و کی ممکنه اشتباه کنن.
تحقیقات روان شناختی قبلی ثابت کرده که انسان ها کلا در خودارزیابی مشکل دارن. یک پدیده معروف به اسم «اثر دانینگ-کروگر» توضیح می ده که چطور افراد با مهارت کمتر تمایل دارن توانایی خودشون رو دست بالا بگیرن، در حالی که افراد خیلی ماهر معمولا توانایی های خودشون رو دست کم می گیرن. نویسنده های این مقاله دنبال این بودن که بفهمن آیا این الگو موقع همکاری انسان با هوش مصنوعی هم تکرار می شه یا نه. اون ها می خواستن بفهمن آیا هوش مصنوعی مثل یک تراز عمل می کنه که این سوگیری ها رو اصلاح می کنه، یا اینکه پیچیدگی های جدیدی به نحوه ارزیابی کارِ افراد، از جمله پدیده هوش مصنوعی و اعتماد به نفس کاذب، اضافه می کنه.
برای بررسی این سوالات، تیم تحقیقاتی دو مطالعه مجزا با محوریت وظایف استدلال منطقی طراحی کردن. در اولین مطالعه، 246 شرکت کننده از ایالات متحده استخدام شدن. از این افراد خواسته شد 20 مسئله استدلال منطقی از آزمون ورودی دانشکده حقوق (LSAT) رو حل کنن. محققان یک رابط کاربری وب مخصوص در اختیارشون گذاشتن که یک طرفش سوالات رو نشون می داد و طرف دیگه یک پنجره چت با ChatGPT داشت.
تصویر زیر نشان دهنده ابزارهای نوین پردازش اطلاعات است که می تواند بر نحوه قضاوت ما تاثیر بگذارد.
![]()
این نمودارها و تصاویر به خوبی گویای فاصله میان عملکرد واقعی و تصورات ذهنی افراد هستند.
شرکت کننده ها مجبور بودن برای هر سوال حداقل یک بار با هوش مصنوعی تعامل داشته باشن. اون ها می تونستن از هوش مصنوعی بخوان مسئله رو حل کنه یا منطقش رو توضیح بده. بعد از فرستادن جواب ها، شرکت کننده ها تخمین زدن که فکر می کنن چند تا از 20 سوال رو درست جواب دادن. همچنین میزان اطمینان خودشون رو برای هر تصمیم به صورت جداگانه رتبه بندی کردن.
نتایج این مطالعه اول، پیشرفت واضحی رو در عملکرد واقعی نشون داد. به طور متوسط، شرکت کننده هایی که از ChatGPT استفاده کردن، حدود 3 امتیاز بالاتر از گروه کنترلی گرفتن که همون تست رو بدون کمک هوش مصنوعی انجام داده بودن. هوش مصنوعی به کاربران کمک کرد مسائلی رو حل کنن که احتمالا خودشون به تنهایی نمی تونستن از پسشون بربیان.
با وجود این بهتر شدنِ نمرات، شرکت کننده ها دچار بیش تخمینی شدیدی شدن. به طور متوسط، این گروه فکر می کردن حدود 17 سوال از 20 سوال رو درست جواب دادن. در حالی که در واقعیت، میانگین نمره شون نزدیک به 13 بود. این یعنی یک اختلاف 4 امتیازی بین تصور و واقعیت. داده ها نشون می دن که کمکِ بدون دردسرِ هوش مصنوعی، یک «توهم توانمندی» یا همان پدیده هوش مصنوعی و اعتماد به نفس کاذب را ایجاد کرده است.
این مطالعه همچنین رابطه بین دانش شرکت کننده از هوش مصنوعی و خودارزیابی اون ها رو تحلیل کرد. محققان «سواد هوش مصنوعی» رو با ابزاری به نام «مقیاس ارزیابی سواد هوش مصنوعی افراد غیرمتخصص» اندازه گیری کردن. شاید آدم انتظار داشته باشه که فهمیدن نحوه کار هوش مصنوعی باعث بشه کاربر در قضاوتش شکاک تر یا دقیق تر بشه. اما یافته ها برعکس این رو نشون دادن. شرکت کننده هایی که درک فنی بالاتری از هوش مصنوعی داشتن، معمولا به جواب هاشون اعتماد بیشتری داشتن اما در قضاوت عملکرد واقعی شون دقت کمتری داشتن، که خود نشانه ای از هوش مصنوعی و اعتماد به نفس کاذب است.
یک سهم تئوری مهم این تحقیق مربوط به اثر دانینگ-کروگر است. در سناریوهای معمولی بدون هوش مصنوعی، داده ها یک شیب تند رو نشون می دن که در اون افراد با عملکرد ضعیف، خودشون رو خیلی دست بالا می گیرن و افراد با عملکرد بالا این کار رو نمی کنن. وقتی شرکت کننده ها از هوش مصنوعی استفاده کردن، این اثر ناپدید شد. اثر «ترازکنندگیِ» این تکنولوژی باعث شد که بیش تخمینی و پدیده هوش مصنوعی و اعتماد به نفس کاذب در همه گروه ها یکسان بشه. یعنی هم کسایی که ضعیف بودن و هم کسایی که قوی بودن، نمراتشون رو به یک اندازه بالاتر از واقعیت تصور می کردن.
محققان مشاهده کردن که عملکرد ترکیبی انسان و هوش مصنوعی از عملکرد خودِ هوش مصنوعی به تنهایی بالاتر نرفت. سیستم هوش مصنوعی وقتی تست رو خودش به تنهایی انجام داد، میانگین نمره بالاتری نسبت به انسان هایی که ازش استفاده می کردن گرفت. این نشون دهنده شکست در هم افزایی (سینرژی) هست. انسان ها گاهی اوقات توصیه های اشتباه هوش مصنوعی رو قبول می کردن یا برعکس، توصیه های درستش رو نادیده می گرفتن و همین باعث می شد عملکرد کلی شون از پتانسیل حداکثریِ ماشین پایین تر بیاد.
برای اطمینان از دقیق بودن این یافته ها، محققان مطالعه دومی رو انجام دادن که شامل 452 شرکت کننده بود. اون ها این افراد رو به دو گروه مجزا تقسیم کردن. یک گروه کار رو با کمک هوش مصنوعی انجام دادن و گروه دیگه بدون هیچ کمک تکنولوژیکی.
در این آزمایش دوم، محققان یک جایزه پولی برای تشویق به دقت بیشتر در نظر گرفتن. به شرکت کننده ها گفته شد اگه تخمینشون از نمره شون با نمره واقعی یکی باشه، پاداش مالی می گیرن. هدف این بود که احتمالِ اینکه شرکت کننده ها صرفا برای خودآگاهی تلاش نمی کنن، رد بشه.
نتایج مطالعه دوم مشابه اولی بود. جایزه پولی هم نتونست سوگیری بیش تخمینی رو اصلاح کنه. گروهی که از هوش مصنوعی استفاده می کردن همچنان بهتر از گروه بدون کمک عمل کردن، اما باز هم نمرات خودشون رو دست بالا گرفتن. گروه بدون کمک، همون الگوی کلاسیک دانینگ-کروگر رو نشون دادن که در اون افراد کم مهارت بیشترین سوگیری رو داشتن. گروه هوش مصنوعی دوباره سوگیری یکسانی رو نشون دادن که تایید می کنه این تکنولوژی اساسا نحوه درک کاربران از توانایی هاشون رو تغییر می ده و منجر به پدیده هوش مصنوعی و اعتماد به نفس کاذب می شود.
این مطالعه همچنین از معیاری به نام «سطح زیر منحنی» یا AUC برای سنجش حساسیت فراشناختی استفاده کرد. این معیار تعیین می کنه که آیا یک فرد وقتی حق با اوست، اعتماد به نفس بیشتری نسبت به زمانی که اشتباه می کنه داره یا نه. در حالت ایده آل، آدم وقتی اشتباه می کنه باید احساس عدم اطمینان داشته باشه. اما داده ها نشون داد که شرکت کننده ها حساسیت فراشناختی پایینی داشتن. سطح اعتماد به نفس اون ها بدون توجه به اینکه جوابشون به یک سوال خاص درست یا غلط بود، بالا باقی می موند.
داده های کیفی جمع آوری شده از چت ها، اطلاعات بیشتری به دست داد. محققان متوجه شدن که بیشتر شرکت کننده ها صرفا دریافت کننده غیرفعال اطلاعات بودن. اون ها مدام سوالات رو کپی و در چت پیست می کردن و خروجی هوش مصنوعی رو بدون چالش یا بررسی خاصی قبول می کردن. فقط تعداد کمی از کاربرها با هوش مصنوعی مثل یک شریکِ همکار یا ابزاری برای چک کردن دوباره منطق خودشون رفتار کردن.
محققان چندین دلیل احتمالی رو برای این نتایج بررسی کردن. یک احتمال «توهم عمق توضیح» هست. وقتی یک هوش مصنوعی توضیحی سلیس، واضح و آنی ارائه می ده، می تونه مغز رو فریب بده که فکر کنه اطلاعات رو عمیق تر از اون چیزی که واقعا هست، پردازش و درک کرده. سهولت در به دست آوردن جواب، اون چالش ذهنی ای رو که معمولا برای حل پازل های منطقی لازمه کم می کنه، و این به نوبه خود سیگنال های داخلی رو که به آدم هشدار می دن ممکنه اشتباه کرده باشه، ضعیف می کنه.
مثل هر تحقیق دیگه ای، نکاتی هست که باید در نظر گرفت. مطالعه اول از یک گروه مقایسه تاریخی استفاده کرد نه یک گروه کنترل همزمان، هرچند مطالعه دوم این رو اصلاح کرد. علاوه بر این، کار محدود به سوالات استدلال منطقی LSAT بود. ممکنه انواع دیگه کارها مثل نویسندگی خلاق یا برنامه نویسی، الگوهای فراشناختی متفاوتی داشته باشن.
این مطالعه همچنین به نسخه خاصی از ChatGPT متکی بود. با تکامل این مدل ها و دقیق تر شدنشون، پویایی بین انسان و ماشین ممکنه تغییر کنه. محققان همچنین اشاره کردن که شرکت کننده ها مجبور به استفاده از هوش مصنوعی بودن، که ممکنه با دنیای واقعی که کاربر خودش انتخاب می کنه کی با ابزار مشورت کنه، متفاوت باشه.
مقابله با هوش مصنوعی و اعتماد به نفس کاذب؛ راهکارها و ملاحظات
جهت گیری های تحقیقاتی آینده برای رفع این خلاها پیشنهاد شد. محققان توصیه می کنن تغییراتی در طراحی بررسی بشه که کاربرها رو مجبور کنه منتقدانه تر با ابزار درگیر بشن. مثلا رابط کاربری ممکنه از کاربر بخواد قبل از قبول کردن جواب، منطق هوش مصنوعی رو دوباره برای خود سیستم توضیح بده. مطالعات طولانی مدت هم لازمه تا ببینیم آیا این اعتماد به نفس کاذب با باتجربه تر شدن کاربران نسبت به محدودیت های مدل های زبانی بزرگ از بین می ره یا نه.
مطالعه «هوش مصنوعی شما رو باهوش تر می کنه اما داناتر نه: گسست بین عملکرد و فراشناخت»، توسط دانیلا فرناندز، استیون ویلا، سالا نیکولز، اوتسو هاویستو، دانیل بوشک، آلبرشت اشمیت، توماس کوش، چنشینران شن و رابین ولش نوشته شده است.
در نهایت، وابستگی شدید به هوش مصنوعی می تواند مرزهای بین دانش فردی و خروجی های ماشینی را کمرنگ کند. آگاهی از پدیده هوش مصنوعی و اعتماد به نفس کاذب به ما کمک می کند تا با نگاهی نقادانه تر از تکنولوژی استفاده کنیم و از توهم دانایی در امان بمانیم، چرا که تکیه صرف بر ابزارها بدون مشارکت فعال ذهنی، در درازمدت مانع رشد واقعی توانمندی های انسانی خواهد بود.
Users of generative AI struggle to accurately assess their own competence