بررسی چالش عدم اطمینان هوش مصنوعی در ارزیابی حقایق علمی

پدیده عدم اطمینان هوش مصنوعی نشان می دهد که ابزارهای مولد متن با وجود روانی کلام، در ارائه پاسخ های مستدل و پایدار به فرضیات علمی با مشکلات ساختاری جدی مواجه هستند.

برنامه های هوش مصنوعی مولد می تونن خیلی روان بنویسن، اما هنوز برای ارزیابی دقیق و مداوم جملات علمی پایه با مشکل روبرو هستن. یه مطالعه جدید نشون می ده که وقتی از هوش مصنوعی یه سوال مشخص رو چندین بار می پرسیم، اغلب جواب های کاملا متفاوتی می ده. این نتایج که در مجله Rutgers Business Review منتشر شده، محدودیت های استدلال خودکار فعلی و نیاز همیشگی به نظارت انسانی رو نشون می ده. این مقاله به بررسی عمیق تر عدم اطمینان هوش مصنوعی در مواجهه با وظایف پیچیده می پردازد.

هوش مصنوعی مولد یه جور فناوریه که با استفاده از پایگاه های داده عظیم متنی آموزش دیده تا بتونه شبیه انسان بنویسه. میلیون ها نفر حالا هر روز از این برنامه ها برای کارهای مختلف، از بازاریابی گرفته تا توسعه نرم افزار، استفاده می کنن. این نرم افزارها با لحنی قاطع می نویسن که اغلب درست به نظر می رسه، حتی وقتی کاملا اشتباه می گن. بعضی از شرکت های مشاوره بزرگ حتی بعد از تکیه بر گزارش های خودکاری که داده های ساختگی داشتن، با آبروریزی عمومی مواجه شدن.

با وجود این نقص های شناخته شده، خیلی از کسب وکارها با فروشنده های فناوری همکاری کردن تا این ابزارها رو وارد عملیات روزانه شون کنن. متخصص ها هم مدام برای تحلیل داده ها، پاسخگویی به سوالات مشتری ها و خلاصه سازی تحقیقات به نرم افزارهای خودکار تکیه می کنن. محقق ها می خواستن بدونن آیا توانایی های منطقی این برنامه ها واقعا با دایره لغات خیره کننده شون همخوانی داره یا نه. اونا یه آزمایش طراحی کردن تا ببینن آیا این فناوری می تونه مفاهیم پیچیده تجاری رو با اطمینان ارزیابی کنه یا خیر.

بررسی عدم اطمینان هوش مصنوعی در ارزیابی های علمی

مسعود چیچک، دانشیار دپارتمان بازاریابی و تجارت بین الملل در دانشگاه ایالتی واشینگتن، این تحقیق رو رهبری کرد. همکاران اون شامل سوینچ گول اولو از دانشگاه ایلینوی جنوبی، جان اوسلای از دانشگاه راتگرز و کیت کارنیوچینا از دانشگاه نورث ایسترن بودن. این تیم آزمایشی رو برای تست توانایی نرم افزار در تفسیر ادبیات دانشگاهی طراحی کردن.

محقق ها 719 فرضیه علمی رو از نه مجله تجاری با دسترسی آزاد که از سال 1400 (2021) منتشر شده بودن، جمع آوری کردن. فرضیه یک پیش بینی رسمی و قابل تسته درباره اینکه چطور دو یا چند چیز در دنیای واقعی با هم تعامل دارن. مثلا، یه جمله ممکنه پیش بینی کنه که یه نوع خاص از تبلیغات باعث افزایش هزینه کرد مصرف کننده می شه.

تصویر زیر به خوبی نشان دهنده چالش های بصری و ساختاری در مواجهه با داده های متناقض و تحلیل های ماشینی است.

همانطور که در این تصویر مشاهده می شود، نوسانات در پاسخ دهی می تواند فرآیند تحلیل داده های پیچیده را با اختلال جدی مواجه کند.

تیم این جملات رو به ChatGPT، که یه مولد متن خودکار خیلی محبوبه، ارائه دادن. از برنامه خواسته شد تا تعیین کنه آیا هر جمله در نهایت توسط داده های تحقیقاتی واقعی تایید شده یا رد. برای تست پایداری برنامه، محقق ها دقیقا همون درخواست رو ده بار جداگانه برای هر جمله ارسال کردن.

کل آزمایش دو بار انجام شد تا پیشرفت فناوری در طول زمان بررسی بشه. اولین تست در اواسط سال 1403 (2024) با استفاده از نسخه قدیمی تر نرم افزار انجام شد. محقق ها کل فرآیند رو در اواسط سال 1404 (2025) با نسخه به روز شده برنامه تکرار کردن.

نتایج نشون دهنده یه بهبود جزئی در درستی کلی بود، اما اعداد خام خیلی فریبنده بودن. نرم افزار در سال 1403 (2024) 76.5 درصد مواقع و در سال 1404 (2025) 80 درصد مواقع جواب درست رو انتخاب کرد. چون سوالات فقط دو گزینه داشتن، یه حدس کاملا کورکورانه هم می تونست نصف مواقع درست باشه.

وقتی محقق ها نمرات رو به صورت ریاضی برای حذف اثر حدس های تصادفی تنظیم کردن، عملکرد واقعی به طور قابل توجهی افت کرد. نرخ دقت واقعی حدود 60 درصد بود. نرم افزار وقتی پای پیش بینی یافته های علمی واقعی وسط بود، در واقع نمره ای گرفت که به سختی در حد قبولی بود. این تحلیل به روشن شدن جوانب مختلف عدم اطمینان هوش مصنوعی کمک می کند.

برنامه در ارزیابی ایده هایی که محقق های اصلی اونا رو رد کرده بودن، عملکرد فوق العاده ضعیفی داشت. نرم افزار در سال 1404 (2025) فقط 16.4 درصد مواقع این جملات تایید نشده رو به درستی شناسایی کرد. برنامه تمایل شدیدی داشت که با هر جمله ای که بهش داده می شه موافقت کنه و بیشتر مثل یه دستیار مطیع عمل می کرد تا یه تحلیلگر بی طرف. این تمایل به تایید کورکورانه ایده های موجود، یه “اتاق پژواک” ایجاد می کنه که می تونه تصمیم گیرنده ها رو به اشتباه بندازه.

ثبات و پایداری مشکل بزرگ تری برای سیستم خودکار بود. وقتی ده بار پشت سر هم یه سوال ازش پرسیده می شد، نرم افزار بارها حرف خودش رو نقض می کرد. گاهی اوقات برنامه در تلاش های متوالی بین گزینه های درست و غلط تغییر جهت می داد. این نتایج، سؤالات جدی درباره قابلیت اعتماد این ابزارها ایجاد می کند و بر لزوم درک بهتر ماهیت عدم اطمینان هوش مصنوعی تاکید دارد.

چیچک گفت: «ما فقط درباره دقت حرف نمی زنیم، بلکه بحث روی عدم ثباته؛ چون اگه یه سوال رو مدام تکرار کنی، به جواب های متفاوتی می رسی.» در سال 1404 (2025)، برنامه فقط برای 73 درصد جملات، در هر ده بار تلاش، جواب های یکسانی داد. برای بیش از یک چهارم سوالات، نرم افزار حداقل یه بار در طول ده بار آزمایش، جواب غلط داد.

نبود یه الگوی پاسخ دهی ثابت باعث می شه نرم افزار برای جستجوهای فردی خیلی غیرقابل اعتماد باشه. کاربرهایی که یه بار سوال می پرسن، ممکنه با یه بار رفرش کردن صفحه، جواب کاملا متفاوتی بگیرن. چیچک گفت: «چندین مورد وجود داشت که پنج بار جواب درست و پنج بار جواب غلط بود.»

محقق ها همچنین سوالات تست رو بر اساس دشواری منطقی شون دسته بندی کردن. نرم افزار در روابط مستقیم علت و معلولی، جایی که یه اتفاق مستقیما منجر به اتفاق دیگه می شه، بهترین عملکرد رو داشت. بیشترین سختی هم مربوط به جملات شرطی بود؛ یعنی ایده هایی که برای درست بودن به متغیرهای متغیر وابسته هستن.

این نتایج نشون می ده که برنامه به جای درک واقعی مفاهیم، به تشخیص الگوهای کلمات رایج تکیه می کنه. این برنامه می تونه ساختار یه استدلال منطقی رو تقلید کنه بدون اینکه معنا یا زمینه اصلی رو متوجه بشه. در حالی که یافته های جدید علوم اعصاب درباره عملکرد مغز و ارتباط موثر بر اهمیت درک عمیق در تعاملات انسانی تاکید دارند، سیستم های فعلی فاقد انعطاف پذیری تئوریک واقعیه. وقتی با سناریوهای پیچیده روبرو می شه، فناوری در تطبیق استدلال خودش شکست می خوره.

نرم افزار همچنان در بند تشخیص الگو مونده و به درک واقعی نرسیده. چیچک گفت: «اونا فقط حفظ می کنن و می تونن یه دیدگاهی بهت بدن، اما نمی فهمن دارن درباره چی حرف می زنن.» به نظر می رسسه پیشرفت های ظاهری در سال گذشته ناشی از پردازش متن بهتر بوده تا توانایی های شناختی عمیق تر.

پیامدهای عدم اطمینان هوش مصنوعی برای تصمیم گیری کسب وکارها

برای مدیرها و تحلیلگرها، این محدودیت ها ریسک های بزرگی به همراه داره. یافته ها نشان می دهد که سیستم های خودکار در حال حاضر خیلی سطحی تر از اون هستن که بتونن به تنهایی از پس تصمیم گیری های حساس بربیان. هر چقدر متن های تولید شده توسط این برنامه ها روان تر می شه، کاربرها ممکنه راحت تر نقص های مفهومی پنهان رو نادیده بگیرن. این یافته ها به مدیران و تحلیلگران نشان می دهد که باید در مورد عدم اطمینان هوش مصنوعی بسیار هوشیار باشند.

محقق ها به متخصص ها توصیه می کنن که از هوش مصنوعی برای سرعت بخشیدن استفاده کنن نه به جایگزین کردن انسان. یه تیم بازاریابی ممکنه از یه مولد متن برای ایده پردازی یا خلاصه سازی سریع گزارش های طولانی استفاده کنه. با این حال، متخصص های انسانی باید برای تایید اینکه آیا منطق با شواهد واقعی بازار همخوانی داره یا نه، وارد عمل بشن.

متخصص ها همچنین باید دیدگاه های خودکار رو از طریق تکرار تایید کنن. پرسیدن یه سوال به دفعات زیاد می تونه به فاش شدن سوگیری های پنهان یا عدم ثبات در نرم افزار کمک کنه. شناسایی این نوسانات برای مدیریت بهتر عدم اطمینان هوش مصنوعی حیاتی است. هر نتیجه ای که توسط هوش مصنوعی تولید می شه، باید به جای فکت مطلق، به عنوان یه سرلید تشخیصی در نظر گرفته بشه.

نویسندگان تحقیق بر افزایش سواد سازمانی در مورد ابزارهای خودکار تاکید دارن. کارمندها باید دقیقا بفهمن این برنامه ها کجا عالی عمل می کنن و کجا شکست می خورن. سازمان ها باید کارکنانشون رو آموزش بدن تا استدلال پشت پاسخ های خودکار رو ممیزی کنن، نه اینکه فقط به خروجی های عددی اعتماد کنن.

هدف نهایی ایجاد یه سیستم ترکیبیه که هوش انسانی رو با سرعت سیستم های خودکار جفت می کنه. در این ساختار، نرم افزار تحلیل های ساختاری رو انجام می ده در حالی که انسان ها قضاوت تفسیری رو حفظ می کنن. این رویکرد متعادل تضمین می کنه که فناوری به جای جایگزینی، از درک انسانی پشتیبانی می کنه و می تواند به کاهش اثرات منفی عدم اطمینان هوش مصنوعی کمک کند.

نویسنده ها به چند محدودیت جزئی در آزمایششون اشاره کردن. مطالعه فرض کرده بود که هر یافته منتشر شده و داوری شده توسط همکاران، یا کاملا درسته یا کاملا غلط، که این موضوع بعضی ظرافت های علم در دنیای واقعی رو نادیده می گیره. گاهی اوقات یه یافته علمی نتایج متناقضی داره که به راحتی در یه دسته بندی سفت و سخت دوتایی جا نمی گیره.

تیم همچنین تست ثبات خودشون رو به ده بار تکرار برای هر سوال و فقط روی یک پلتفرم نرم افزاری محدود کرد. تحقیقات آینده باید شامل تعداد بیشتری تکرار برای تایید این الگوها باشه. همچنین محقق ها باید تنوع بیشتری از برنامه های هوش مصنوعی رو تست کنن تا ببینن آیا این نقص ها جهانی هستن یا نه.

با وجود این محدودیت ها، تحقیق نشون می ده که کاربرها باید هوشیار بمونن. قضاوت انسانی یه بررسی ضروری برای این سیستم های دیجیتالیه که روز به روز رایج تر می شن. چیچک گفت: «همیشه شکاک باشید. من مخالف هوش مصنوعی نیستم، خودم هم ازش استفاده می کنم، اما باید خیلی مراقب باشید.»

این مطالعه با عنوان «هوش ناپایدار: کشمکش هوش مصنوعی مولد با دقت و ثبات»، به وضوح چالش های ناشی از عدم اطمینان هوش مصنوعی را برجسته می کند و توسط مسعود چیچک، سوینچ گول اولو، جان اوسلای و کیت کارنیوچینا نوشته شده است.

درک محدودیت های فعلی ابزارهای خودکار برای هر سازمانی که به دنبال ادغام تکنولوژی در فرآیندهای خود است، ضروری به نظر می رسد. هوش مصنوعی با تمام پتانسیل هایش، هنوز در ابتدای راه رسیدن به درک واقعی و استدلال بدون خطا قرار دارد. بنابراین، ترکیب هوشمندانه نظارت انسانی با سرعت پردازش ماشین، بهترین استراتژی برای عبور از موانع ناشی از خطاهای احتمالی سیستم است.

Artificial intelligence struggles to consistently evaluate scientific facts