خانه تازه‌های علم و تحقیق پژوهش جدید درباره خطر تشخیص نادرست هوش مصنوعی در سلامت روان
پژوهش جدید درباره خطر تشخیص نادرست هوش مصنوعی در سلامت روان

پژوهش جدید درباره خطر تشخیص نادرست هوش مصنوعی در سلامت روان

در این مقاله:

تحقیقات جدید نشان می دهد که مدل های زبانی بزرگ با وجود توانایی های بالا در تحلیل متون، در صورت عدم استفاده از درخت های تصمیم گیری ساختاریافته و دانش تخصصی، به شدت مستعد تشخیص نادرست هوش مصنوعی و بیش انگاری بیماری های روان پزشکی هستند.

یک مطالعه جدید که در نشریه Psychiatry Research منتشر شده، نشون می ده که با وجود اینکه مدل های زبانی بزرگ می تونن تشخیص های روان پزشکی رو از روی توصیف های بالینی شناسایی کنن، اما وقتی بدون راهنمایی ساختاریافته عمل می کنن، خیلی مستعد تشخیص بیش ازحد (overdiagnosis) هستن که می تونه منجر به تشخیص نادرست هوش مصنوعی بشه. پژوهشگرهای دانشگاه کالیفرنیا سانفرانسیسکو متوجه شدن که با ادغام درخت های تصمیم گیری که توسط متخصص ها طراحی شده در فرآیند تشخیص، می تونن دقت این مدل های هوش مصنوعی رو بالا ببرن و نرخ موارد مثبت کاذب رو کم کنن.

پیشرفت سریع هوش مصنوعی باعث شده علاقه به استفاده از اون در حوزه سلامت بیشتر بشه. مدل های زبانی بزرگ مثل ChatGPT شرکت OpenAI نشون دادن که توانایی پردازش و تولید متن های پیچیده رو دارن، که این موضوع احتمال استفاده از اون ها رو در محیط های سلامت روان برای کارهایی مثل پشتیبانی از تصمیم گیری یا مستندسازی بالا برده.

با توجه به آمارهای نگران کننده در گزارش جدید گالوپ از افت سلامت روان به پایین ترین سطح تاریخی، خیلی از بیمارها همین الان هم دارن از این ابزارهای عمومی برای تفسیر علائم خودشون و گرفتن توصیه های پزشکی استفاده می کنن. اما این مدل ها به جای برنامه های درسی پزشکی خاص، روی مجموعه داده های عظیمی از اینترنت آموزش دیدن. این روش آموزشی به این معنیه که مدل ها بر اساس احتمالات آماری و الگوهای زبانی عمل می کنن، نه بر اساس درک واقعی بالینی.

این نگرانی وجود داره که بدون آموزش های پزشکی خاص یا چارچوب های محافظتی، این مدل های چندمنظوره ممکنه توصیه های نادرست یا خطرناکی ارائه بدن و خطر تشخیص نادرست هوش مصنوعی رو افزایش بدن. توانایی یک برنامه کامپیوتری در تولید متن منسجم، لزوما به معنای توانایی انجام استدلال های پیچیده مورد نیاز برای تشخیص روان پزشکی نیست.

نویسنده های این مطالعه جدید می خواستن بررسی کنن که آیا مدل های زبانی بزرگ معمولی می تونن به درستی درباره کیس های سلامت روان استدلال کنن یا نه. اون ها همچنین می خواستن ببینن که آیا دادن قوانین خاص و طراحی شده توسط متخصص ها به این مدل ها، می تونه دقت و ایمنی اون ها رو بهتر کنه یا نه.

چرا تشخیص نادرست هوش مصنوعی نگران کننده است؟

«علاقه زیادی به استفاده از فناوری های مبتنی بر مدل های زبانی بزرگ (LLM) برای ساخت ابزارهای بالینی و تحقیقاتی در حوزه سلامت رفتاری وجود داره. علاوه بر این، مردم به طور فزاینده ای از چت بات های مبتنی بر LLM (مثل ChatGPT، کلود، جمینای و غیره) به عنوان ابزارهای اطلاعات سلامت و برای حمایت عاطفی استفاده می کنن.» این ها رو نویسنده مطالعه کارتیک وی. سارما، بنیان گذار گروه تحقیقاتی هوش مصنوعی در سلامت روان در بخش روان پزشکی و علوم رفتاری دانشگاه UCSF، توضیح داد.

«ما مشتاق بودیم ببینیم این مدل ها در رشته ما چقدر خوب کار می کنن و تشخیص از روی سناریوهای کوتاه (Vignette) رو به عنوان یک نمونه برای ارزیابی انتخاب کردیم. همچنین می خواستیم بدونیم که آیا می تونیم با محدود کردن مدل ها به استفاده از مسیرهای استدلال (درخت های تصمیم) که توسط متخصص های روان پزشکی طراحی شده، عملکردشون رو بهتر کنیم یا نه.»

برای انجام این تحقیق، پژوهشگرها از مجموعه ای شامل 93 سناریوی بالینی برگرفته از کتاب کیس های بالینی DSM-5-TR استفاده کردن. این سناریوها به عنوان نمونه های استاندارد از بیماران مبتلا به شرایط روان پزشکی خاص مثل افسردگی، اختلال دوقطبی یا اسکیزوفرنی عمل می کنن. تیم تحقیق این کیس ها رو به دو بخش تقسیم کرد: یک مجموعه آموزشی برای اصلاح استراتژی های پرامپت نویسی و یک مجموعه آزمایشی برای ارزیابی عملکرد نهایی مدل ها. اون ها سه نسخه از خانواده مدل های GPT رو آزمایش کردن: GPT-3.5، GPT-4 و GPT-4o.

پژوهشگرها دو رویکرد آزمایشی متفاوت رو برای تست مدل ها طراحی کردن. روش اول، رویکرد «پایه» (Base) بود که در اون به هوش مصنوعی فقط داستان بالینی داده می شد و ازش می خواستن محتمل ترین تشخیص رو پیش بینی کنه. این روش شبیه به اینه که یک کاربر عادی با توصیف علائمش و پرسیدن نظر چت بات، با اون تعامل کنه. روش دوم، رویکرد «درخت تصمیم» (Decision Tree) بود. این روش شامل تطبیق منطق کتاب راهنمای تشخیص افتراقی DSM-5-TR بود؛ یک راهنمای حرفه ای که از منطق شاخه ای برای تایید یا رد کردن شرایط استفاده می کنه.

در رویکرد درخت تصمیم، پژوهشگرها مستقیما از مدل نخواستن که تشخیص بده. در عوض، منطق متخصص رو به مجموعه ای از سوالات «بله» یا «خیر» تبدیل کردن. از مدل خواسته شد تا بر اساس سناریوی بالینی، به این سوالات پاسخ بده.

برای مثال، ممکنه از مدل پرسیده بشه که آیا بیمار علامت خاصی رو برای مدت زمان مشخصی تجربه کرده یا نه. پاسخ به این سوالات پشت سر هم، سیستم رو به سمتی هدایت می کرد که به یک تشخیص احتمالی برسه. این روش مدل رو مجبور می کرد تا یک فرآیند استدلال مرحله به مرحله، شبیه به یک پزشک آموزش دیده رو دنبال کنه.

نتایج تفاوت واضحی رو بین این دو روش نشون داد. وقتی در روش پایه مستقیما از مدل ها خواسته می شد تشخیص رو حدس بزنن، حساسیت بالایی از خودشون نشون می دادن. پیشرفته ترین مدل یعنی GPT-4o، تشخیص تعیین شده توسط نویسنده رو در حدود 77 درصد موارد به درستی شناسایی کرد. این نشون می ده که مدل ها در تشخیص وجود یک اختلال بر اساس متن، خیلی خوب عمل می کنن.

اما این حساسیت بالا به قیمت کاهش دقت تموم شد. رویکرد پایه منجر به «ارزش اخباری مثبت» پایین، یعنی حدود 40 درصد شد. این آمار نشون می ده که مدل ها دایره تشخیص رو خیلی وسیع در نظر می گرفتن و مکررا تشخیص هایی رو می دادن که اصلا در سناریوها وجود نداشت، که نمونه ای از تشخیص نادرست هوش مصنوعی است.

به طور متوسط، مدل های پایه به ازای هر تشخیص درست، بیش از یک تشخیص نادرست هم تولید کردن. این تمایل به تشخیص بیش ازحد و تشخیص نادرست هوش مصنوعی، یک ریسک بزرگ محسوب می شه، چون ممکنه باعث بشه بیمارها فکر کنن دچار مشکلاتی هستن که در واقعیت ندارن.

سارما به وب سایت PsyPost گفت: «این موضوع به همه گوشزد می کنه که تشخیص های تولیدشده توسط چت بات های عمومی ممکنه دقیق نباشه و خیلی مهمه که حتما با یک متخصص سلامت مشورت بشه.»

اجرای رویکرد درخت تصمیم نتایج متفاوتی داشت. با مجبور کردن مدل ها به رعایت ساختارهای استدلال تخصصی، پژوهشگرها ارزش اخباری مثبت رو به حدود 65 درصد رسوندن. این پیشرفت به این معنیه که وقتی سیستم یک تشخیص رو پیشنهاد می داد، احتمال درست بودنش خیلی بیشتر بود. نرخ تشخیص بیش ازحد هم نسبت به روش پرسش مستقیم، کاهش پیدا کرد.

البته این افزایش دقت، یک بهایی هم داشت. حساسیت رویکرد درخت تصمیم کمی کمتر از رویکرد پایه بود و به حدود 71 درصد رسید. این یعنی قوانین سخت گیرانه درخت های تصمیم گاهی باعث می شد مدل تشخیصی رو که در روش آزادانه تر پیدا می کرد، از دست بده. با وجود این افت جزئی در حساسیت، عملکرد کلی که با شاخص F1 اندازه گیری می شه (معیاری که بین دقت و بازیابی تعادل برقرار می کنه)، به طور کلی در رویکرد درخت تصمیم بالاتر بود.

این مطالعه همچنین بر اهمیت اصلاح پرامپت های مورد استفاده برای هدایت هوش مصنوعی تاکید کرد. در طول مرحله آموزش، پژوهشگرها متوجه شدن که مدل ها گاهی اصطلاحات پزشکی یا ساختار درخت های تصمیم رو اشتباه متوجه می شن که می تونه به تشخیص نادرست هوش مصنوعی منجر بشه. برای مثال، مدل ها در ابتدا برای تشخیص تفاوت بین «مصرف مواد» و عوارض جانبی دارویی مشکل داشتن، یا اصطلاحات بالینی مثل «ایگو-دیستونیک» (ego-dystonic) رو اشتباه تفسیر می کردن. پژوهشگرها مجبور شدن سوالات خودشون رو بارها اصلاح کنن تا مطمئن بشن مدل ها معیارهای بالینی رو به درستی تفسیر می کنن.

یافته ها نشون می ده که مدل های زبانی بزرگ عمومی، توانایی نوظهوری برای استدلال روان پزشکی دارن. عملکرد مدل ها با هر نسل جدید بهتر شده و GPT-4 و GPT-4o از مدل قدیمی تر GPT-3.5 بهتر عمل کردن. این روند نشون می ده که با تکامل بیشتر این مدل ها، توانایی اون ها در انجام کارهای پیچیده پزشکی ممکنه افزایش پیدا کنه.

سارما توضیح داد: «از نظر عملی، کاهش تشخیص بیش ازحد با استفاده از درخت های تصمیم ما چشمگیر بود. با این حال، تسکی که ما استفاده کردیم (تشخیص از روی سناریو) خیلی ساده تر از تشخیص در دنیای واقعیه. انتظار دارم در این مرحله، عملکرد مدل ها در دنیای واقعی خیلی بدتر باشه و ما همچنان داریم روی روش هایی برای حل این مشکل کار می کنیم. در حال حاضر، فکر نمی کنم این مدل های عمومی برای استفاده به عنوان عامل های پشتیبان سلامت روان آماده باشن، هرچند ممکنه مدل های تخصصی دیگه ای وجود داشته باشن که توانمندتر باشن.»

تمایل به تشخیص بیش ازحد که در رویکرد پایه مشاهده شد، به ویژه برای عموم مردم اهمیت زیادی داره. افرادی که از چت بات ها برای خودتشخیصی استفاده می کنن باید بدونن که این سیستم ها ممکنه به سمت پیدا کردن بیماری در جاهایی که وجود نداره، سوگیری داشته باشن و خطر تشخیص نادرست هوش مصنوعی رو افزایش بدن. این مطالعه نشون می ده که با وجود اینکه هوش مصنوعی می تونه ابزار قدرتمندی برای تحلیل داده های سلامت رفتاری باشه، بهترین عملکردش زمانیه که توسط دانش پزشکی متخصص و دستورالعمل های معتبر محدود بشه.

سارما خاطرنشان کرد: «هدف ما تولید یک ابزار بالینی واقعی که آماده استفاده باشه نبود و نتیجه کار ما هم این نشد. در عوض، ما روی بررسی میزان کارایی مدل های فعلی و اینکه آیا ایده ما برای ادغام مدل ها با دستورالعمل های تخصصی مفید هست یا نه، تمرکز کردیم. امیدواریم یافته های ما بتونه در آینده برای توسعه ابزارهای بهتر در دنیای واقعی استفاده بشه.»

پیشگیری از تشخیص نادرست هوش مصنوعی در آینده

تحقیقات آینده باید روی تست کردن این سیستم ها با داده های واقعی بیماران تمرکز کنن تا ببینن آیا یافته ها در عمل بالینی هم صدق می کنن یا نه. نویسنده ها همچنین پیشنهاد می کنن که کارهای آینده می تونه استفاده از این مدل ها رو برای شناسایی الگوهای تشخیصی جدید یا فنوتیپ های مبتنی بر زبان که فراتر از طبقه بندی های فعلی هستن، بررسی کنه. در حال حاضر، به نظر می رسه ادغام استدلال های تخصصی یک مرحله ضروری برای ایمن تر و دقیق تر کردن این ابزارهای قدرتمند و جلوگیری از تشخیص نادرست هوش مصنوعی در کاربردهای روان پزشکی احتمالی باشه.

سارما توضیح داد: «ما در حال حاضر روی توسعه سیستم هایی کار می کنیم که بتونن با داده های دنیای واقعی کار کنن و تاثیر روش های مختلف رو در این محیط بسنجیم. همچنین داریم روی درک بهتر این موضوع کار می کنیم که استفاده از چت بات ها توسط افراد مبتلا به بیماری های روانی تشخیص داده شده، چه تاثیری روی سلامتی اون ها داره.»

این مطالعه با عنوان «ادغام دانش تخصصی در مدل های زبانی بزرگ، عملکرد استدلال و تشخیص روان پزشکی را بهبود می بخشد،» توسط کارتیک وی. سارما، کیتلین ای. هانس، اندرو جی. ام. هالز، اندرو کریستال، دانیل اف. بکر، آن ال. گلووینسکی و آتول جی. بوت نوشته شده است.

در نهایت، اگرچه ابزارهای مبتنی بر هوش مصنوعی پتانسیل چشمگیری برای کمک به حوزه سلامت روان دارند، اما تکیه بر آن ها بدون نظارت بالینی می تواند پیامدهای جبران ناپذیری باشد. ترکیب قدرت پردازش مدل های زبانی با منطق استوار متخصصان، تنها راه دستیابی به تشخیص های دقیق و ارتقای سطح درمان در آینده است.

AI chatbots tend to overdiagnose mental health conditions when used without structured guidance

نویسنده:
تاریخ بروزرسانی: ژانویه 22, 2026
چقدر از این مقاله رضایت داشتید؟
good عالی
mid متوسط
bad ضعیف

دیدگاه شما