این مطالعه بینش هایی را در مورد توانایی های LLM در پاسخ به سوالات فیزیولوژی عصبی ارائه می دهد. نتایج نشان میدهد که ChatGPT، Bard و Claude میتوانند با موفقیت به مفاهیم بنیادی متعددی بپردازند، اما زمانی که صحبت از استدلال پیچیدهتر و ادغام و ترکیب اطلاعات دانش در موضوعات مختلف میشود، با چالشهایی مواجه میشوند.
به طور کلی، مدلها عملکرد نسبتاً قویای را روی سؤالات فیزیولوژی عصبی عمومی و سیستم حرکتی با مهارت متوسط در فیزیولوژی عصبی حسی نشان دادند. با این حال، آنها با سؤالات یکپارچه ای که نیاز به استنتاج چند مرحله ای داشتند، دست و پنجه نرم کردند. تفاوت معنی داری بین زبان یا سطوح شناختی وجود نداشت. با این وجود، تجزیه و تحلیل کیفی ناسازگاری ها و کمبودها را نشان داد، که نشان می دهد که مدل ها به جای درک مفهومی عمیق، به شدت بر حفظ کردن تکیه دارند.
پاسخهای نادرست نشاندهنده کاستی در استدلال، تشخیص اطلاعات کلیدی، در نظر گرفتن سطح اهمیت و اولویت، نبود اطلاعات کافی بهویژه فارسی و رسیدگی به سؤالات ناآشنا است. آموزش متناسب با تمرکز بر مدلهای فیزیولوژیک علی به جای ارتباط آماری و استفاده از منابع قابل اعتماد به زبانهای مختلف میتواند به غلبه بر این محدودیتها کمک کند. با پیشرفت LLM، ارزیابی های چند رشته ای دقیق برای سنجش پیشرفت و اندازه گیری پیشرفت ها ضروری خواهد بود.
این مطالعه یک روش ارزیابی قوی و معیار برای تحقیقات آینده با هدف افزایش دانش فیزیولوژی عصبی و شایستگی استدلال این مدلها ارائه میکند. بینشها میتوانند تلاشهایی را برای اصلاح LLM از طریق تکنیکهای آموزشی پیشرفته و ارزیابی وظایف پیچیده یکپارچه نشان دهند. این مدلها با تمرکز بر بهبودهای هدفمند، نویدهای زیادی در پیشرفت آموزش، تحقیقات و عملکرد بالینی فیزیولوژی عصبی دارند. یافتههای این مطالعه راه را برای پیشرفتهای بیشتر در فناوری LLM هموار میکند که در نهایت به نفع حوزه فیزیولوژی عصبی و فراتر از آن است.