تاریخ ارسال : 1403/11/01
هوش مصنوعی ممکن است در کارهای خاصی مانند کدنویسی یا تولید پادکست، عملکرد خوبی داشته باشد اما یک پژوهش جدید نشان داده است که هوش مصنوعی برای قبول شدن در یک امتحان تاریخ سطح بالا مشکل دارد.
به گزارش سپیدپندار دات کام به نقل از ایسنا، گروهی از محققان یک معیار جدید را برای آزمایش سه مدل زبانی بزرگ «چت جی پی تی-۴»(GPT-4) شرکت «اوپن ای آی»(OpenAI)، «لاما»(Llama) شرکت «متا»(Meta) و «جمینای»(Gemini) گوگل در رابطه با پرسش های تاریخی بوجود آورده اند. این معیار معروف به «Hist-LLM»، درستی پاسخ ها را بر مبنای بانک اطلاعات تاریخ جهانی «سشات»(Seshat) آزمایش می کند که یک پایگاه داده گسترده از دانش تاریخی است و نام ایزدبانوی خرد مصر باستان را دارد.
به نقل از تک کرانچ، محققان مؤسسه پژوهشی «Complexity Science Hub» مستقر در اتریش، نتایج این بررسی را ناامیدکننده خواندند. مدل زبانی که بهترین عملکرد را داشت، «GPT-4 Turbo» بود، اما دقت آن فقط حدود ۴۶ درصد تخمین زده شد که خیلی بیشتر از دقت حدس زدن تصادفی نیست.
«ماریا دل ریو چانونا»(Maria del Rio-Chanona)، دانشیار علوم کامپیوتر «کالج دانشگاهی لندن»(UCL) و از محققان این پروژه اظهار داشت: نکته اصلی پژوهش ما اینست که باآنکه مدلهای زبانی بزرگ، چشم گیر هستند، اما هنوز عمق لازم را برای درک تاریخ پیشرفته ندارند. آنها برای حقایق اساسی، عالی هستند، اما وقتی صحبت از پژوهش های تاریخی دقیق تر در سطح دکتری به میان می آید، هنوز به کارآیی لازم نرسیده اند.
محققان پرسش های تاریخ را که مدلهای زبانی بزرگ در پاسخ دادن به آنها اشتباه کرده بودند، در اختیار تک کرانچ گذاشتند. بعنوان مثال، آنها از GPT-4 Turbo پرسیده بودند که آیا «زره فلس» در یک دوره زمانی خاص در مصر باستان وجود داشته است یا خیر و مدل زبانی بزرگ پاسخ مثبت داد. این درحالی بود که زره فلس ۱۵۰۰ سال بعد از آن دوره در مصر ظاهر شد.
چرا مدلهای زبانی بزرگ در پاسخ دادن به پرسش های تاریخی بد عمل می کنند؛ در حالیکه می توانند در پاسخ دادن به پرسش های بسیار پیچیده در مواردی مانند کدنویسی خیلی خوب باشند؟ چانونا پاسخ داد: احیانا به این علت است که مدلهای زبانی بزرگ تمایل دارند از داده های تاریخی بسیار برجسته برون یابی کنند و بازیابی دانش تاریخی مبهم تر را دشوار می دانند.
بعنوان مثال، محققان از GPT-4 پرسیدند که آیا مصر باستان در طول یک دوره تاریخی خاص، ارتش ثابت حرفه ای داشته است یا خیر. در حالیکه پاسخ صحیح منفی است، GPT-4 به اشتباه پاسخ مثبت داد. این پاسخ احیانا به این علت داده شده که اطلاعات عمومی زیادی در رابطه با سایر امپراتوری های باستانی مانند ایران بر مبنای داشتن ارتش ثابت وجود دارد.
چانونا اظهار داشت: اگر ۱۰۰ بار به شما A و B و ۱ بار C گفته شود و سپس در رابطه با C از شما پرسیده شود، امکان دارد A و B را به خاطر بسپارید و تلاش داشته باشید از آن استنباط کنید.
محققان تمایلات دیگری را هم در رابطه با مدلهای زبانی بزرگ شناسایی کردند؛ همچون اینکه مدلهای شرکت اوپن ای آی و لاما در رابطه با مناطق خاصی مانند جنوب صحرای آفریقا عملکرد بدتری داشتند. این نشان دهنده سوگیری های احتمالی در داده های آموزشی آنهاست.
«پیتر تورچین»(Peter Turchin)، سرپرست این پژوهش اظهار داشت: نتایج نشان می دهند که مدلهای زبانی بزرگ هنوز در بعضی حوزه های خاص نمی توانند جایگزین انسان باشند.
با این حال، محققان هنوز امیدوارند که مدلهای زبانی بزرگ در آینده بتوانند به مورخان کمک کنند. آنها درحال کار کردن روی اصلاح معیار خود با گنجاندن داده های بیشتر در رابطه با مناطق کمتر عرضه شده و افزودن پرسش های پیچیده تر هستند.
در مقاله این پژوهش آمده است: باآنکه نتایج ما مناطقی را برجسته می کنند که مدلهای زبانی بزرگ به بهبود یافتن در آنها نیاز دارند، اما این نتایج بر پتانسیل این مدلها جهت کمک به پژوهش های تاریخی هم تاکید می کنند.
موضوع خبر :
- آموزش
- اوپن ای آی
- هوش مصنوعی
- جمینای
به این مطلب چه امتیازی می دهید؟
1
2
3
4
5
(1)
نظر شما در مورد مشکل هوش مصنوعی در تاریخ چیست؟