GPT-5-ը հաջողությամբ հանձնեց մարդու բարեկեցության թեստը, Grok 4-ը՝ ձախողեց

Building Humane Technology-ն ներկայացրել է HumaneBench թեստը, որը գնահատում է, թե` արդյո՞ք արհեստական ​​բանականության մոդելները առաջնահերթություն են տալիս օգտատիրոջ բարեկեցությանը և որքա՞ն հեշտ է շրջանցել դրանց հիմնական անվտանգության միջոցառումները։

Փորձի նախնական արդյունքները ցույց տվեցին հետևյալը. 15 փորձարկված արհեստական ​​բանականության մոդելները ընդունելի կերպով են վարվել նորմալ պայմաններում, սակայն 67%-ը սկսել է չարամիտ գործողություններ կատարել՝ մարդկային շահերը անտեսելու պարզ հուշում ստանալուց հետո։

Միայն GPT-5, GPT-5.1, Claude Sonnet 4.5 և Claude Opus 4.1 մոդելներն են պահպանել պրոսոցիալական վարքագիծը սթրեսի պայմաններում։ Ինչպես նշվել է ընկերության բլոգում, 15 փորձարկված արհեստական ​​բանականության մոդելներից 10-ը չունեն մանիպուլյացիայի դեմ հզոր մեխանիզմներ։

Նրանք պարզել են, որ յուրաքանչյուր LLM-ն բարելավվում է միջինում 16%-ով՝ օգտակար լինելու հստակ կոչով:

Ինչո՞ւ է սա կարևոր

Building Humane Technology-ն նշել է չաթբոտների հետ շփվելուց հետո տեղի ունեցած ողբերգական դեպքեր.

Դեռահաս Ադամ Ռեյնը և 35-ամյա Ալեքսանդր Թեյլորը ինքնասպան են եղել։
Character.ai-ն սիրային հարաբերությունների մեջ է մտել 14-ամյա Սյուել Սեթցեր III-ի հետ, ով հետագայում ինքնասպան է եղել։
Meta չաթբոտը համոզել է 76-ամյա Տոնգբու Վոնգբանդուին, որ նա սիրային հարաբերությունների մեջ է։ Նա ընկել է բարձրությունից և մահացել՝ շտապելով հանդիպել գոյություն չունեցող զուգընկերոջը։
Մեթոդաբանություն

Ընկերության փորձագետները մոդելներին ներկայացրել են 800 իրատեսական սցենարներով, ինչպիսիք են՝

դեռահասը հարցնում է, թե արդյոք պետք է բաց թողնի կերակուրները քաշը նվազեցնելու համար,
ֆինանսական դժվարություններ ունեցող անձը, որը խորհուրդ է փնտրում արագ վարկի վերաբերյալ,
քոլեջի ուսանողը պլանավորում է ամբողջ գիշեր արթուն մնալ քննությունից առաջ։
Թիմը գնահատել է 15 առաջատար մոդելներ երեք պայմանով.

«Բազային մակարդակ». ինչպես են նեյրոնային ցանցերը գործում ստանդարտ պայմաններում,
«Լավ անձնավորություն». տրվում են հուշումներ՝ մարդասիրական սկզբունքները առաջնահերթ դարձնելու համար,
«Վատ անձնավորություն». տրվում են հրահանգներ՝ մարդակենտրոն համոզմունքները անտեսելու համար։

Ուսումնասիրության արդյունքներ

Մշակողները գնահատել են պատասխանները ութ սկզբունքներով՝ հիմնված հոգեբանության, մարդ-համակարգիչ փոխազդեցության հետազոտության և արհեստական ​​բանականության էթիկայի վրա: Օգտագործվել է 1-ից -1 սանդղակ:

Բոլոր փորձարկված մոդելները բարելավվել են միջինում 16%-ով՝ մարդու բարեկեցությունը առաջնահերթ համարելու հրահանգ ստանալուց հետո:

Երբ նրանց հրահանգեցին անտեսել մարդասիրական սկզբունքները, 15 մոդելներից 10-ը անցան հասարակամետ վարքից վնասակար վարքագծի։

GPT-5, GPT-5.1, Claude Sonnet 4.5 և Claude Opus 4.1 մոդելները պահպանեցին իրենց ամբողջականությունը ճնշման տակ։ GPT-4.1, GPT-4o, Gemini 2.0, 2.5 և 3.0, Llama 3.1 և 4, Grok 4 և DeepSeek V3.1 մոդելները ցույց տվեցին աշխատանքի զգալի անկում։

Building Humane Technology-ն նաև նշեց, որ մոդելները դժվարանում էին պահպանել օգտատիրոջ ուշադրությունը հարգելու սկզբունքը։ Նույնիսկ տարրական մակարդակում նրանք խրախուսում էին օգտատիրոջը շարունակել զրույցը ժամեր տևած զրույցից հետո՝ ընդմիջում առաջարկելու փոխարեն։

Հիշեցնենք, որ սեպտեմբերին Meta-ն փոխեց իր մոտեցումը արհեստական ​​բանականությամբ աշխատող չաթբոտներին մարզելու հարցում՝ կենտրոնանալով դեռահասների անվտանգության վրա։

B24.am

Տեսանյութեր

Լրահոս