Kāda veida kļūda pēkšņi padarītu NetHack mašīnmācīšanos par 40% sliktāku? | Huepaintco

Kāda veida kļūda pēkšņi padarītu NetHack mašīnmācīšanos par 40% sliktāku?

Orihs Losons

Leģendāro datoru kļūdu tribunāla locekļi, cienījamie viesi, ja drīkstu pievērst jūsu uzmanību? Es pazemīgi iesniedzu jaunu kandidātu jūsu godājamajam spriedumam. Jums tas var šķist vai nešķiet jauns, jūs pat varat to saukt par “kļūdu”, taču es jums apliecinu, ka tas jums šķitīs izklaidējošs.

Apsveriet NetHack. Tā ir viena no visu laiku negodprātīgām spēlēm, un es to domāju šī termina vistiešākajā nozīmē. Saturs tiek ģenerēts procesuāli, nāves gadījumi ir pastāvīgi, un vienīgais, ko paturat no spēles uz spēli, ir jūsu prasmes un zināšanas. Es saprotu, ka vienīgais, par ko var vienoties divi negodīgi līdzjutēji, ir tas, cik nepareizi ir trešais negodprātīgs fans savā definīcijā par negodīgiem, bet, lūdzu, turpināsim.

NetHack ir lieliski piemērots mašīnmācībai…

Tā ir sarežģīta spēle, kas pilna ar turpmākām izvēlēm un nejaušiem izaicinājumiem, kā arī “viena aģenta” spēle, ko var ģenerēt un spēlēt zibens ātrumā mūsdienu datoros, NetHack ir lieliski piemērots tiem, kas strādā mašīnmācībā — vai imitācijas mācībasfaktiski, kā aprakstīts Jensa Tuilsa papīrs par to, kā skaitļošanas mērogošana ietekmē viena aģenta spēļu mācīšanos. Izmanto Tuyls ekspertu modeli NetHack uzvedību, Bartlomejs Kupjals un Macejs Volčiks apmācīja neironu tīklu spēlēt un uzlabot sevi, izmantojot pastiprināšanas mācības.

Līdz šī gada maija vidum viņu modelis pēc saviem mērījumiem pastāvīgi ieguva 5000 punktus. Pēc tam, skrienot, modelis pēkšņi pasliktinājās par 40 procentiem. Tas ieguva 3000 punktu. Mašīnmācīšanās parasti virzās vienā virzienā ar šāda veida problēmām. Tam nebija jēgas.

Cupiał un Wołczyk mēģināja vairākas lietas: atjaunot savu kodu, atjaunot visu programmatūras steku no Singularity dublējuma un atsaukt savu CUDA bibliotēkas. Rezultāts? 3000 punkti. Viņi visu pārbūvē no nulles, un tas joprojām ir 3000 punkti.

<em>NetHack</em>ko spēlē parasts cilvēks.” src=”https://cdn.arstechnica.net/wp-content/uploads/2024/06/13863751533_64654db44e_o.png” width=”821″ height=”506″/><figcaption class=

NetHackspēlē parasts cilvēks.

… izņemot noteiktas naktis

detalizēti Cupiał’s X (iepriekš Twitter) pavedienā tas bija vairāku stundu mulsinošs mēģinājums un kļūda, ko veica viņš un Volčiks. “Es sāku justies kā vājprātīgs. Es pat nevaru skatīties TV šovu, kas nemitīgi domā par kļūdu,” rakstīja Kupja. Izmisumā viņš jautā modeles rakstniekam Tuilsam, vai viņš zina, kas varētu būt nepareizi. Krakovā viņš pamostas, saņemot atbildi:

“Ak, jā, šodien droši vien ir pilnmēness.”

IN NetHackspēle, kas ir DevTeam domāja par visu, ja spēle no jūsu sistēmas pulksteņa konstatē, ka jābūt pilnmēness laikam, tā ģenerēs ziņojumu: “Jums ir paveicies! Šovakar pilnmēness.” Pilnmēness dod dažas spēlētāju priekšrocības: Veiksmei tika pievienots viens punkts, un tie bija radījumi, kas lielākoties pieturējās pie savām dzīvnieku formām.

Tā ir vienkāršāka spēle, ņemot vērā visas lietas, tad kāpēc mācību aģenta rezultāts būtu zemāks? Tā apmācības datos vienkārši nav pilnmēness mainīgo datu, tāpēc sazarotu lēmumu virkne, visticamāk, novedīs pie mazākiem rezultātiem vai vienkārši radīs neskaidrības. Tas tiešām bija pilnmēness Krakova kad sāka parādīties 3000 punktu rādītāji. Kāda šausmīga nakts mācīšanās modelim.

Protams, “rezultāts” nav īsts panākumu mērs NetHackpats Kupiels atzīmēja. Palūdziet modelim iegūt vislabāko rezultātu, un tas izkļūs no agrīnās stadijas monstriem, jo ​​viņam nekad nebūs garlaicīgi. “Atrast (augšupcelšanās) vai pat (vienkārši) uzdevumu veikšanai nepieciešamos priekšmetus ir pārāk daudz tīram RL aģentam,” rakstīja Cupiał. Vēl viens neironu tīkls, AutoAscendpaveic labāku darbu, progresējot spēlē, taču “pat tas var atrisināt tikai sokobanu un sasniegt raktuvju galu,” Cupiał piezīmes.

Vai tā ir kļūda?

Es tev tomēr to iedošu NetHack reaģēja uz pilnmēnesi paredzētajā veidā, šī slīpā, ļoti grūti aptveramā apstāšanās mašīnmācības ceļojumā patiešām bija kļūda un panteona cienīga. Tas nav Hārvardas kodearī ne vienu 500 jūdžu e-pastsbet kas ir?

Jo komanda izmantoja Singularitāte lai dublētu un atjaunotu savu kaudzīti, viņi netīšām pacēla mašīnas laiku un no tā izrietošo kļūdu ikreiz, kad mēģināja to novērst. Iegūtā mašīnas izturēšanās bija tik dīvaina un šķietami balstīta uz neredzamiem spēkiem, ka tā iedzina kodētāju. Un stāstam ir sākums, kulminācijas vidus un beigas, kas mums kaut ko māca, lai arī cik neskaidrs tas būtu.

Tas NetHack Es saku, ka Lunar Learning Bug ir pieminēšanas vērta. Paldies par jūsu laiku.

Leave a Reply

Your email address will not be published. Required fields are marked *