lauantai 27. helmikuuta 2010

Lisää AIXI:sta

Jäi edellä varmaankin tuo AIXI-periaate hämäräksi, vaikka linkistä ja googlaamalla itse kukin löytää mielivaltaisen paljon (mutta usein vaikeasti, vain tohtorispohjalta sulatettavaa) tietoa. Siksi ajattelin jatkaa “selkeää”, insinööritasoista ihastelua ja pohdiskelua Hutterin kauniista ajatusrakennelmasta.



Kuvassa on kaksi järjestelmää, jotka molemmat ovat “turing-yhteensopivia” laskennallisia, aikadiskreettejä malleja. Alempi laatikko, ympäristö, voi tietysti ainakin osaltaan (paitsi palautteen muodostus?) olla myös analoginen järjestelmä, siis osa luontoa. Mutta oletetaan, että sekin on digitaalinen, epäjatkuva kone. Ylempi laatikko on älykäs, oppiva järjestelmä, itsenäinen toimija.

Tapahtumien kulku on seuraava

1. Ympäristö kertoo Agentille hetkellistilansa.
2. Agentti suorittaa toimenpiteen, joka perustuu ympäristön tilaan ja Agentiin omaan tilaan.
3. Agentin toimenpide muuttaa ympäristön sisäistä tilaa. Samoin “ympäristö”-järjestelmän tietty osa antaa Agentille palauteen edelliseen toimenpiteen hyväksyttävyydestä, siis “arvottaa” toimenpiteen. Lisäksi ympäristön uusi tila kerrotaan Agentille.
4. Jatketaan kohdasta (2.), mutta Agentti ottaa huomioon palautteen ja muuttaa toimintatapaansa siten, että se uusilla toimenpiteillään pyrkii maksimoimaan, lyhyellä ja pitkällä aikavälillä, kertyvän palautteen kokonaismäärän.

Agentin oppimisella on kaksi erillistä tavoitetta:

1. Ennustaa suorittamiensa toimenpiteiden lyhyen ja pitkän aikavälin seuraukset ympäristön tilaan. Siten Agentti myös oppii saamaan aikaiseksi toimenpiteidensä kautta tavoitelemansa ympäristön tilan.
2. Palauteen kertymän maksimoiminen opettaa Agentille “arvoja”. Mikä toimenpide ja mikä ympäristön tila on tavoittelemisen arvoinen, mikä vältettävää. Palauteen antamisella ympäristö (tai “opettaja" ympäristön osana) ohjaa Agentin oppimista oikeaan suuntaan.

Jos AIXI-mallia verrataan biologiseen maailmaan, niin biologisilla agenteilla oma keho on osa ympäristöä. Oma keho antaa toimenpiteille palautetta, hyvää oloa ja kipuaistimuksia. Biologista agenttia vastaa abstrakti, kehosta erillään oleva, “sinänsä tahdoton” keskushermosto.

AIXI-mallin avulla Hutter määrittelee yleisen älykkyyden ja matemaattisesti osoittaa, että jos Agentin laskennalliset resulssit ovat äärettömät, sen oppimisella ja saavutettavalla älyllisellä suorituskyvyllä esitetyn mallin mukaisessa ympäristössä ei ole mitään ylärajaa.

Hutterin malli on saanut paljon kritiikkiä, luonnollisestikin, älykkyyden olemuksen liiallisesta yksinkertaistamisesta, mutta minä olen vakuuttunut, että suurin osa kritiikistä perustuu väärinkäsityksiin, perusteettomiin oletuksiin Agentin ja Ympäristön olemuksien rajoista.

Mielestäni AIXI-mallin voima on juuri sen yksinkertaisuudessa. Älykkyyttä ei tarvitse mystisoida. Oletan, että kaikki muut kilpailevat, mutta realistiset älykkyyden määritelmät voidaan redusoida AIXI-mallin rakenteeksi, useimmiten ympäristömallin laskennallisiksi ulottuvuuksiksi.

Agentin opettaminen.


Jos ajatellaan, että ympäristön “kolmogorov-monimutkaisuus” on hyvin suuri, esim miljardi riviä C++-koodia tarvitaan sen toiminnallisuuden toteuttamiseen, miten Agentti opetetaan toimimaan tällaisen ympäristön kanssa? Jos ympäristö kaikessa “sekavuudessaan” iskettäisiin suoraan “vastasyntyneen” Agentin toimintakentäksi, olisi luonnollista, että Agentti ei saa mitään aikaiseksi, eikä edes opi, kuin äärimmäisen hitaasti ja tehottomasti. Näin kävisi ihmislapsellekin ilman vanhempien tukea. Agentti on siis opetettava suunnilleen samoin kuin ihmislapsi: tyvestä puuhun. Kaikki perustuu siihen, että maailma rakentuu hierarkisesti ja opetus edistyy hierarkiaa noudattaen, yksityiskohdista kokonaisuuksiin ja korkeampiin abstraktiohin.

Kuvassa on yksinkertaisen agentin sensorinen ja motorinen hierarkia. Jokainen pieni laatikko osaa useita, mahdollisesti satoja sekvenssejä, aina erilaisia kuin muut saman hierarkian laatikot. Sensorisen puolen laatikot tunnistavat sekvenssejä ja raportoivat tunnistamansa sekvenssin tunnuksen, symbolin hierarkiassa ylöspäin. Symbolien sarja on taas uusi sekvenssi, jonka ylemmän hierarkian laatikko tunnistaa, jne. Motorisen puolen laatikot generoivat sekvenssejä. Ylhäältä tullut symboli laukaisee symbolia vastaan sekvenssin, jonka tilat taas vastaavat alemman hierarkian sekvenssejä. Laatikot voidaan toteuttaa neuroverkoilla tai muilla tekniikoilla, vain toiminnallisuus on ratkaisevaa.

Opetuksen alussa opetetaan Agentille ihan alimman tason sekvenssejä ja niitä vastaavia motorisia toimenpidesekvenssejä: siis mitkä toimenpiteet, motoriset sekvenssit, aiheuttavat ympäristön tilassa vastaavat perustavaa laatua olevat sekvenssit. Näitä lapsikin opiskelee ensimmäisten viikkojensa, kuukausienssa aikana: imemisen hienosäätöä, omien käsiensä ohjailuja, ym. Esim. tarkoituksellinen esineeseen tarttuminen näköaistia hyödyntäen on valtava välisaavutus. Palautesignaali opastaa Agentin generoimaan “hyviä sekvenssejä”, jotka vastaavat sopivia ympäristön yksinkertaisia tiloja. Kun sekä motorisen, että sensorisen hierarkian alin taso, alimmat tasot, on opittu, vasta sen jälkeen siirrytään seuraavien ylempien tasojen, monimutkaisempien sekvenssien opiskeluun. Ja nämä tasot luonnollisesti soveltavat aiemmin opittuja sekvenssejä. Huomaa, että tällainen opettaminen antaa automaattisesti myös Agentille hierarkisen arvojärjestelmän, palautesignaalin tuloksena. Tyylikästä, eikö vain!

Jos ym. periaattessa on epäselvää ja muutenkin, kannatan tutustumista Jeff Hawkinsin “On Intelligence” -kirjaan tai vastaavan suomennokseen, joka kyllä löytyy kirjastoista.

Harrasteprojektista

Toivosin, että en olisi Suomessa ainoa, joka haaveilee toteuttavansa harrastepohjaisena projektina aidosti käsitteelliseen ajatteluun pystyvän kognitiivisen järjestelmän, pienen, autonomisen robotin. Vain onko niin, että kaikki, joilla on tähän kykyjä, keskittyvät ammattiurallaan etenemiseen, toteuttaen yritysmaailmassa yhtä vaativia, tai vaativampia hankkeita, jotka eivät kuitenkaan ole läheskään yhtä hohdokkaita ( mutta jotka tuottavat oikeasti rahaa, ehkä toteuttajalleen, mutta eteenkin osakkeenomistajille). Toivoisin siis jonkun vähemmän urahakuisen, tai sellaisen, jolla on ura jo takanaan, harkitsevan tällaista superhohdokasta projektia. Minulla on osa-aikaeläke vetämässä, siis vapaa-aikaa pian nykyistä enemmän käytettävissä tällaisiin korkeampiin sfääreihin kurkottamiseen.

Ei kommentteja:

Lähetä kommentti