AttentionMNIST: Egy egérkattintásos figyelemkövető adatkészlet kézzel írt szám- és ábécé felismeréshez

Feb 22, 2024

Több figyelem alapú modell, amely pillantások sorozatán keresztül ismeri fel a tárgyakat, eredményekről számolt be a kézzel írt számfelismerésről. A kézírásos számok vagy ábécé felismeréséhez azonban nem állnak rendelkezésre figyelemkövető adatok. Az ilyen adatok elérhetősége lehetővé tenné a figyelem alapú modellek értékelését az emberi teljesítményhez képest. Egérkattintásos figyelemkövetési adatokat gyűjtünk 382 résztvevőtől, akik szekvenciális mintavétellel próbálják felismerni a képekről kézzel írt számokat és ábécéket (kis- és nagybetűket). A benchmark adatkészletekből származó képek ingerként jelennek meg. Az összegyűjtött adatkészlet, az AttentionMNIST, minta (egérkattintásos) helysorozatból áll, pr.kiadott osztálycímké(k) minden mintavételnél, és az egyes mintavételek időtartama. Résztvevőink átlagosan csak a kép 12,8%-át figyelik meg felismerés céljából. Javasolunk egy alapmodellt a helyszín és az osztály(ok) előrejelzésére, amelyet a résztvevő kiválaszt a következő mintavételkor. Ha ugyanazoknak az ingereknek és kísérleti körülményeknek vagyunk kitéve, mint a résztvevőink, a sokat idézett figyelem alapú megerősítési modell elmarad az emberi hatékonyságtól.

Chinese herb cistanche

kínai cisztanchenövény- Az Alzheimer-kór elleni termékek megelőzése

Az elmúlt években skálázhatóságuk és hatékonyságuk miatt felkeltették az érdeklődést az objektumokat sorozatos pillantásokkal felismerő gépi tanulási (ML) modellek. E modellek közül sok, például az 1–7., kísérleti eredményekről számolt be a kézírásos számfelismerés benchmark MNIST adatkészletén. Sajnos nem állnak rendelkezésre figyelemkövető adatok az MNIST-hez. Ez megakadályozza a figyelem alapú modellek értékelését az emberi teljesítményhez képest. Ebbe a résbe estünk, amikor egy adatkészletet gyűjtöttünk olyan felnőtt résztvevőktől, akik szekvenciális mintavétellel próbálták felismerni a képekről kézzel írt számokat és ábécéket. A szemmozgás figyelemkövetéssel (emAT) ellentétben a résztvevő rákattint a képen arra a helyre, amelyet látni szeretne (az egérkattintásos figyelemkövetés (mcAT) egyik formája). Közvetlenül ezután kiválasztja azt az osztály(oka)t, amely(ek)be előrejelzése szerint az objektum tartozhat az eddigi megfigyelései alapján. Így minden egyes mintavételi epizódnál az adataink a kiválasztott kép helyéből, az előre jelzett osztálycímké(k)ből és a résztvevő által az utolsó epizód óta eltelt időből állnak. Minden kép után a résztvevő jutalmat kap a teljesítménye (pontosság és hatékonyság) alapján.

Anti Alzheimer's disease

A cistanche tubulosa-Anti Alzheimer-kór előnyei

Az mcAT előnyei az emAT-tal szemben a kézzel írt számok/ábécé felismeréséhez.

(1) a hús jelentős intra- és interperszonális változékonyságot tartalmaz a rögzítési hely tekintetében, különösen a statikus ingerek (képek) tekintetében8,9. Tehát nagy mennyiségű szemrögzítési adatra van szükség a statisztikailag szignifikáns következtetések levonásához. Az mcAT nem érzékeny a szemkövetési adatokra jellemző technikai zaj néhány forrására10. (2) A szemmozgások létrejöhetnek akaratlagos és akaratlan mechanizmusokból is11. A feladatfüggő döntéshozatal megkönnyítése érdekében megfelelő idő-, kontextus- és megerősítési jeleket adunk a résztvevőknek, amelyek ML modellben is bemutathatók. (3) Az emAT adatok pontossága és pontossága a szemkövetőtől függ, míg az mcAT független minden eszköztől. (4) Kihívást jelent a szemmozgások szinkronizálása az osztályválasztással. Ennek kiküszöbölésére esetünkben a mintavételi helyet és az osztály(oka)t ugyanabban az epizódban választjuk ki. (5) Végül, módszerünk lehetővé teszi az adatgyűjtést az Amazon Mechanical Turk (MTurk) használatával, mint a 12,13-ban, ami költség- és időhatékony, valamint könnyen reprodukálható.

Hozzájárulások.

Egy AttentionMNIST nevű mcAT-adatkészletet gyűjtünk össze az MTurk segítségével 382 résztvevőtől, és jutalmazzuk a kézzel írt számok és ábécék (kis- és nagybetűk) pontos és hatékony felismerését a képekről szekvenciális mintavétellel. A benchmark adatkészletekből (MNIST, EMNIST) származó képek ingerként jelennek meg. Szám/ábécé osztályonként átlagosan 169,1 választ rögzítenek. Ezzel az adatkészlettel a következőket mutatjuk be: • A résztvevőknek átlagosan 4,2, 4,7 és 4,9 mintára van szükségük a számok, nagybetűk és kisbetűk felismeréséhez, amelyek a képterület mindössze 11,3%-ának, 13,4%-ának és 13,7%-ának felelnek meg. . Az osztályozás pontossága több mintával nő. • Az alapvonalként bemutatott modell 74,4%-os, illetve 67,7%-os pontossággal képes megjósolni, hogy a résztvevő milyen osztály(oka)t és helyet választ ki a következő mintavételi epizódnál, mindkettőt az összes mintavételre és adatkészletre átlagolva. A minták számának növekedésével az osztály-előrejelzési pontosság nő, a hely-előrejelzési pontosság pedig csökken. • Ha ugyanazoknak az ingereknek és feltételeknek vagyunk kitéve, mint a résztvevőink, a sokat idézett, megerősítésen alapuló visszatérő figyelemmodell (RAM)3 3,7, 8,5 és 7,6 mintát igényel a számok, nagy- és kisbetűk felismeréséhez, ami 8,9%-nak felel meg. , 21.0%, a képterület 18,7%-a. Más figyelem alapú megerősítési modellek (pl. 1,2,4,5,7,14) hasonlóan értékelhetők az emberi teljesítményhez képest.

Cistanche supplement near me-Improve memory2

Cistanche-kiegészítő a közelemben – Memória javítása

Kattintson ide a Cistanche memóriajavító és Alzheimer-kór megelőzésére szolgáló termékek megtekintéséhez

【Kérjen többet】 E-mail:cindy.xue@wecistanche.com / Whats App: 0086 18599088692 / Wechat: 18599088692

Kapcsolódó munka

Az mcAT-ben az egérkattintások időbeli sorrendje analóg a szemmozgás szkennelési útvonalával10. Az mcAT hatékonyan helyettesítheti az emAT-t, mivel szignifikánsan korrelálnak10, 12, 13, 15–17. Az mcAT-vizsgálatokban különböző típusú ingereket használtak, például élő és élettelen objektumok képeit10, természeti jelenetek képeit12,13, statikus weboldalakat13, keresőoldalak elrendezését16 és két alfanumerikus karakterlánc-listát vizuális összehasonlításhoz17. Az mcAT-et azonban nem használták kézzel írott szám-/ábécé osztályozási feladatokra vagy figyelem alapú osztályozási modellek értékelésére. Az mcAT-vizsgálatok olyan jellemzőket használtak, mint az érintkezésig eltelt idő, a relatív rögzítési gyakoriság az érdeklődésre számot tartó területeken (AOI), azon alanyok relatív aránya, akik legalább egyszer kattintottak egy AOI-ban10, a rögzítések száma vizsgálatonként, a kísérleteken belüli refixáció, a tartózkodási idők és a szkennelési útvonalak17 , rögzítési térképek12,13, AOI és információáramlási minta16. Az időbélyeggel ellátott kattintási helyek és az előre jelzett osztálycímkék sorozata alkotja azokat a nyers adatokat, amelyek szükségesek a figyelem alapú modellek vagy az emberek hatékonyságának és pontosságának értékeléséhez az osztályozási feladatokban. Ezekből az adatokból különböző jellemzők származtathatók. Az mcAT-adatkészletünk, amely számos előnnyel rendelkezik a szemkövetési adatokkal szemben, döntő hiányt pótol a figyelemalapú modellkutatásban az AI, az ML és más területeken. Adatkészletünk lehetővé teszi a figyelem alapú modellek értékelését az emberi teljesítményhez képest. Ez többek között elősegíti a hatékony és valós idejű optikai karakterfelismerő rendszerek kifejlesztését, amelyek a gyakorlatban is széles körben elterjedtek (lásd a 18–20. példát). A vizuális rögzítést vezérlő elvek hipotézisek megfogalmazhatók és tesztelhetők adatkészletünk segítségével. A sikeres alapelvek átültethetők olyan valós vizuális felismerési feladatokra szolgáló rendszerek fejlesztésére, ahol a hatékonyság kulcsfontosságú, például az autonóm vezetésnél.

Adat

Adataink T epizódok sorozatából állnak minden résztvevő esetében. Az egyes epizódok adatai a következőkből állnak: (1) a képen a résztvevő által rákattintott hely (epizódonként egy kattintás a képen), (2) a résztvevő által kiválasztott osztály(ok) és (3) mennyi időbe telik a résztvevő. résztvevőt, hogy regisztrálja az aktuális mintát (azaz a képen az utolsó és az aktuális kattintás között eltelt időt). Ez a rész bemutatja adatgyűjtési folyamatunkat, beleértve az ingerek kiválasztását, a résztvevőket, a vizuális feladatokat, a teljesítménypontozást és az adatszűrést.

Az ingerek kiválasztása. Az ingerek két benchmark adatkészletben található képek közül kerülnek kiválasztásra: (1)

Az MNIST21 adatkészlet 70,000 címkézett képből (28×28 pixel) és 10 kézzel írt számból (0, 1, ..., 9}) áll. (2)

Az EMNIST22 adatkészlet 145 600 képből (28×28 pixel) áll, kézzel írt angol ábécé nagy- és kisbetűkkel, kiegyensúlyozott osztályt alkotva. Minden kép a 26 {a, b, ..., z} osztály egyikével van megjelölve. A kis- vagy nagybetűs címke azonban nincs képhez társítva. Minden kategóriából kiválasztunk 15 jól formázott számot az MNIST-ből és 15 jól formázott ábécét az EMNIST nagybetűs és kisbetűs adatkészletéből. A jól formált szám vagy ábécé hasonló az osztályának normáihoz. Így egy 15(10 + 26 + 26)=930 egyedi képből álló ingereket mutatunk be, a 62 osztály mindegyikéhez 15 kép tartozik. A jól formált 930-as képek a következők szerint kerülnek kiválasztásra:

1. lépés: Normalizálja az egyes képeket a min-max használatával az intenzitás 0 és 1 közötti skálázásához.

2. lépés: A jól formált EMNIST-képeket nagy- vagy kisbetűkkel címkézze fel. Mindegyik ábécéosztályhoz manuálisan kell kiválasztani és felcímkézni a nagy- és kisbetűs képekből egyaránt jól formált ábécét. Az osztályba tartozó összes kép koszinuszos hasonlóságát a két címkézett képpel kiszámítjuk. Azokhoz a képekhez, amelyek a koszinusz-hasonlósági küszöb felett vannak (a tapasztalatilag 0.8-nak választott), nagy- vagy kisbetűs címkét kapnak.

3. lépés: Számítsa ki az egyes osztályokhoz tartozó képek átlagát! Az osztály átlagos képe alkotja az osztály normáját. Egy kép akkor tekinthető ingernek, ha koszinusz-hasonlósága osztályának átlagos képével nagyobb, mint egy empirikusan meghatározott küszöbérték (0,7 az MNIST-nél, 0,75 az EMNIST-nél).

4. lépés: A támogatható képek közül minden osztályból manuálisan választanak ki 15 képet a megfelelő formájuk alapján. Az eredetileg 28×28 pixeles képeket 27×25-re csökkentjük a határok közelében lévő pixelek eltávolításával, mivel nincs intenzitásváltozásuk. Ennek a 15 képnek az átlagát a 62 osztály mindegyikére számítják ki. Ezeket az átlagos képeket I1, I2, ..., In értékekkel jelöljük n osztály esetén minden adatkészletben.

Résztvevők.

Összesen 382 különböző felnőtt személy vett részt a vizsgálatunkban. Nem használtak kiválasztási kritériumokat. Egy résztvevő több képre is válaszolhatott. A 62 osztály mindegyikében átlagosan 169,1 választ jegyeztek fel.

man-5989553_960_720

A cistanche tubulosa előnyeiAnti Alzheimer-kór

Vizuális feladat.

Vizuális feladatunk MTurk felülete az 1. ábrán látható. A 270×250 méretű vászon mindig alacsony intenzitású háttérképet jelenít meg. A háttér és az ingerképek mintavételezése tízszer 270×250-re történik. A vászon közepe a képek közepéhez igazodik. Háttér Kezdetben a háttér az adatkészletben lévő összes kép átlaga, amelyből az inger származik. Az első epizód után a háttér az utolsó epizód résztvevője által kiválasztott osztálykészletből származó összes kép átlaga. A való világban egy szám vagy ábécé helyének, méretének és tájolásának kontextusát a szomszédságában található írásból nyerjük, ami itt hiányzik. Amikor kísérleteinket üres háttérrel végeztük, a résztvevők gyakran vettek mintát a kép olyan helyeiről, amelyek nem tartalmazták az objektum egyetlen részét sem. Ezt a viselkedést úgy sikerült megfékezni, hogy a kiválasztott osztály(ok) átlagos képét alacsony intenzitású háttérben mutatták be, és az összes MNIST és EMNIST kép méretét 28 × 28 képpontról 27 × 25 képpontra csökkentették. Minden alkalommal, amikor a résztvevő kiválaszt egy helyet a vásznon, rákattintva, egy 50×50 pixeles folt jelenik meg az adott helyen középen az ingerképről. A felfedett javítás az utolsó epizódig továbbra is látható marad. Egy résztvevő feladata három lépésből áll minden t epizódnál (t=1, ..., T):

1. lépés: Kattintson bárhová a 270 × 250-es vásznon, hogy felfedje azt a foltot, amelyről mintát szeretne venni. Csak az első kattintást fogadjuk el.

2. lépés: Ismerje fel a számokat/ábécét az összes eddig megfigyelt mintából. A résztvevő több osztályt is kiválaszthat, és legalább egy osztályt ki kell választania a vászon alatt látható osztályok listájából.

3. lépés: A folytatáshoz kattintson a „Tovább” gombra a képernyő alján. Az osztály pontos és gyors következtetéséhez a résztvevőnek megfontoltan kell kiválasztania a helyszíneket az aktuális epizódig végzett megfigyelései alapján. Egy epizódnak nincs időkorlátja. A kép T epizódjainak teljes idejét azonban hat percre korlátozzuk. A T=12 típust választottuk, mivel a figyelem alapú kézírás-felismerésről vagy -generálásról szóló, sokat idézett művek 12-nél kevesebb pillantást használtak (pl. a RAM3 7 pillantáson belül képes felismerni az MNIST számokat, a DRAW23 pedig 11 pillantáson belül képes MNIST számokat generálni), és az emberek kevesebb, mint 12 pillantással képesek felismerni a kézzel írt számokat és ábécét.

Teljesítmény pontozás. A résztvevőt a megfigyelt minták számának pontossága és hatékonysága alapján adják meg. Legyen az az osztálykészlet, amelyet bármelyik epizódnál választott t. Tíz, a pontszáma t-nél:

Figure 1. Our MTurk interface as seen by a participant. Te second sampling for an EMNIST uppercase alphabet is shown.

1. ábra: Az MTurk felületünk egy résztvevő által. Megjelenik az EMNIST nagybetűs ábécé második mintavétele.

image


ahol |.| egy halmaz számosságát jelöli. A T epizódokban kiosztott összpontszám: h {{0}} T t=1 Pt. Ezért a maximális pontszám T epizódban T lehet, ha mindig csak a megfelelő osztályt választja. A minimális pontszám nulla a T epizódokban, ha mindig olyan osztálykészletet választ, amely nem tartalmazza a megfelelő osztályt. Tehát 0 kisebb vagy egyenlő h Kisebb vagy egyenlő, mint T. Minél előbb kiválasztja a résztvevő a megfelelő osztályt, annál magasabb lesz a pontszáma. Így ez a pontozási mechanizmus figyelembe veszi a felismerési pontosságot és a mintavételi hatékonyságot. A pontszám maximalizálása úgy, hogy a legelső epizódból csak egy osztályt választ, kockázatos, mivel ha nem a megfelelő osztály, akkor nullát adunk, míg a nullánál nagyobb pontszámot kap, ha a résztvevő több osztályt választ ( akár az összes osztály), amelyek a megfelelő osztályt tartalmazzák. Ez arra motiválja a résztvevőt, hogy a lehetséges osztályok alapján válaszoljon bármelyik epizódban. Az egyes epizódoknál megítélt pontszámot csak a T epizód befejezése után hozzák nyilvánosságra, hogy ne adjunk tanácsot a résztvevőnek. Az MTurkban a résztvevő által képért kapott díjazás arányos összpontszámmal, h.

Adatszűrés.

Ha egy résztvevő pontszáma az ingerkép utolsó (azaz a T-edik) epizódjában nulla, az adott képhez rögzített adatait el kell vetni. Az adatok akkor is el lesznek vetve, ha egy résztvevő befejezetlenül hagyja a feladatot. Ezzel a kiválasztási kritériummal 1736 ingerre kaptunk választ az MNIST-ből, 4431 ingerre az EMNIST nagybetűsről és 4315 ingerre az EMNIST kisbetűsről; vagyis osztályonként átlagosan 169,1 válasz.

Az adatok hasznosításának modelljei és módszerei

Ebben a részben az összegyűjtött adatok hasznosságát szemléltetjük azzal, hogy (4.1) egy kiindulási modellt adunk egy résztvevő viselkedésének előrejelzéséhez, és (4.2) megmutatjuk, hogy egy meglévő figyelem alapú megerősítési modell hogyan hasonlítható össze az emberi szám-/ábécé felismeréssel. teljesítmény. A viselkedés előrejelzésének alapja. A viselkedés bármely t epizódban helyválasztásból és osztálykiválasztásból áll. Mivel egy minta különböző mennyiségű információt tartalmaz különböző megfigyelők számára, vagy akár ugyanazon megfigyelő számára különböző időpontokban9, az egyes résztvevők viselkedésének előrejelzése nehéz probléma. Legyen n az osztályok száma egy adathalmazban, ηt az egyszemélyes halmaz, amely tartalmazza az ingerkép valódi osztályát t-nél, ct az osztályok halmaza és lt a résztvevő által kiválasztott hely a t-ben, hogy ez legyen a megfigyelése t és 1:t az 1, 2, ..., t sorozatot jelöli. Minden t-ig egy résztvevő megfigyelései o1:t, az általa kiválasztott helyszínek pedig l1:t. A résztvevő viselkedési előrejelzésének problémáját a következőképpen fogalmazzuk meg: Osztály-előrejelzés Becsüljük meg az i∈ct (i=1, 2, ..., n) valószínűségét az o1:t és l1:t, azaz P( i ∈ ct|o1:t, l1:t). Helymeghatározás Becsülje meg az lt+1 valószínűségét az o1:t, l1:t és ct, azaz P(lt+1|o1:t, l1:t,ct) alapján. Osztály előrejelzés. A résztvevő által a t epizódban kiválasztott osztály megjóslásához kiszámítjuk annak valószínűségét, hogy a t pontban lévő képinger az I. osztályhoz tartozik, figyelembe véve a résztvevő kiválasztott l1:t helyeit és a megfelelő o1:t megfigyeléseket, az alábbiak szerint:

image

ahol Ii az i osztályba tartozó ingerképek (27×25) átlaga, az I′ egy 27×25-ös kép, amely o1:t-t tartalmaz l1:t-nél, · skaláris szorzatot, .euklideszi normát jelöl. Minden pixelintenzitás nem negatív. Bármely t epizódban a P(i|o1:t, l1:t) hiedelem-eloszlás k legnagyobb valószínűségű osztálya alkotja a modellünk által előre jelzett ˆct osztályok halmazát, ahol k=|ct|. Az osztályozás pontosságát a Jaccard index (JI) segítségével mérjük. A JI két halmaz, X és Y hasonlóságát méri: J(X, Y) {{10}} |X ∩ Y|/|X ∪ Y|. A JI 0 és 1 közé esik; ha X=Y, J(X, Y)=1. Bármely t epizódban egy résztvevő osztályozási pontossága J(ηt,ct), míg a mi modellünké J(ηt, ˆct). A JI a nevezője miatt többet büntet, mivel a megjósolt halmazban (ct vagy ˆct) növekszik azon elemek száma, amelyek nincsenek ηt-ben, ami esetünkben kívánatos tulajdonság. A résztvevők és a mi modellünk besorolása közötti hasonlóságot J(ct, ˆct) mérjük. Modellünket az osztálykiválasztás és az elutasítás pontossága szempontjából is értékeljük minden résztvevő tekintetében. Legyen st=ct − ct−1 a kiválasztott új osztályok halmaza, és rt=ct−1 − ct azoknak az osztályoknak a halmaza, amelyeket egy résztvevő t pontban elutasított. Hasonlóképpen, ˆst=ˆct − ct−1 a kiválasztott új osztályok halmaza, és ˆrt=ct−1 − ˆct a modellünk által t helyen elvetett osztályok halmaza. Ekkor a modell osztálykiválasztása és elutasítása összevethető egy résztvevőével J(st, ˆst), amikor |st| > 0 és J(rt, ˆrt), amikor |rt| > 0, ill. Hely-előrejelzés. Hipotézis Ideális esetben a hiedelmek eloszlása ​​minden osztály között unimodális (azaz csak egy csúcs) és vékony Gauss-féle (azaz kis szórás) alakú legyen, ami azt jelzi, hogy a résztvevő magabiztos az inger (környezet) osztályában (állapotában). Azonban, amint az adatainkból is kitűnik (lásd 2. ábra), egy résztvevőt gyakran összetévesztenek több osztály között, különösen a kezdeti néhány epizód során. Ezekben az esetekben a hiedelmei eloszlása ​​több csúcsot tartalmaz, vagy kövér Gauss-féle. Feltételezzük, hogy egy résztvevő célja egy unimodális és vékony Gauss-féle konvergencia, aminek elérése érdekében szelektíven mintát vesz olyan helyekről, amelyek egy kivételével az összes osztály valószínűségét csökkentik. Ez a hipotézis az osztályok (környezeti állapotok) feletti bizonytalanság minimalizálásához vezet, ami egy jól ismert cselekvést vezérlő elv24, beleértve a szemmozgásokat is25.

Figure 2. Duration and class distribution over all participants and stimuli belonging to categories '0', 'a', and 'A'.


2. ábra. Időtartam és osztályeloszlás az összes résztvevő és '0', 'a' és 'A' kategóriákhoz tartozó ingerek között.

Te observations at certain locations in a stimulus image can discriminate between certain classes. Te observation at a location l might indicate that the numeral/alphabet belongs to class I and not to class j. Such locations are more salient than others in achieving a participant's goal. To sample such locations, a saliency map, Dij, is computed such that if l is salient, the observation at l is evidence to increase the probability of class I and decrease that of j. Mathematically, Dij = N (., σ ) ∗ g(.), where ∗ is the convolution operator, g(.) is a saliency scoring function, and N (., σ ) is a 5×5 Gaussian kernel with standard deviation σ = 6 to smooth the saliency scores. We denote the set of all saliency maps as D = {Dij: i, j ∈ {1, 2, ..., n}, i �= j}. A location l in a stimulus image is salient for class i with respect to class j if Dij(l)>θ, ahol a θ=0,5 × max(D) küszöbérték egy empirikusan meghatározott skaláris mennyiség.

Két aszimmetrikus metrikát, a Kullback-Leibler (KL) divergenciát és differenciát tekintjük a g függvény jelöltjeinek. KL divergencia Adott két normalizált átlagkép, az Ii és Ij, a KL(Ii, Ij) KL divergencia méri az információvesztést, ha Ij-t használunk az Ii közelítésére. Ezt minden k pixelre kiszámítjuk, mint26: KL(Ii,k, Ij,k)=Ii,k log δ + Ii,k Ij,k+δ, ahol Ij,k a k-adik képpont intenzitása Ij, és δ egy regularizációs állandó. Amikor Ii,k=Ij,k, KL(Ii,k,Ij,k) → 0. Különbség Adott két normalizált átlagos kép, az Ii és az Ij, az egyes k pixelek különbsége Diff (Ii,k, Ij,k)=Ii,k − Ij,k. Amikor Ii,k=Ij,k, Diff (Ii,k, Ij,k)=0. Egy résztvevő bizonytalan az aktuális epizódnál kiválasztott órakészlettel, ct-vel kapcsolatban. Ezért a hely-előrejelzéshez csak azokat a D-beli feltűnőségi térképeket vesszük figyelembe, amelyek a ct-ben szereplő osztályokat tartalmazzák. A helyszín megjósolása akkor történik meg, ha e feltűnési térképek alapján kiemelkedő, és a résztvevő soha nem választotta ki. Tus, adott o1:t, l1:t és ct, az lt+1 hely előrejelzése a következő:

image

ahol Ŵ az előrejelzett ˆl helyet tartalmazó 3- sorok halmaza, az osztály, amelyre az (i) jellemző, és mely osztály (j) tekintetében. A hely előrejelzése helyes, ha létezik olyan �ˆl, i, j� ∈ Ŵ, hogy �ˆl − lt+1� < ǫ, I ∈ ct+1 és j /∈ ct{{3} }, ahol ǫ a legnagyobb euklideszi távolság a középső pixel és a megfigyelési folt bármely pixelje között. A helyjóslás pszeudokódja az 1. algoritmusban látható. A pszeudokód részletes magyarázata a kiegészítő anyag S1 szakaszában található. (Te valószínűségi eloszlás, P(lt+1|o1:t, l1:t,ct) kiszámítható úgy, hogy feltételezzük, hogy a nem Ŵ-ben lévő helyek szembetűnőségi pontszáma nulla, majd normalizáljuk az összes kiemelési pontszámot. helyek összege egységnyi. Ezt a valószínűséget azonban nem használták fel, mivel a (3) egyenlet elegendő a jelen cikk céljaira.)

image

Figyelem alapú modellek értékelése.

A figyelem alapú modellek képviselőjeként a sokat idézett visszatérő figyelem modellt (RAM)3 tekintjük, amely az MNIST adatkészleten számol be kísérleti eredményekről. A megerősítő modell szekvenciálisan mintát vesz egy képről, és minden mintavételi pillanatban eldönti, hogy hol vegyen a következő mintát, így alkalmas az összegyűjtött adatok felhasználásával történő értékelésre.

RAM

bepillantások sorozata alapján osztályozza a képeket. A következő helyet sztochasztikusan választjuk ki egy helyhálózat által paraméterezett elosztásból. A modell végponttól végpontig képzése a következő célkitűzés maximalizálásával3:

image


ahol M az epizódok száma, T a megfigyelések száma, xi 1:t az aktuális ügynök I epizódig történő futtatásával kapott interakciós sorozatok, ui t az aktuális művelet, θ a betanítható paraméterek halmaza, Ri t a kumulatív jutalom, bt az alapérték, és π(ui t|xi 1:t; θ ) a politika. A RAM viselkedése összehasonlítható a résztvevőkkel, ha összehasonlítjuk a RAM által megjósolt és a résztvevők által kiválasztott helyszínek sorozatából nyert rögzítési térképeket. A fxációs térkép kiszámítása úgy történik, hogy minden helyhez hozzárendelnek egy értéket, amely megegyezik a kiválasztási gyakorisággal, majd normalizálja ezeket az értékeket, hogy az összes helyre kiterjedő eloszlást hozzon létre.

Mérőszámok a rögzítési térképek összehasonlításához. A két rögzítési térképet, a P-t és a Q-t összehasonlító metrikáknál szorosan követjük a 26-ot. Három eloszláson alapuló mérőszámot használunk: KL divergenciát (KL), Pearson-korrelációs együtthatót (CC) és hasonlóságot (SIM), hogy összehasonlítsuk a mintavételi helyek eloszlását. modellből a résztvevőktől származó, az összegyűjtött adatokban rögzítettekkel.

A (korábban definiált) KL nagyon érzékeny a nulla értékekre.

A CC két leképezés közötti lineáris kapcsolatot a következőképpen tudja kiértékelni: CC(P, Q)=σ (P, Q) σ (P)σ (Q), ahol σ a variancia vagy kovariancia. Mivel a CC szimmetrikus, nem képes arra következtetni, hogy a fixációs térképek közötti különbségek hamis pozitív vagy álnegatív értékekre vezethetők vissza.

A SIM mérése 26: SIM(P, Q)=k min(Pk, Qk), ahol k Pk=k Qk=1. A CC-hez hasonlóan a SIM szimmetrikus, és ugyanazt a hátrányt örökli. Ezenkívül a SIM nagyon érzékeny a hiányzó értékekre, és bünteti azokat az előrejelzéseket, amelyek nem veszik figyelembe az alapigazság sűrűségét.

Ember- és állatkutatás.

A Memphisi Egyetem Intézményi Ellenőrző Testülete megállapította, hogy ez a tanulmány nem felel meg az Office of Human Subjects Research Protections humán alanyú kutatásra vonatkozó definíciójának, és a CFR 46. része nem vonatkozik rá. Ezért ez a tanulmány nem igényel IRB jóváhagyását vagy felülvizsgálatát.

Kísérleti eredmények Adatelemzés.

Az összegyűjtött adatok megjeleníthetők a kiválasztott helyek eloszlásának sorrendjében (3. ábra), a kiválasztott osztályokban (2. ábra) és az egymást követő epizódok közötti időtartamban (2. ábra). Ezek az eloszlások nagyon hasonlóak a három adatkészlet esetében. Bármely szám vagy ábécé esetében a kiválasztott helyek az utolsó epizód utáni eloszlása ​​hasonlít az adatkészletből származó osztály pixelintenzitásának eloszlására. A kiválasztott helyek sorrendje azonban sztochasztikus jellegű. Az osztályeloszlás azt jelzi, hogy a kezdeti néhány epizódban összekeveredtek a hasonló szerkezetű kategóriák, amikor a résztvevők több osztályt választanak. Ez a zavar csökkenti a több mintavétellel. Szignifikáns pozitív korreláció van a zavartság mértéke (# kiválasztott osztály/összesen # osztály) és a mintavétel időtartama között (lásd 4. ábra). Ha a kiválasztott osztályok száma magas (alacsony), akkor az egymást követő epizódok közötti időtartam magas (alacsony). A résztvevő által egy osztályhoz kiválasztott helyszínek sorrendjének CC-je nem szignifikáns (1. táblázat). Ez a statikus képek mintavételezésének alanyok közötti változatossága miatt várható. A résztvevőknek egy osztály pontos előrejelzéséhez szükséges mintavételek átlagos száma meglehetősen alacsony. Átlagosan 4,2, 4,7 és 4,9 mintát vesz igénybe, ami 36, 44,1 és 48,1 másodpercnek felel meg az MNIST, az EMNIST nagybetűs és kisbetűs képek pontos osztályozásához. A résztvevők átlagosan csak a képterület 11,3%-át, 13,4%-át és 13,7%-át tekintették meg a szám-, nagy- és kisbetűs ábécé-kép pontos besorolásához (lásd az S2. ábrát a kiegészítő anyagban). Ezek az eredmények rávilágítanak az emberi vizuális érvelési rendszer hatékonyságára, bár alacsonyabb felbontásban, mint a szemkövetési adatok, de kevesebb zajjal és változékonysággal. Ezek az empirikus eredmények hasznosak lehetnek valós alkalmazásokhoz való figyelemalapú modellek tervezésében. Viselkedés előrejelzése. Ebben a részben az alapmodellünk teljesítményét értékeljük abból a szempontból, hogy mennyire tudja pontosan megjósolni az egyes résztvevők helyét és osztályválasztását. Mivel a két kiemelkedő pontozási függvényt, a KL divergenciát és a különbséget használó kísérleti eredményeink meglehetősen hasonlóak, az eredményeket csak a különbség használatával közöljük, hacsak másképp nem jelezzük. Osztály előrejelzés. Az osztály-előrejelzés és annak pontossági kiértékelési módszerei az „Osztály-előrejelzés” részben találhatók. Az 5. ábrán látható osztály-előrejelzési pontosság az összes osztályra, minden mintavételre kerül kiszámításra. Az átlagos osztály-előrejelzési pontosság az összes mintavételre és adatkészletre vonatkozóan 74,4% (std. dev. 26.5). Az 5a és b ábrák azt mutatják, hogy a résztvevők és az alapmodellünk által kiválasztott osztálykészlet (2. egyenlet) meglehetősen pontatlan a kezdeti epizódokban, és a minták növekedésével javul. Az 5c. ábra azt mutatja, hogy a kezdeti epizódok során ez a két halmaz, a ct és ˆct, meglehetősen eltérő; a hasonlóság a minták számának növekedésével nő. Ugyanez vonatkozik az új osztálykiválasztásokra is (ld. 5f. ábra). Az osztályok elutasításai azonban hasonlóak a kezdeti epizódokban; a hasonlóság tovább növekszik több mintával (ld. 5e. ábra). Mivel J(st, ˆst)=|(ct ∩ ˆct) − ct−1| |(ct ∪ ˆct) − ct−1| és J(rt, ˆrt)=|ct−1 − (ct ∪ ˆct)| |ct−1 − (ct ∩ ˆct)|, az 5e, f ábrából arra lehet következtetni, hogy a kezdeti epizódokban a ct−1 és a ct ∪ ˆct metszéspontja kicsi, ami azt jelzi, hogy kezdetben a résztvevők és az alapmodellünk az egymást követő epizódok között sok változtatást hajtanak végre az osztályválasztásban. Ezért kezdetben az osztálykiválasztási folyamat erősen sztochasztikus. Míg a kezdeti epizódok során van némi eltérés a résztvevők és a modellünk osztály-előrejelzése között, a viselkedések egyre hasonlóbbá válnak több mintával. Az első néhány (jellemzően 4-7) epizód során az inger rendkívül szembetűnő részei derülnek ki. Ez segít abban, hogy a későbbi mintavételeknél csak a megfelelő osztályt válasszuk ki, ami növeli az előrejelzés pontosságát. Mivel sok olyan osztály van, amelynek átlagos sablonjai megegyeznek az inger megfigyelt részeivel a kezdeti néhány epizód során, az osztálykiválasztási folyamat lényegesen sztochasztikusabb, ami a résztvevők és a modellünk alacsony osztályozási pontosságához vezet.

Figure 3. Distribution of sampling locations over all participants for each numeral/alphabet class and each sampling episode. Each row corresponds to a class, each column corresponds to a sampling episode which increases from left to right.


3. ábra: A mintavételi helyek megoszlása ​​az összes résztvevő között minden szám/ábécé osztály és mintavételi epizód esetében. Minden sor egy osztálynak, minden oszlop egy mintavételi epizódnak felel meg, amely balról jobbra növekszik.

Hely-előrejelzés. Alapmodellünk (3. egyenlet) hely-előrejelzési pontossága az összes mintavételre és adathalmazra átlagolva 67,7% (14.1 szabvány) (lásd: 5d. ábra). Ennek az előrejelzési pontosságnak a trendje ellentétes az osztály előrejelzési pontosságával. A magyarázat azonban ugyanaz marad. A hely-előrejelzési pontosság nagy a kezdeti mintavételezés során, mivel ezekben az epizódokban a kiemelkedően kiemelkedő helyek kerülnek kiválasztásra, így a későbbi epizódokban a kevésbé kiemelkedő helyeket kell kiválasztani. Mivel sok hely van alacsony feltűnőséggel, a kiválasztási folyamatuk erősen sztochasztikus, ezért nehéz megjósolni, ami az előrejelzési pontosság csökkenéséhez vezet a mintavételek növekedésével. A csökkenő tendencia minden adatkészlet esetében egyedi (lásd: 5d. ábra), mivel az osztályok száma és a megkülönböztetésre alkalmas, kiemelkedően kiemelkedő helyek száma adatkészletenként változik. Minél alacsonyabb az osztályok száma és a kiemelkedően megkülönböztető helyek, annál gyorsabban csökken a hely-előrejelzés pontossága a mintavételek növekedésével.

imageFigure 4. (Lef) Errorbar plot of time diference (seconds) between consecutive samples averaged over all classes. Tat is, value shown at sampling episode t is the time elapsed between a participant's clicks in image at t − 1 and t. (Right) Errorbar plot of confusion averaged over all classes at each episode. Errorbars indicate std. dev.

4. ábra (Bal) Az egymást követő minták közötti időkülönbség (másodperc) hibasáv diagramja az összes osztályra átlagolva. Tat: a t mintavételi epizódban megjelenített érték az az idő, amely a résztvevőnek a képre történő kattintásai között eltelt t − 1 és t időpontban. (Jobbra) A zavartság hibasávja az összes osztályra átlagolva minden epizódnál. A hibasávok std. dev.

Figure 5. Evaluation of our baseline model (ref.

5. ábra: Alapmodellünk értékelése (lásd: "A viselkedés előrejelzésének alaphelyzete" fejezet). (a) A résztvevők osztályozási pontossága (acc.) és (b) a mi alapmodellünk pontos címkéje, mint alapigazság. (c) Osztályozási hasonlóság (J(ct, ˆct)), (d) helymeghatározási pontosság, (e) osztályelutasítási pontosság és (f) alapmodellünk osztálykiválasztási pontossága a résztvevők adataival mint alapigazság. A részletekért lásd a „Viselkedés előrejelzése” részt.

Table 1. Average Pearson correlation coefficient (corr.) for fxation sequences for the same class. For any fixation, distance is Euclidean and direction is measured as the polar angle with respect to the center of stimuli as the origin. Std. dev. are included in parenthesis.


1. táblázat. Átlagos Pearson-korrelációs együttható (korr.) ugyanazon osztály fxációs szekvenciáihoz. Bármilyen rögzítés esetén a távolság euklideszi, és az irányt az inger középpontjához, mint origóhoz viszonyított poláris szögként mérjük. Std. dev. zárójelben szerepelnek.

A RAM értékelése.

Minden osztályhoz és mintavételhez összehasonlítjuk a RAM-ból származó rögzítési térképeket (a github.com/hehefan/Recurrent-Attention-Model RAM-implementációját használtuk) és az MTurkban bemutatott, ugyanazon ingerekre összegyűjtött adatokat. A résztvevőkkel való tisztességes összehasonlítás érdekében a RAM-ban rögzítettük a szekvencia hosszát T=12-ban, az első mintavételi helyen a kép közepén, a bemeneti megfigyelést egy 5×5-ös foltban, amelynek középpontja a kiválasztott hely, és egyenlettel módosította a jutalomfüggvényt. (1). Te kumulatív jutalom, Rt egyenletben. (4,) helyébe az egyenletből kapott t τ=1 Pτ kumulatív pontszám kerül. (1). Mivel a résztvevő bármely epizódban több osztályt is kiválaszthat, a RAM-modell esetében ahelyett, hogy egyetlen osztályt jósolnánk meg a legnagyobb valószínűség alapján, az összes osztályra vonatkozó átlagos valószínűséget tekintjük küszöbnek, és megjósoljuk a ct osztályok halmazát, amelyek valószínűsége nagyobb, mint a küszöb. Ezt a ct-t használják a pontszám kiszámításához az Eq. (1). Ilyen körülmények között a RAM-nak 3,7, 8,5 és 7,6 mintára van szüksége az MNIST-számok, valamint a nagy- és kisbetűs EMNIST-ábécék felismeréséhez, amelyek a képterület 8,9%, 21.0%, 18,7%-ának felelnek meg. Így a RAM kevésbé hatékony a résztvevőinkhez képest (lásd "Adatelemzés" fejezet). Lásd a 2. táblázatot. A RAM-ból származó rögzítési térképek és az összegyűjtött adatok összehasonlításának eredményeit a 3. táblázat mutatja. A KL magasabb a nulla értékekre való érzékenysége miatt. Ez azt jelenti, hogy több helyről mintát vesznek a résztvevők, de nem a RAM-ból. Ezek a kísérletek alapul szolgálhatnak a figyelemmodellel mintavételezett helyek értékeléséhez.

cistanche-Improve memory2

A cistanche előnyei - Javítja a memóriát

Megbeszélések

Az ebben a cikkben használt mcAT-paradigmának vannak bizonyos pontjai, amelyek eltérnek azoktól, amelyek elsősorban a szemmozgásokra és tekintetekre támaszkodnak a tárgyfelismerési mechanizmusok tanulmányozása során. Ez utóbbiban először a jelenet kiemelkedő részei hívják fel a figyelmet, majd szakadikus szemmozgások, amelyek a szempillantását a kiemelt helyekre irányítják27. A tekintetet alulról felfelé és felülről lefelé irányuló jelek irányítják, amelyek a kiemelési információkkal együtt prioritási térképeket alkotnak, amelyek irányítják a szemmozgásokat a tárgy felismeréséhez. Mivel a jelen tanulmányban részt vevők a statikus képeket szabad megtekintési körülmények között és elegendő idővel (hat perc a T=12 mintavételhez) nézték meg, valószínűleg egy sor szakadikus szemmozgást vagy vizuális érvelést végeztek28, hogy felfedezzék. a képet, mielőtt egy AOI-ra kattintana. Ezeket a szemmozgásokat meg lehetett volna rögzíteni az emAT-ban (szemkövető segítségével), de az mcAT-ben nem. Ezeket a szemmozgásokat azonban befolyásolja az elme kóborlása. Míg az mcAT-re az elmében való vándorlás is hatással van29, a hatás csökkenhet, ha a résztvevők vizuális érvelés után válaszolnak. Mivel az ingerre adott szemmozgásokat az adott feladat befolyásolja30, a résztvevők szemmozgásának mintázatait valószínűleg minden mintavételnél befolyásolta a hozzárendelt háromlépéses feladat (lásd: „Vizuális feladat” szakasz). Ha szemkövetőt használtak volna, a résztvevők szemmozgásai a minta feltárására keveredtek volna a választott osztályok kattintására irányuló szemmozgással, ami megnehezítette volna a minta vizuális feltárásának értelmezését. Az osztály(ok)ra való kattintás szükséges lépés, mivel ez, bár introspektív módon, felfedi a résztvevő fejében előre jelzett osztály(ok)at. Valószínű, hogy az AOI kiválasztása előtti és utáni tekintetek – talán a fixáló szemmozgások is elősegítve –{10}}járultak a legnagyobb mértékben a számok/ábécé felismeréséhez. Valójában azt feltételezzük, hogy a résztvevők a kép diagnosztikai területeit választották ki az osztályok megkülönböztetésére, és ezek a területek valószínűleg alulról felfelé irányuló (pl. vizuális kontraszt) és felülről lefelé (szám/ábécé sablon) diagnosztikai információkat tartalmaznak. Ez összhangban van azzal a megállapításunkkal, hogy a résztvevők gyorsan (átlagosan 5 mintán belül) különbséget tettek az ingerosztályok között, látszólag a diagnosztikai foltok kiválasztásával.

Table 2. Comparison of efficiency between our participants and the RAM model in terms of the average number of samples required to recognize a numeral/alphabet. The percentage of the image area observed is included in parentheses.

2. táblázat. A résztvevőink és a RAM-modell hatékonyságának összehasonlítása egy szám/ábécé felismeréséhez szükséges átlagos mintaszám alapján. A megfigyelt képterület százalékos aránya zárójelben szerepel.

Table 3. Evaluation of fixation maps from RAM for the stimuli presented in the MTurk experiments averaged over all classes and samplings. Std. dev. are included in parenthesis.


3. táblázat: A RAM-ból származó rögzítési térképek értékelése az MTurk-kísérletekben bemutatott ingerekre, minden osztályra és mintavételre átlagolva. Std. dev. zárójelben szerepelnek.

Következtetések

Bevezettünk egy mcAT adatkészletet a kézzel írt számok és ábécék felismerésére szekvenciális mintavétellel. Az adatokat 382 résztvevőtől gyűjtöttük össze, akiket a benchmark adatkészletekből (MNIST, EMNIST) kiválasztott képekkel mutattak be. Szám/ábécé osztályonként átlagosan 169,1 választ rögzítenek. Az adatokat szigorúan elemzik, hogy feltárják az emberi vizuális felismerés hatékonyságát. A résztvevők csak a kép 12,8%-át figyelték meg felismerésre. Javasoltunk egy kiindulási modellt annak előrejelzésére, hogy a résztvevő milyen helyet és osztály(oka)t választ ki a következő mintavételkor. Megmutattuk, hogy kísérleti körülményeink és adataink hogyan használhatók fel egy figyelem alapú megerősítési modell értékelésére az emberi teljesítményhez képest. Ez az mcAT adatkészlet, amely számos előnnyel rendelkezik a szemkövetési adatokkal szemben, döntő hiányt pótol a figyelem alapú modellkutatásban az AI, az ML és más területeken.

Hivatkozások

1. Ranzato, MA A tanulás hol keresse. arXiv:1405.5488, (2014).

2. Ba, J., Salakhutdinov, RR, Grosse, RB és Frey, BJ Ébredés-alvás visszatérő figyelemmodellek tanulása. In NIPS, 2593–2601 (2015).

3. Mnih, V. et al. A vizuális figyelem visszatérő modelljei. In NIPS, 2204–2212 (2014).

4. Ba, J., Mnih, V., & Kavukcuoglu, K. Többszörös objektumfelismerés vizuális figyelemmel. arXiv:1412.7755 (2014).

5. Dutta, JK & Banerjee, B. Az osztályozás pontosságának változása a pillantások számával. In IJCNN, 447–453 (IEEE, 2017).

6. Larochelle, H. & Hinton, GE A fovealis pillantások és a harmadrendű Boltzmann-gép kombinálásának megtanulása. In NIPS, 1243–1251 (2010).

7. Elsayed, G., Kornblith, S. & Le, QV Saccader: A kemény figyelem modellek pontosságának javítása a látás érdekében. In NIPS, 702–714 (2019).

8. van Beers, RJ A szakadikus szemmozgások változékonyságának forrásai. J. Neurosci. 27(33), 8757–8770 (2007).

9. Itti, L. & Baldi, P. A bayesi meglepetés vonzza az emberi figyelmet. Vis. Res. 49(10), 1295–1306 (2009).

10. Egner, S. et al. Figyelem és információszerzés: Az egérkattintás összehasonlítása a szemmozgás figyelem követésével. J. Eye Mov. Res. 11. (6), (2018).

11. Peterson, MS, Kramer, AF & Irwin, DE A figyelem rejtett eltolódása megelőzi az akaratlan szemmozgásokat. Felfogás. Psychophys. 66 (3), 398–405 (2004).

12. Jiang, M. et al. Szilícium: Feltűnőség a kontextusban. In CVPR, 1072–1080 (2015).

13. Kim, NW et al. BubbleView: Interfész a képek fontossági térképeinek tömeges beszerzéséhez és a vizuális figyelem nyomon követéséhez. ACM Trans. Comput. Zümmögés. Egymásra hat. 24. (5), 1–40. (2017).

14. Sermanet, P., Frome, A. & Real, E. Figyelem a finomszemcsés kategorizálásra. arXiv:1412.7054 (2014).

15. Egner, S., Itti, L. & Scheier, C. Figyelemmodellek összehasonlítása különböző típusú viselkedési adatokkal. Investig. Ophthalmol. Vis. Sci. 41 (4), S39 (2000).

16. Navalpakkam, V. et al. Szem-egér viselkedés mérése és modellezése nemlineáris oldalelrendezések jelenlétében. In Proc. Int. Konf. WWW, 953–964 (2013).

17. Matzen, LE, Stites, MC & Gastelum, ZN Vizuális keresés tanulmányozása szemkövető nélkül: A mesterséges foveáció értékelése. Cogn. Res. Princ. Implic. 6 (1), 1–22 (2021).

18. Tafi, AP et al. OCR mint szolgáltatás: A Google Docs OCR, a Tesseract, az ABBYY FineReader és a Transym kísérleti kiértékelése. Int. Symp. Vis. Comput., 735–746 (Springer, 2016).

19. Memon, J., Sami, M., Khan, RA & Uddin, M. Kézírásos optikai karakterfelismerés (OCR): Átfogó szisztematikus irodalmi áttekintés (SLR). IEEE Access 8, 142642–142668 (2020).

20. Chaudhuri, A., Mandaviya, K., Badelia, P. & Ghosh, SK Optikai karakterfelismerő rendszerek. In Optical Character Recognition Systems for Different Languages ​​with Sof Computing, 9–41 (Springer, 2017).

21. LeCun, Y. et al. Gradiens alapú tanulás a dokumentumok felismerésére. Proc. IEEE 86(11), 2278–2324 (1998).

22. Cohen, G., Afshar, S., Tapson, J. & van Schaik, A. EMNIST: Az MNIST kiterjesztése kézzel írott levelekre. arXiv:1702.05373, (2017).

23. Gregor, K., Danihelka, I., Graves, A., Rezende, D. & Wierstra, D. DRAW: A recurrent neural network for image generation. In ICML, 1462–1471 (2015).

24. Friston, K. Te szabadenergia-elv: A durva útmutató az agyhoz?. Trends Cogn. Sci. 13(7), 293–301 (2009).

25. Mirza, MB, Adams, RA, Friston, K. & Parr, T. Az aktív következtetésen alapuló szelektív figyelem bayesi modelljének bemutatása. Sci. Rep. 9 (1), 1–22 (2019).

26. Bylinskii, Z., Judd, T., Oliva, A., Torralba, A. & Durand, F. Mit mondanak el a különböző értékelési metrikák a szembetűnőségi modellekről? IEEE Trans. Pattern Anal. Mach. Intell. 41 (3), 740–757 (2018).

27. Itti, L. & Koch, C. A vizuális figyelem számítási modellezése. Nat. Neurosci tiszteletes. 2(3), 194–203 (2001).

28. Lamme, VAF Tudatos látást generáló vizuális funkciók. Elülső. Psychol., 11, (2020).

29. da Silva, MRD & Postma, M. Vándor elmék, vándor egerek: Számítógépes egérkövetés mint módszer az elmében való vándorlás kimutatására. Comput. Zümmögés. Behav. 112, 106453 (2020).

30. Schütz, AC, Braun, DI & Gegenfurtner, KR Szemmozgások és észlelés: szelektív áttekintés. J. Vis. 11. (5), 9–9. (2011).

31. Intoy, J. & Rucci, M. A finoman hangolt szemmozgások javítják a látásélességet. Nat. Commun. 11. (1), 1–11. (2020).

Akár ez is tetszhet