Önfelügyelt látástranszformátorok felfedezése a járásfelismeréshez a vadonban 1. rész

Nov 24, 2023

Absztrakt:

A járás módja (járás) egy erőteljes biometrikus adat, amelyet egyedülálló ujjlenyomat-vételi módszerként használnak, lehetővé téve, hogy távolról, az alany együttműködése nélkül, észrevétlen viselkedéselemzést végezzenek.

Mindannyian tudjuk, hogy a testmozgás hozzájárul az egészség megőrzéséhez. Ezen túlmenően a testmozgás javítja a memóriát is. A gyaloglás a legegyszerűbb és legkönnyebben gyakorolható gyakorlat, és sokan élvezik a pihenést séta vagy kocogás közben. Mostanra több kutatás is azt mutatja, hogy a séta hatalmas hatással van az agyra.

Először is, a séta serkenti az agy idegrendszerét, ami segít megerősíteni az agyműködést. Amikor a test mozog, megnövekszik a szívverésünk és a véráramlásunk, ami arra is serkenti az agyat, hogy több neuront és szinapszist termeljen. Az ezen neuronok és szinapszisok közötti kapcsolatok új neurális hálózatokat és gyorsabb gondolkodási folyamatokat hozhatnak létre.

Másodszor, a séta enyhítheti a stresszt és a szorongást, ami nagyon fontos a memória javításához. Amikor az elme és a test feszültségben, depresszióban vagy szorongásban van, az agy egy kortizol nevű hormont szabadít fel. A kortizol károsítja a neuronokat és a szinapszisokat az agyban, ami memóriavesztéshez vezethet. A séta enyhíti a stresszt és a szorongást, csökkenti a kortizoltermelést a szervezetben, és segít fenntartani az egészséges neuronokat és szinapszisokat.

Végül a séta fokozza az agy vérkeringését. Egyes tanulmányok azt mutatják, hogy a jó vérkeringés javíthatja a memóriát. Az életkor előrehaladtával az agy véredényei fokozatosan eltömődnek, ami az agy oxigénellátásának elégtelenségét eredményezi. A séta javíthatja a szív egészségét, lehetővé téve, hogy a szív hatékonyabban szállítson oxigént és tápanyagokat az agyba, ezáltal elősegíti a memóriát és az agyműködést.

Ezért a séta nagyszerű mozgásforma fiataloknak és időseknek egyaránt. A fizikai egészség javítása mellett a séta a memória javításában is segíthet. Tegyünk meg minden nap egy távolságot, hogy egészségesebbek és jobbak legyünk! Látható, hogy javítanunk kell a memórián, és a Cistanche deserticola jelentősen javíthatja a memóriát, mert a Cistanche deserticola egy hagyományos kínai gyógyászati ​​anyag, amelynek számos egyedi hatása van, amelyek közül az egyik a memória javítása. A darált hús hatékonyságát a benne található különféle hatóanyagok jelentik, beleértve a savakat, poliszacharidokat, flavonoidokat stb. Ezek az összetevők különféle módon elősegíthetik az agy egészségét.

improve memory

Kattintson a Tudjon meg 10 módszerre a memória javítására

A hagyományosabb biometrikus hitelesítési módszerekkel szemben a járáselemzés nem igényli az alany kifejezett együttműködését, és kis felbontású beállításokban is elvégezhető anélkül, hogy az alany arcának akadálytalannak/láthatónak kell lennie. A legtöbb jelenlegi megközelítést ellenőrzött környezetben fejlesztették ki, tiszta, aranystandard annotált adatokkal, amelyek a felismerést és osztályozást szolgáló neurális architektúrák fejlesztését tették lehetővé.

A járáselemzés csak a közelmúltban merészkedett arra, hogy sokrétűbb, nagyobb léptékű és valósághű adatkészleteket használjon előre kiképzett hálózatokhoz önfelügyelt módon. Az önfelügyelt edzési rendszer lehetővé teszi a változatos és robusztus járásábrázolások elsajátítását költséges manuális emberi megjegyzések nélkül. A transzformátormodell mindenütt a mélytanulás minden területén, beleértve a számítógépes látást is, ebben a munkában arra ösztönöz, hogy megvizsgáljuk az önfelügyelt járásfelismerésre közvetlenül alkalmazott különféle látástranszformátor-architektúrák használatát.

Az egyszerű ViT-t, CaiT-t, CrossFormer-t, Token2Token-t és TwinsSVT-t két különböző nagyszabású járásadatkészleten adaptáljuk és tanítjuk át: GREW és DenseGait. Kiterjedt eredményeket adunk a nullázáshoz és a finomhangoláshoz két benchmark járásfelismerési adatkészleten, a CASIA-B-n és az FVG-n, és feltárjuk a vizuális transzformátor által használt térbeli és időbeli járási információ mennyisége közötti kapcsolatot.

Eredményeink azt mutatják, hogy a transzformátormodellek tervezése a mozgás feldolgozására hierarchikus megközelítést (pl. CrossFormer modelleket) használ a finomabb mozgási vásárokon, összehasonlítva jobban, mint a korábbi teljes csontváz megközelítések.

Kulcsszavak:

járásfelismerés; biometrikus hitelesítés; látó transzformátor; pózbecslés; önfelügyelt tanulás; kontrasztív tanulás.

1. Bemutatkozás

A mozgásmódunk jelentős nyomokat tartalmaz önmagunkról. A járásunkat (járásmódunkat) különösen az orvostudomány [1], a pszichológia [2] és a sporttudomány [3] tanulmányozta alaposan. A közelmúltban a járáselemzés fokozott figyelmet kapott [4,5] a számítástechnikai közösség részéről, ami egybeesik a mély tanulás exponenciális fejlődésével és a számítástechnikai hardverek széles körű elérhetőségével.

A mesterséges intelligencia által működtetett járáselemző rendszerek képesek voltak sikeresen felismerni az alanyokat [6–10], megbecsülni a demográfiai adatokat, például a nemet és az életkort [11], és megbecsülni a külső jellemzőket, például a ruházatot [12] anélkül, hogy bármilyen külső megjelenési jelzést használtak volna. Ezek az eredmények nem meglepőek, tekintettel a járásban tapasztalható nagyszámú egyéni különbségre, amely a mozgásszervi szerkezet, a genetikai és környezeti tényezők, valamint a sétáló érzelmi állapotának és személyiségének különbségeiből adódik [13].

A jelenlegi rendszereket valóban csak ellenőrzött beltéri környezetben képezik ki és tesztelik. A legtöbb módszer a CASIA-B adatkészletet [6] használja a járásfelismerő modellek szabványos referenciaértékeként, amely 124 személyt tartalmaz, akik szigorúan ellenőrzött módon, több kamerával rögzítve sétálnak beltérben. A való világ bonyolultsága nem modellezhető teljes mértékben ilyen visszafogott forgatókönyvekkel. Csak a közelmúltban került a hangsúly a „vadon” járás modellezésén, olyan adatkészletekkel, mint a DenseGait [12], a GREW [7] és a Gait3D [14].

short term memory how to improve

Egy tiszta és teljesen jegyzett, nagyszabású adatkészlet összegyűjtése óriási erőfeszítést jelent mind a pénzügyi források, mind a ráfordított idő tekintetében. A GREW adatkészlet [7] összegyűjtése és annotálása állítólag 3 hónapig tartó folyamatos munkát igényelt. Bár az ilyen megközelítések hasznosak voltak a járás feldolgozására szolgáló neurális architektúrák kifejlesztésében [8,9], nem eléggé változatosak ahhoz, hogy nyugodtabb, valós környezetekben is megfelelően használhatók legyenek.

A mesterséges intelligencia közössége lassan eltávolodik ettől a megközelítéstől más területeken, miközben az önfelügyelt tanulási módszerek mind a látás [15], mind a nyelv [16] esetében jelentős vonzerőt nyertek, és gyakran felülmúlják a hagyományos felügyelt módszereket. A közelmúltban végzett önfelügyelt tanulás azt mutatta, hogy az önfelügyelt modellek robusztusabb és feltűnőbb viselkedési formák, amelyeket nem határoztak meg kifejezetten a képzés során.

Például a DINO [17], egy önfelügyelt rendszerben kiképzett látástranszformátor, megtanulta az osztályspecifikus jellemzőket, amelyek lehetővé tették a felügyelt objektumok szegmentálását anélkül, hogy a képzés során ilyen címkéket használtak volna. Cosmaand Radoi [10] javasolta az első kontrasztív módszert a gaitanalízis önfelügyelt tanulására, egy ST-GCN [18] betanításával a DenseGait [12] egy kisebb verzióján. Módszerük ésszerű eredményeket ért el a downstream járásfelismerési feladatokban, és azt mutatta, hogy szoros összefüggés van az előre betanított adatkészlet mérete és a nullapontos átviteli teljesítmény között.

Míg a járáselemzés számos megközelítése háttérkivonásból kinyert sziluettek felhasználását [6, 8, 9] alkalmazza, a sziluettek kinyerése a valós megfigyelési forgatókönyvekben fejlettebb technikák, például példányszegmentálás [19] alkalmazását vonja maga után, ami magas számítási költséggel jár. A sziluettek sorozatai jelentős tárhelyet foglalnak el, és nem kellően rugalmasak ahhoz, hogy más szomszédos feladatokban, például tevékenységfelismerésben lehessen őket használni. Ezenkívül a sziluettek finom megjelenési jelzéseket kódolnak, ami miatt nem világos, hogy a mozgást milyen mértékben használják fel az azonosításban [20].

Másrészt a 2D pozitivitási modellek egyre pontosabbak és számítási szempontból hatékonyabbak lettek [21,22]. A csontvázak kinyerése olcsó, és jelenleg megbízhatóbbak, mint a 3D hálók és 3D pózok, különösen távolról. Ráadásul a 2D csontvázak lényegesen könnyebbek, mint a sziluettek a hosszú távú tárolás szempontjából.

A csontvázak szekvenciáinak feldolgozására szolgáló jelenlegi architektúrák az emberi csontvázban jelenlévő természetes térbeli gráfszerkezetet használják, induktív torzítást vezetve be a modelltervezésbe. Az olyan modellek, mint a népszerű ST-GCN [18] és az MS-G3D [23] lenyűgöző eredményeket értek el a csontváz alapú akciófelismerés terén.

Ezzel párhuzamosan robbanásszerűen megnőtt a transzformátormodellek használata a mélytanulás szinte minden területén, mióta a természetes nyelvi feldolgozásra először alkalmazták őket.

A transzformátorokat általánosabb architektúrának tekintik, kevés induktív torzítással. Kezdetben a transzformátorok nem tudtak megfelelni a CNN-modelleknek a képbesoroláshoz [24], de jelenleg túlszárnyalnak más modelleket, és ígéretes eredményeket mutatnak az önfelügyelt forgatókönyvekben, sokkal inkább, mint más típusú architektúrák, a transzformátorok lenyűgöző tanulási képességet és kialakuló viselkedést mutattak önmagukban. -felügyelet [17].

Cosma és Radoi [12] elsőként javasolta a GaitFormert, a látástranszformátor-kódoló modell közvetlen adaptációját a járásfelismerésre, egyedi csontvázakat használva a bemeneti "foltok"-ként, lényegében csak időbeli figyelmet hajt végre, figyelmen kívül hagyva a térbeli figyelmi kapcsolatokat.

A GaitFormert önfelügyelt módon képezték ki, és minden finomhangolás nélkül is felülmúlta a többi járásfelismerési módszert. Az ilyen korábbi munkák biztatóak és előkészítik az utat a transzformátor-architektúrák járásanalízisben való lehetséges alkalmazásának alaposabb tanulmányozása előtt. A látástranszformátor modellek adaptálhatók-e a csontváz járásábrázolásainak önfelügyelt tanulására?

A képátalakítók fő építészeti problémája a képfoltok közötti megfelelő kapcsolatok meghatározása, amelyek meghatározzák a helyi és globális információkat. Ha járásra alkalmazzuk, a foltméretek megválasztása megfelel a vázszekvencia kódolt időbeli és térbeli információinak mennyiségének.

Ebben a munkában egy kiterjedt tanulmányt mutatunk be öt különböző látástranszformátorról, amelyeket járásfelismerésre adaptáltak. Megvizsgáljuk a klasszikus ViT-modellt [24], a CaiT-t [25], a CrossFormer-t [26], a TwinsSVT-t [27] és a token-token ViT-t [28].

ways to improve memory

Mindegyik architektúra külön-külön, kontrasztív, önfelügyelt módon van kiképezve a 2D járásváz szekvenciák két nagyszabású "vadon" adatkészletén: a DenseGait – a nyers megfigyelési folyamokból automatikusan összegyűjtött adatkészlet, valamint a GREW, egy kisebb adatkészlet, amely tiszta emberi megjegyzéseket tartalmaz.

Feltérképezzük a járásfelismeréshez szükséges két ellenőrzött adatkészlet, a CASIA [6] és az FVG [29] közötti átviteli képességeket. Minden adatkészletnél elemezzük a közvetlen (nullalövésű) átvitelt és az adathatékonyságot a finomhangolás során az adatkészletek fokozatosan nagyobb részhalmazaival való betanítással. Ezenkívül ablációs vizsgálatot végzünk a SimpleViT és CaiT foltméreteinek térbeli és időbeli dimenziói közötti kapcsolatról. , a mai napig a legtöbb vision transzformátor szabványos gerinchálózata.

A lap többi része a következőképpen épül fel. Magas szintű áttekintést végzünk a járásfelismerő modellekkel és látástranszformátorokkal kapcsolatos kapcsolódó munkákról. Megfigyeltük, hogy a járásreprezentációs modellek nagy hasznot húznak az önfelügyelt képzésből, hogy robusztusabb és általánosabb beágyazást biztosítsanak, a transzformátormodellek pedig nagy modellezési kapacitást mutattak az önfelügyelt képzési rendszerekben.

Továbbá matematikailag leírjuk az általunk benchmarkolható öt architektúrát, és leírjuk az adat-előfeldolgozást és a csontváz-transzformációkat, amelyek szükségesek ahhoz, hogy a látástranszformátoroknak zökkenőmentesen kell működniük a vázszekvenciákon. Leírjuk továbbá az adatbővítéseket, a képzési és benchmarking adatkészleteket, valamint a kísérleti beállításokat.

Bemutatjuk a CASIA-B és az FVG eredményeit mind az öt architektúra és a két „pretraining in-the-wild” adatkészlet esetében. Végül készítünk egy ablációs vizsgálatot a térbeli és időbeli foltméretek kapcsolatáról, és röviden ismertetjük eredményeinket. Forráskódunkat nyilvánosan elérhetővé tesszük a GitHubon (https://github.com/cosmaadrian/gait-vit, elérve 2023. február 28-án) az átláthatóság és a reprodukálhatóság érdekében.

2. Kapcsolódó munka

Ebben a részben rövid áttekintést adunk a járásfelismerés meglévő módszereiről, szabályozatlan környezetben és „vadon”. A továbbiakban ismertetjük a transzformátormodellek főbb fejlesztéseit, és különösen azok alkalmazását a látás területén.

2.1. Járásfelismerés

Az arcalapú azonosításhoz hasonlóan a járásfelismerés is a metrikus tanuláson alapul. A hagyományos biometrikus hitelesítési módszerekkel szemben, amelyek egyetlen képre támaszkodnak (pl. arcfelismerés) és kiterjedt együttműködést igényelnek (pl. írisz alapú biometrikus hitelesítés), a járásjellemzőket mozgási pillanatfelvételek sorozataként dolgozzák fel. Az ilyen gesztusdinamika bonyolultabbá teszi a leginformatívabb részsorozat meghatározását, de lehetővé teszi a nem feltűnő, távoli hitelesítés használatát.

Ebben az összefüggésben a feladat egy kódoló hálózat betanítását foglalja magában, hogy a sétaszekvenciát leképezzék egy beágyazási térre, ahol a beágyazási hasonlóság megfelel a járás hasonlóságának. Az egyazon személyhez tartozó séták beágyazódása legyen közel a beágyazási térhez, a különböző identitásból érkezők pedig távolabb legyenek. Ebben a beágyazási térben a járási szekvencia beágyazásával és a legközelebbi szomszéd felhasználásával lehet következtetést levonni. megközelítést az ismert séták adatbázisán.

A járásalapú felismerés jelenlegi megközelítései két kategóriába sorolhatók: megjelenés alapú [8,9] és modellalapú [10,12,30]. A megjelenés alapú módszerek először minden videókockából háttérkivonási vagy szegmentáló algoritmusokkal nyerik meg a sétáló alanyok sziluettjét.

Ezután a sziluettek sorozata bekerül a CNN-alapú architektúrákba, amelyek kivonják a térbeli és időbeli jellemzőket, amelyeket a felismerés érdekében végső beágyazásba vonnak össze. A modell alapú megközelítések pozitivitásbecslési modellekkel nyerik ki a csontvázakat RGB videókból [21,22]. A csontvázak sorozatait általában olyan modellek dolgozzák fel, amelyek gráfkonvolúciókra [10,30] támaszkodnak a járás beágyazásának eléréséhez.

GaitSet, Chao et al. [8], a járást a sziluettek rendezetlen halmazának tekinti. A szerzők azzal érvelnek, hogy ez az ábrázolás rugalmasabb, mint a sziluettsorozat, mivel robusztus a keretek különböző elrendezéseihez vagy a többszörös járási irányok és variációk kombinációjához. Konvolúciós rétegeket használnak minden egyes sziluetthez, hogy képszintű jellemzőket kapjanak, és egyesítsék őket egy meghatározott szintű jellemzővé a Set Pooling funkcióval. A végső kimenetet a HorizontalPyramid Matching saját verziójával kapják meg [31].

Fan et al. [9] észrevette azt a tényt, hogy az emberi sziluett bizonyos részeinek tér-időbeli kifejezést kell kapniuk, mivel mindegyiknek egyedi mintázata van. Architektúrájuk, a GaitPart, fókuszkonvolúciós rétegeket (FConvs) használ, amelyek a konvolúció egy speciális típusa, korlátozottabb befogadó mezővel. A szerzők azzal érvelnek, hogy az FConv-ok segítik felépítésüket abban, hogy a mozgó test különböző részei számára finomabb jellemzőket tanuljanak meg. Bemutatják a mikromozgásrögzítő modulokat is, amelyek kis időbeli sorozatok jellemzőinek kinyerésére szolgálnak.

Teepe et al. [30] a GaitGraph-ot javasolja, amely a ResGCN [32] nevű adaptált gráfkonvolúciós hálózatot használja a csontvázak sorozatából nyert térbeli és időbeli jellemzők kódolására. Li és mtsai. [33] a PTP-t javasolja, amely egy olyan struktúra, amely a járás legfontosabb szakaszainak elemzése alapján több időbeli jellemzőt aggregál egy járásciklusból.

Egy gráfkonvolúciós hálózatot is használnak a térbeli jellemzők kinyerésére, amely a PTP-vel együtt működik. A szerzők egy újszerű adatkiegészítési módszert mutatnak be, amely úgy módosítja a járást, hogy több ütemet biztosítson egy valósághűbb ciklusban.

A korábbi munkáktól eltérően azonban a járásfelismerő architektúrák teljesítményét kívánjuk feltárni önfelügyelt forgatókönyvekben. A számítógépes látás területén elért óriási fejlődés ihlette, javasoljuk a meglévő látástranszformátor-architektúrák adaptálását úgy, hogy képek helyett vázszekvenciákon működjenek, és modellezési képességüket önfelügyelt forgatókönyvekben teszteljék. A legtöbb más munka [8, 9, 30] olyan neurális architektúrák kifejlesztésére összpontosít, amelyek lenyűgöző eredményeket érnek el a járásfelismerésben a vezérelt adatkészleteken.

Szándékunkban áll azonban megszüntetni a rendkívül költséges kézi megjegyzések szükségességét a járási adatkészletekhez, és fel kell tárni, hogy az önfelügyelt tanulás milyen módon alkalmas a járáselemzésre.

memory enhancement

Az ezen a területen végzett korábbi munkák [10,12] lehetőséget mutattak arra, hogy a gyengén jegyzett adatkészletekből jó járásábrázolásokat tanuljunk meg. Cosmaand Radoi [12] javasolta a GaitFormert, az első transzformátor alapú architektúrát a vázszekvenciák feldolgozásához, amelyet a ViT [24] modell ihletett. A [12]-hez hasonlóan megkíséreljük feltárni más látástranszformátor modellek teljesítményét, amelyek eltérő térbeli és időbeli dinamikájúak a patch feldolgozó mechanizmusban. A múltban nagy léptékű adatkészleteket javasoltak a járásfelismeréshez [7,12], ami lehetővé teszi a reprezentációs tanulás általános architektúráinak kifejlesztését.


For more information:1950477648nn@gmail.com


Akár ez is tetszhet