For nylig frigav Figur AI, et innovativt firma inden for robotik i USA, et stort gennembrud: en generel visuel sproghandling (VLA) -model kaldet Helix. For første gang indser denne model højhastighedskontinuerlig kontrol af den komplette overkrop af en humanoid robot og integrerer perfekt opfattelse, sprogforståelse og læringskontrol.
Fremkomsten af Helix -modellen markerer et vigtigt skridt fremad i den operationelle fleksibilitet hos humanoide robotter. Med enkle naturlige sprogkommandoer kan roboten let forstå næsten ethvert lille husholdningsobjekt, også dem, der aldrig er blevet rørt under træning, uden nogen forudgående demonstration eller brugerdefineret programmering. Denne kapacitet skyldes Helix -modellens kraftfulde generaliseringsevne.

Figur AI fremhævede, at Helix -modellen har skabt en række industrifirst. For første gang muliggør det højhastighedskontinuerlig kontrol af hele overkroppen af en humanoid robot, herunder den fleksible kontrol af håndleddet, overkroppen, hovedet og hver finger. Ved test behandlede roboten med succes tusinder af nye genstande, der var rodet med uorganisering, fra glasvarer og legetøj til værktøjer og tøj uden forudgående demonstration eller programmering.
Hvad der er endnu mere forbløffende er, at Helix-modellen også har multi-robot-samarbejdsfunktioner. I testen var de to robotter i stand til at arbejde sammen på langsigtede, komplekse opgaver, der arbejdede sammen om aldrig før set genstande, såsom at sortere ukendte dagligvarer sammen. Denne kapacitet åbner flere muligheder for den praktiske anvendelse af robotter i hjemmemiljøet.
Helix -modellen demonstrerer også fremragende sceneforståelse og semantiske parsing -kapaciteter. Når robotten er bedt om at "hente et ørkenobjekt", er roboten ikke kun i stand til at erkende, at legetøjskaktus passer til dette abstrakte koncept, men vælger også den nærmeste hånd og udfører en præcis grebshandling. Denne universelle gripende funktion fra sprog til bevægelse giver større bekvemmelighed for implementering af humanoide robotter i ustrukturerede miljøer.
Helix-modellen var i stand til at opnå disse gennembrud takket være dens banebrydende dobbelt-systemarkitektur. Arkitekturen består af henholdsvis system 1 og system 2, som er ansvarlige for henholdsvis højhastigheds præcis kontrol, sceneforståelse og semantisk parsing. System 2 er baseret på open source VLM med 7B-parametre, der fungerer med en frekvens af 7-9 Hz for at sikre generalisering på tværs af objekter og scenarier. System 1 er en 80 m parameter visuel motorstrategimodel, der konverterer den semantiske repræsentation af System 2 til kontinuerlige handlingsinstruktioner med en frekvens på 200Hz for at opnå millisekund niveau i realtid. Denne afkoblede arkitektur gør det muligt for de to systemer at udføre deres respektive funktioner og arbejde sammen for at opnå effektiv humanoid robotkontrol.
Helix -modeller bruger meget få ressourcer under træning. Ved kun at bruge ca. 500 timers overvågede data af høj kvalitet var teamet i stand til at opnå en robust generalisering af objekter. Disse data repræsenterer mindre end 5% af størrelsen på tidligere indsamlede VLA-datasæt og er ikke afhængige af multi-bot enhedssamling eller flertrinsuddannelse. Denne præstation demonstrerer ikke kun effektiviteten af Helix -modellen, men giver også flere muligheder for udvikling af humanoide robotter i fremtiden.
