Vijesti - OpenAI Point E: Stvorite 3D oblak točaka iz složenih valnih oblika u nekoliko minuta na jednom GPU-u

U novom članku Point-E: Sustav za generiranje 3D oblaka točaka iz složenih signala, istraživački tim OpenAI predstavlja Point E, sustav uvjetne sinteze teksta 3D oblaka točaka koji koristi modele difuzije za stvaranje raznolikih i složenih 3D oblika vođenih složenim tekstom znakovi.za nekoliko minuta na jednom GPU-u.
Nevjerojatna izvedba današnjih najsuvremenijih modela za generiranje slika potaknula je istraživanje u generiranju 3D tekstualnih objekata.Međutim, za razliku od 2D modela, koji mogu generirati izlaz za nekoliko minuta ili čak sekundi, generativni modeli objekata obično zahtijevaju nekoliko sati GPU rada za generiranje jednog uzorka.
U novom članku Point-E: Sustav za generiranje 3D oblaka točaka iz složenih signala, istraživački tim OpenAI predstavlja Point·E, sustav tekstualne uvjetne sinteze za 3D oblake točaka.Ovaj novi pristup koristi model propagacije za stvaranje raznolikih i složenih 3D oblika iz složenih tekstualnih signala u samo minutu ili dvije na jednom GPU-u.
Tim je usredotočen na izazov pretvaranja teksta u 3D, što je ključno za demokratizaciju stvaranja 3D sadržaja za aplikacije u stvarnom svijetu, od virtualne stvarnosti i igara do industrijskog dizajna.Postojeće metode za pretvaranje teksta u 3D spadaju u dvije kategorije, od kojih svaka ima svoje nedostatke: 1) generativni modeli mogu se koristiti za učinkovito generiranje uzoraka, ali se ne mogu učinkovito mjeriti za različite i složene tekstualne signale;2) unaprijed obučeni model teksta i slike za rukovanje složenim i raznolikim tekstualnim znakovima, ali ovaj je pristup računalno intenzivan i model se lako može zaglaviti u lokalnim minimumima koji ne odgovaraju smislenim ili koherentnim 3D objektima.
Stoga je tim istražio alternativni pristup koji ima za cilj kombinirati prednosti gore navedena dva pristupa, koristeći model difuzije teksta u sliku obučen na velikom skupu parova tekst-slika (što mu omogućuje rukovanje raznolikim i složenim signalima) i model difuzije 3D slike uvježban na manjem skupu parova tekst-slika.skup podataka para slika-3D.Model tekst-u-sliku prvo uzorkuje ulaznu sliku kako bi stvorio jednu sintetičku prezentaciju, a model slike-u-3D stvara 3D oblak točaka na temelju odabrane slike.
Generativni skup naredbi temelji se na nedavno predloženim generativnim okvirima za uvjetno generiranje slika iz teksta (Sohl-Dickstein et al., 2015; Song & Ermon, 2020b; Ho et al., 2020).Oni koriste GLIDE model s 3 milijarde GLIDE parametara (Nichol et al., 2021.), fino podešenih na renderiranim 3D modelima, kao svoj model transformacije teksta u sliku i skup difuzijskih modela koji generiraju RGB oblake točaka kao njihov model transformacije.slike do slike.3D modeli.
Dok su prethodni radovi koristili 3D arhitekture za obradu oblaka točaka, istraživači su koristili jednostavan model temeljen na sondi (Vaswani et al., 2017.) za poboljšanje učinkovitosti.U njihovoj arhitekturi difuzijskog modela, slike oblaka točaka prvo se unose u prethodno obučeni ViT-L/14 CLIP model, a zatim se izlazne mreže unose u pretvarač kao markeri.
U svojoj empirijskoj studiji, tim je usporedio predloženu metodu Point·E s drugim generativnim 3D modelima o bodovanju signala iz skupova podataka COCO detekcije, segmentacije i potpisa.Rezultati potvrđuju da Point·E može generirati raznolike i složene 3D oblike iz složenih tekstualnih signala i ubrzati vrijeme zaključivanja za jedan do dva reda veličine.Tim se nada da će njihov rad potaknuti daljnja istraživanja 3D sinteze teksta.
Unaprijed obučeni model širenja oblaka točaka i kod za procjenu dostupni su na GitHubu projekta.Document Point-E: Sustav za stvaranje 3D oblaka točaka iz složenih tragova nalazi se na arXivu.
Znamo da ne želite propustiti nijednu vijest ili znanstveno otkriće.Pretplatite se na naš popularni tjedni bilten Synced Global AI Weekly da biste primali tjedne novosti o umjetnoj inteligenciji.

Vrijeme objave: 28. prosinca 2022