nou panse egzakteman opoze
pwo. Blèm trè difisil ki poko rezoud nèt akòz konplikasyon tankou pwo. Blèm matche. Te gen yon istwa long nan pwogrè nan zòn sa a, men lè Nerf kon. Bine avèk metòd jeneratif, espesyalman nan yon kontèks modèl difizyon, rekonstriksyon 3D ak jenerasyon toudenkou kòmanse fizyone. Nan jaden an nan vizyon òdinatè, nou toudenkou dekouvri ke si nou wè yon . Bagay, oswa imajine yon . Bagay, tou de ka konvèje nan yon direksyon ki nan génération li. Sa a se yon moman trè enpòtan, men
anpil moun pa ka okouran de li paske nou pa pale sou li osi anpil jan
nou pale sou LLM. Wi, gen rekon Achte an gwo sèvis SMS striksyon nan espas pixel, pou egzanp ou rekonstwi yon sèn reyèl epi si ou pa ka wè sèn sa a, ou itilize teknik jeneratif; De yo aktyèlman trè menm jan an. Ou te pale sou lang ak piksèl pandan tout konvèsasyon sa a, kidonk petèt sa a ta yon . Bon moman pou pale sou entèlijans espasyal kont apwòch lang,
tankou yo konplemantè, oswa yo konplètman diferan? Mwen panse ke yo konplemantè. Mwen pa fin sèten ki jan yo defini “konplètman diferan”, men mwen ka eseye fè yon konparezon. Jodi a, anpil moun ap pale de GPT, ouvèti, ak modèl miltimodal. Li santi ke modèl sa yo ka okipe tou de piksèl ak lang. Se konsa, èske yo ka reyalize rezònman espasyal nou vle a? Pou reponn kesyon sa a, nou . Bezwen louvri “. Bwat nwa a” nan sistèm sa yo ak wè
ki jan yo travay an. Ba kapo a. Reprezantasyon ki kache nan modèl lan
g ak modèl lang miltimodal nou wè kou Ukratko o glavnim razlikama između nye a se “yon dimansyon”. Nou pale sou longè kontèks, transformateur, sekans, mekanis atansyon, men nan fen jounen an, se reprezantasyon modèl sa yo ki . Baze sou yon sèl dimansyon jeton seri. Reprezantasyon sa a trè natirèl lè w ap fè fas ak langaj, paske tèks li menm konsiste de sekans yon sèl dimansyon nan lèt disrè. Reprezantasyon yon dimansyon sa a se . Baz pou siksè LLM, e sa a se vre tou pou LLM milti-modal nou wè kouny
e a, ki “peze” lòt modalités (tankou imaj) nan reprezantasyon yon dim
ansyon sa a. Nan domèn entèlijans esp usa lists asyal, a – nou kwè ke nati a twa dimansyon nan mond lan ta dwe nwayo a nan reprezantasyon. Soti nan yon pèspektiv algoritmik, sa a ouvè nouvo opòtinite pou nou trete done ak jwenn diferan kalite pwodiksyon, ede nou rezoud kèk pwo. Blèm trè diferan. Menm nan yon nivo . Brit, ou ta ka di: “LLM multimodal yo ka wè imaj tou vre,