Lyra 2.0: Mundos Gerativos 3D Exploráveis
Conteudo
TLDR;
Lyra 2.0 é um framework que gera vídeos de passeio controlados por câmera e os converte em cenas 3D consistentes e exploráveis por meio de reconstrução feed‑forward. Para garantir consistência em longos trajetos, o sistema mantém geometria 3D por quadro para roteamento de informação e usa treinamento auto‑aumentado que expõe o modelo aos seus próprios artefatos para aprender a corrigi‑los. Os mundos gerados podem ser exportados como nuvens de pontos, Gaussians Splats ou malhas e integrados a motores físicos (por exemplo NVIDIA Isaac Sim) para simulação, navegação robótica e aplicações de IA incorporada.
Resumo
Lyra 2.0 propõe um pipeline de "generative reconstruction" que gera vídeos controlados por câmera simulando passeios por cenas e os eleva a 3D via reconstrução feed‑forward, combinando a criatividade e fidelidade visual de modelos de vídeo com saídas 3D prontas para renderização e simulação. Para escalar a geração ao longo de trajetórias longas e revisitas, o trabalho identifica duas falhas principais—spatial forgetting (esquecimento espacial de regiões fora do contexto temporal) e temporal drifting (acúmulo de erros autoregressivos)—e as resolve com duas inovações: (1) manter geometria 3D por quadro usada exclusivamente para roteamento de informação, recuperando frames passados relevantes e estabelecendo correspondências 3D densas para guiar a síntese de aparência; (2) treinar com histórico auto‑aumentado que expõe o modelo às suas próprias saídas degradadas, ensinando-o a corrigi‑las. A ferramenta inclui uma GUI interativa que gera progressivamente nuvens de pontos, permite planejar trajetórias, revisitar áreas e exportar Gaussians Splats ou malhas para motores físicos (ex.: NVIDIA Isaac Sim) para simulação robótica. No método, frames históricos com máxima visibilidade são recuperados, warpados a coordenadas canônicas e injetados no modelo (DiT) via atenção, junto com histórico temporal comprimido, resultando em trajetórias mais longas e consistentes que facilitam reconstruções 3D de alta qualidade.