Noticias - OpenAI Point E: Cree una nube de puntos 3D a partir de formas de onda complejas en minutos en una sola GPU

En un nuevo artículo Point-E: un sistema para generar nubes de puntos 3D a partir de señales complejas, el equipo de investigación de OpenAI presenta Point E, un sistema de síntesis condicional de texto de nube de puntos 3D que utiliza modelos de difusión para crear formas 3D variadas y complejas impulsadas por texto complejo. señalesen minutos en una sola GPU.
El sorprendente rendimiento de los modelos de generación de imágenes de última generación ha estimulado la investigación en la generación de objetos de texto en 3D.Sin embargo, a diferencia de los modelos 2D, que pueden generar resultados en minutos o incluso segundos, los modelos generativos de objetos suelen requerir varias horas de trabajo en la GPU para generar una sola muestra.
En un nuevo artículo Point-E: un sistema para generar nubes de puntos 3D a partir de señales complejas, el equipo de investigación de OpenAI presenta Point·E, un sistema de síntesis condicional textual para nubes de puntos 3D.Este nuevo enfoque utiliza un modelo de propagación para crear formas 3D variadas y complejas a partir de señales de texto complejas en solo uno o dos minutos en una sola GPU.
El equipo se centra en el desafío de convertir texto a 3D, que es fundamental para democratizar la creación de contenido 3D para aplicaciones del mundo real que van desde la realidad virtual y los juegos hasta el diseño industrial.Los métodos existentes para convertir texto a 3D se dividen en dos categorías, cada una de las cuales tiene sus inconvenientes: 1) los modelos generativos se pueden usar para generar muestras de manera eficiente, pero no se pueden escalar de manera eficiente para señales de texto diversas y complejas;2) un modelo de imagen de texto preentrenado para manejar señales de texto complejas y variadas, pero este enfoque es computacionalmente intensivo y el modelo puede atascarse fácilmente en mínimos locales que no corresponden a objetos 3D significativos o coherentes.
Por lo tanto, el equipo exploró un enfoque alternativo que tiene como objetivo combinar las fortalezas de los dos enfoques anteriores, utilizando un modelo de difusión de texto a imagen entrenado en un gran conjunto de pares de texto e imagen (lo que le permite manejar señales diversas y complejas) y un modelo de difusión de imágenes 3D entrenado en un conjunto más pequeño de pares de texto e imagen.conjunto de datos de par imagen-3D.El modelo de texto a imagen primero toma muestras de la imagen de entrada para crear una única representación sintética, y el modelo de imagen a 3D crea una nube de puntos 3D basada en la imagen seleccionada.
La pila generativa del comando se basa en marcos generativos propuestos recientemente para generar imágenes de forma condicional a partir de texto (Sohl-Dickstein et al., 2015; Song & Ermon, 2020b; Ho et al., 2020).Usan un modelo GLIDE con 3 mil millones de parámetros GLIDE (Nichol et al., 2021), ajustados en modelos 3D renderizados, como su modelo de transformación de texto a imagen, y un conjunto de modelos de difusión que generan nubes de puntos RGB como su modelo. modelo de transformación.imágenes a imagen.modelos 3D
Si bien el trabajo anterior utilizó arquitecturas 3D para procesar nubes de puntos, los investigadores utilizaron un modelo simple basado en transductores (Vaswani et al., 2017) para mejorar la eficiencia.En su arquitectura de modelo de difusión, las imágenes de nube de puntos se introducen primero en un modelo CLIP ViT-L/14 preentrenado y, a continuación, las mallas de salida se introducen en el convertidor como marcadores.
En su estudio empírico, el equipo comparó el método Point·E propuesto con otros modelos 3D generativos en las señales de puntuación de los conjuntos de datos de detección, segmentación y firma de objetos COCO.Los resultados confirman que Point·E es capaz de generar formas 3D diversas y complejas a partir de señales de texto complejas y acelerar el tiempo de inferencia en uno o dos órdenes de magnitud.El equipo espera que su trabajo inspire más investigaciones sobre la síntesis de texto en 3D.
Un modelo de propagación de nubes de puntos previamente entrenado y un código de evaluación están disponibles en el GitHub del proyecto.Document Point-E: un sistema para crear nubes de puntos 3D a partir de pistas complejas está en arXiv.
Sabemos que no te quieres perder ninguna noticia o descubrimiento científico.Suscríbase a nuestro popular boletín semanal Synced Global AI Weekly para recibir actualizaciones semanales de AI.

Hora de publicación: 28-dic-2022

OpenAI Point E: cree una nube de puntos 3D a partir de formas de onda complejas en minutos en una sola GPU