Dense Tracking, Mapping and Scene Labeling using a Depth Camera



Título del documento: Dense Tracking, Mapping and Scene Labeling using a Depth Camera
Revista: Revista Facultad de Ingeniería. Universidad de Antioquia
Base de datos: PERIÓDICA
Número de sistema: 000415757
ISSN: 0120-6230
Autores: 1
2
2
1
Instituciones: 1Universidad del Valle, Escuela de Ingeniería Eléctrica y Electrónica, Cali, Valle del Cauca. Colombia
2Intel Corporation, Santa Clara, California. Estados Unidos de América
Año:
Periodo: Mar
Número: 86
Paginación: 54-69
País: Colombia
Idioma: Inglés
Tipo de documento: Artículo
Enfoque: Experimental, aplicado
Resumen en español Presentamos un sistema de localización con información densa, reconstrucción 3D, y detección de objetos en ambientes tipo escritorio, usando una cámara de profundidad; el sensor Kinect. La cámara se mueve manualmente mientras se estima su posición, y se construye un modelo denso con información de color de la escena que se actualiza permanentemente. El usuario puede, alternativamente, acoplar el módulo de detección de objetos (YOLO: you only look once [1]) para detectar y propagar al modelo información de categorías de objetos comúnmente encontrados sobre escritorios, como monitores, teclados, libros, vasos y laptops, obteniendo un modelo con color asociado a la categoría del objeto. La posición de la cámara es estimada usando una técnica modelo-frame con el algoritmo iterativo de punto más cercano (ICP, iterative closest point) con resolución en niveles, logrando una trayectoria libre de deriva, robustez a movimientos rápidos de la cámara y a condiciones variables de luz. Simultáneamente, los mapas de profundidad son fusionados en una estructura volumétrica desde las posiciones estimadas de la cámara. Para visualizar una representación explícita de la escena se emplea el algoritmo marching cubes. Los algoritmos de localización, fusión, marching cubes y detección de objetos fueron implementados usando hardware para procesamiento gráfico con el fin de mejorar el desempeño del sistema. Se lograron resultados sobresalientes en la posición de la cámara, alta calidad en la geometría y color del modelo, estabilidad del color usando el módulo de detección de objetos (robustez a detecciones erróneas) y manejo exitoso de múltiples instancias de la misma categoría
Resumen en inglés We present a system for dense tracking, 3D reconstruction, and object detection of desktop-like environments, using a depth camera; the Kinect sensor. The camera is moved by hand meanwhile its pose is estimated, and a dense model, with evolving color information of the scene, is constructed. Alternatively, the user can couple the object detection module (YOLO: you only look once [1]) for detecting and propagating to the model information of categories of objects commonly found over desktops, like monitors, keyboards, books, cups, and laptops, getting a model with color associated to object categories. The camera pose is estimated using a model-to-frame technique with a coarse-to-fine iterative closest point algorithm (ICP), achieving a drift-free trajectory, robustness to fast camera motion and to variable lighting conditions. Simultaneously, the depth maps are fused into the volumetric structure from the estimated camera poses. For visualizing an explicit representation of the scene, the marching cubes algorithm is employed. The tracking, fusion, marching cubes, and object detection processes were implemented using commodity graphics hardware for improving the performance of the system. We achieve outstanding results in camera pose, high quality of the model’s color and geometry, and stability in color from the detection module (robustness to wrong detections) and successful management of multiple instances of the same category
Disciplinas: Ciencias de la computación
Palabras clave: Procesamiento de datos,
Sistemas de localización,
Reconstrucción densa,
Sensor de profundidad,
Representación volumétrica,
Detección de objetos
Keyword: Computer science,
Data processing,
Localization systems,
Dense reconstruction,
Depth sensor,
Volumetric representation,
Objects detection
Texto completo: Texto completo (Ver HTML)