Introducción
La inspección y el examen del lugar de los hechos es una parte esencial de la investigación forense. Para documentar la escena, hay que recoger una cantidad importante de pruebas físicas que se utilizarán en la investigación. En cualquier caso, no hay que descartar el factor humano, que puede afectar al proceso. Todo investigador puede perder de vista un detalle importante por diversas circunstancias y no siempre es posible volver a examinar la escena. Recrear la escena desde la Realidad Virtual constituye una solución que permite reexaminar, profundizar y revisar la copia digital de los hechos tantas veces como sea necesario. Por ello, se propone una plataforma que permite crear una réplica digital de la escena de un incidente en Realidad Virtual (RV).
En la actualidad se investiga y aborda activamente sobre la aplicación de la tecnología de RV en el ámbito forense y el uso de los datos en materia jurídica (Cho et al., 2021). Más allá de la realización de las investigaciones, está la cuestión abierta de la formación de los futuros investigadores. Requiere una importante inversión de recursos para crear el entorno en el que tendrá lugar la formación, desde la recreación del entorno hasta la participación del investigador.
Utilizando datos reales y/o generados (Kugurakova et al., 2021)ENT#093;, los alumnos pueden practicar ya en copias digitales (Kugurakova et al., 2020). Con este enfoque, solo se observan gastos de recursos significativos durante la fase de preparación de los datos, ya que los procesos de preparación y/o generación de datos requieren cierto tiempo además de la energía para alimentar el hardware. Como resultado, los datos resultantes pueden reutilizarse y el proceso de aprendizaje será más didáctico y entretenido.
Las copias digitales o gemelos virtuales no solo se utilizan en el ámbito forense (Cover et al., 2017), también permiten crear copias de complejos industriales (Kugurakova and Khairullin, 2019). Esta tecnología proyecta el mundo de la simulación para supervisar los sistemas en tiempo real, lo que habilita las respuestas rápidas a los problemas identificados o incluso predecirlos.
Por el momento, no existen precedentes del uso de la tecnología de RV en los procesos judiciales. Sin embargo, ha habido un experimento con el uso de la tecnología de RV por parte de los jurados en un juicio simulado (Reichherzer, Cunningham, and Coleman, 2021). El autor compara el impacto en la cognición y la usabilidad de la RV para los jurados en comparación con las imágenes. El resultado del estudio mostró que el uso de la tecnología de RV condujo a una toma de decisiones coherente.
El trabajo de ( Van Gelder et al., 2016) por su parte estudia la sustitución del proceso de interrogatorio de los ladrones por una recreación en realidad virtual de un robo. El autor explica que, al recrear sus crímenes en un entorno virtual, no se les impide intentar recordar, recrear o reconstruir el contexto que ocurrió hace muchos años.
En 2022, en un tribunal del estado de Florida (Estados Unidos), el abogado Ken Padowitz, que representaba a su cliente Benjamin Siegel, acusado de un intento de atropello a un vecino en el que el acusado conducía un coche deportivo Dodge Viper, presentó una moción para utilizar la tecnología de RV en un juicio penal con el jurado (Kizony, Katz, and Weiss, 2003). Padowitz ha estado utilizando activamente las nuevas tecnologías desde 1992, cuando presentó una animación por ordenador en 2D para ilustrar el testimonio de los peritos durante las sesiones, y desde entonces la animación por ordenador ha sido utilizada activamente por la defensa en los juicios penales. Como se puede apreciar, la RV ya ha empezado a ser demandada en los procesos penales.
El término "proceso penal" en sí mismo incluye tanto aspectos sustantivos como procesales. En primer lugar, son interesantes los procedimientos en los que es posible utilizar la copia digital del incidente (CDI) tanto en la fase de investigación preliminar como en la de juicio de un caso penal. Estos procedimientos no excluyen la posible aclaración o modificación de la calificación del acto (derecho sustantivo) como resultado del uso de la CDI.
Estos procedimientos pueden incluir, en primer lugar, la fase de investigación previa al juicio:
grabación la situación de la escena del incidente (EI);
Presentación como anexo al informe de inspección;
Reconstrucción detallada de la EI;
Posibilidad de simulación informática de diversos procesos (físicos, químicos, tecnológicos, etc.) que tuvieron lugar durante el incidente;
Manipulación de la escena 3D de la CDI:
Surge un amplio campo para procesar el paquete de fotofilmación de forma automática, utilizando redes neuronales.
En segundo lugar, en la fase de remisión del caso al fiscal para la confirmación de la acusación:
Aplicación de la realidad virtual en aras de resolver problemas forenses (Kuzenkova and Tolstolutsky 2021);
Inspección visual de la escena gracias a la RV para supervisar la calidad de la investigación/preliminar.
En tercer lugar, en la fase de preparación y desarrollo del juicio:
Una de las pruebas que se examinarán en el tribunal (análogo al antiguo plano del lugar de los hechos como anexo al informe de inspección);
El expediente del caso también puede utilizarse para verificar la calidad de la investigación y, posiblemente, para obtener pruebas que aún no están registradas en el expediente del caso.
En todas las etapas (después de la grabación de la EI) existe la posibilidad de una "vuelta" interminable al procedimiento de inspección visual.
Las perspectivas emergentes de utilizar un conjunto de tecnologías de realidad virtual, inteligencia artificial, procesamiento de imágenes en los procesos penales durante el examen del lugar de un incidente no pueden ser sobrestimadas. Esta podría ser la siguiente etapa en el desarrollo del sistema CDI para añadir la posibilidad de archivar casos tanto para la búsqueda automática de precedentes como para la formación de un conjunto de datos de expedientes judiciales con fotos marcadas para el entrenamiento de redes neuronales. La aplicación práctica de este enfoque permitirá a las autoridades judiciales cubanas y rusas aumentar la eficacia de la detección, revelación e investigación de los hechos delictivos.
Métodos o Metodología Computacional
De acuerdo a lo anterior, es necesario grabar en tiempo real la EI utilizando medios improvisados, sin el uso de equipos de alta tecnología, con la posibilidad tanto de archivar las imágenes significativas en un servidor remoto como de construir instantáneamente sobre su base una escena 3D del incidente. Dicha escena 3D es, de hecho, un gemelo digitali de la CDI.
Este tipo de CDI permitirá la presentación detallada de todos los matices de un incidente y la elaboración visual, investigando esencialmente el caso basándose en la geometría exacta de una habitación o espacio abierto, la física de los eventos relacionados, construyendo relaciones de causa y efecto, detallando objetos individuales no destacados en las etapas iniciales de la investigación, y demostrando las pruebas visualmente a medida que avanza la investigación.
Enfoques tecnológicos para reconstruir una escena en 3D
Fotogrametría
Se utilizarán métodos de fotogrametría para construir un modelo 3D de la escena. La idea es determinar la geometría de la escena a partir de un conjunto de fotografías o vídeos desordenados. Una fotografía es una proyección de una escena tridimensional sobre un plano bidimensional, pero con pérdida de información de profundidad. El objetivo de la fotogrametría es invertir este proceso (Fig.1).
Existen muchas implementaciones de software basadas en este enfoque. Para este trabajo, se han considerado dos tecnologías como potenciales para su uso en hardware y software: ADOP (Approximate Differentiable One-Pixel Point Rendering) (Rückert, Franke, and Stamminger, 2021) y AliceVision dentro de Meshroom (Griwodz et al. n.d.)
Un ejemplo excelente del uso de la fotogrametría en la RV lo presenta ExperiusVR. Combinan el uso de la tecnología de vídeo 360, la fotogrametría, el video envolvente y el audio 3D. Un ejemplo llamativo de la utilización de este enfoque se muestra en un vídeo de demostración en el que se explora una tumba egipcia en realidad virtual utilizando las tecnologías mencionadas.
ADOP
El marco ADOP utiliza el principio de construcción de un modelo 3D mediante el renderizado de nubes de puntos (Fig.2), pero el resultado del modelo final depende en gran medida de los datos de entrada.
Es decir, si la geometría del objeto escaneado contiene agujeros o las fotos de salida no están perfectamente alineadas, pueden observarse diversas imperfecciones como resultado (Fig.3).
A partir de (Aliev et al., 2019), que demuestra que es posible combinar un rasterizador de puntos con una red neuronal profunda, se han realizado mejoras significativas en (Rückert, Franke, and Stamminger, 2021), que han mejorado el rendimiento del renderizado y se ha reducido el número de artefactos. Sin embargo, se desconoce si la tecnología propuesta se desarrollará más en términos de exportación del modelo construido a otras aplicaciones de objetos 3D y/o perfeccionamiento del software que permitirá la manipulación del modelo construido, ya que no se menciona en el trabajo que los modelos construidos puedan ser exportados a los formatos requeridos. Esta complejidad hace que el uso de esta tecnología en el sistema descrito en este documento sea cuestionable por el momento, ya que la capacidad para importar aún no se ha resuelto.
AliceVision
El sistema fotogramétrico de visión por ordenador de AliceVision proporciona un marco para reconstruir una escena 3D a partir de un conjunto de fotos sin clasificar (Fig.4) y es la base del software Meshroom.
Una ventaja importante de este proyecto es que lleva más tiempo en desarrollo que el ADOP. El primer lanzamiento fue en 2018, coincidiendo con el primer lanzamiento del software Meshroom. Ciertamente, en los 4 años que lleva el sistema, está mejor depurado y es más estable. Esto también se vio facilitado por el hecho de que un gran número de desarrolladores participaron en el desarrollo y la mejora del producto, ya que el proyecto es de código abierto.
Además de las capacidades del propio AliceVision, el software Meshroom ofrece una amplia funcionalidad y una interfaz de usuario fácil de usar para la manipulación de los modelos. Además, el software es multiplataforma y está disponible para los sistemas operativos Windows y Linux. En cambio, ADOP (en el momento de redactar este documento) sólo está implementado en Linux.
Otra ventaja importante de ambos sistemas es la disponibilidad de una CDI para interactuar con ellos. Como las acciones en el servidor serán automatizadas, esto implicará la no intervención del usuario en el proceso. Sin embargo, la desventaja de ambas tecnologías es que son proyectos de código abierto. Lo cual es una verdadera amenaza.
En primer lugar, no se trata de una pronta corrección de los defectos detectados ni de la introducción de mejoras. El mecanismo para el tratamiento de problemas en GitHub permite transmitir esto a los autores, pero sin garantía ninguna de que estos defectos puedan solucionarse en la próxima versión o que se implementen las mejoras. Por otro lado, AliceVision tiene una base de desarrolladores más grande que ADOP trabajando en mejoras y corrigiendo defectos, lo que en cierta medida resuelve esta deficiencia.
En segundo lugar, la frecuencia de los lanzamientos. La ventaja de las soluciones comerciales sobre las de código abierto es que garantizan la publicación estable de nuevas versiones de su software, en lugar de los proyectos de código abierto.
Como resultado, al considerar las ventajas y desventajas de las tecnologías mencionadas, el marco AliceVision es actualmente la opción preferida, ya que su funcionalidad proporciona más opciones para la integración en el sistema presentado.
Funcionalidad MVP
En resumen, la primera etapa de la creación del complejo de software y hardware requirió la implementación de una solución MVP con la funcionalidad de elaborar un caso de uso básico capaz de:
- fotografiar la escena;
- enviar un paquete de imágenes fotográficas al servidor para su procesamiento;
- crear un modelo 3D en el servidor de procesamiento;
- crear una segmentación visual de un modelo 3D en el servidor de procesamiento;
- lanzar la aplicación RV con la CDI integrada;
- desarrollar una API para la integración con bases de datos de las fuerzas del orden para la búsqueda rápida de la información necesaria;
- implementar la funcionalidad piloto (en la aplicación RV y en la aplicación de escritorio):
- seleccionar las entidades importantes en el objeto;
- crear las herramientas para exámenes balísticos;
- implementar el mecanismo de autorización y acceso seguro al servidor, ya que todos los datos asociados a cualquier incidencia se encuentran en estado de PUAii.
Se consideró la idea de introducir la tecnología de virtualización de olores (Antonov et al., 2018), ya que el efecto de estar en la escena de un incidente no puede reproducir completamente la imagen completa de lo que sucedió.
Además de usar el complejo para el propósito previsto, se permitió su uso con fines educativos (Kugurakova et al., 2021), así como el lanzamiento de escenas listas para emplear.
Resultados y discusión
Se desarrolló una aplicación móvil que es capaz de agregar/restar fotos en un paquete de las ya existentes para detallar fragmentos individuales de la escena, además, puede examinar a grandes rasgos los fotogramas capturados y qué lugar ocupan en la escena tridimensional de la escena, permitiendo observar “agujeros” que no están cubiertos por fotografías.
En la aplicación de escritorio, se pudo observar la escena tridimensional terminada en detalle (Fig.5), cambiando la escala y ampliando los fragmentos individuales del mismo modo en que lo realiza cualquier aplicación de escritorio que funcione con modelos 3D (por ejemplo, Blender, una popular solución de código abierto).
Este enfoque brindó la oportunidad de un uso flexible del complejo, permitiendo el vínculo hacia otros softwares que para trabajan con modelos 3D y eliminando la obligación de usar solo una aplicación RV.
El uso del kit de RV requirió el empleo de hardware adecuado para funcionar correctamente ya que la ausencia de este podría dificultar la integración del complejo con la aplicación de realidad virtual.
A partir de los enfoques descritos anteriormente para la investigación de la reconstrucción tridimensional basada en la fotogrametría, se propone la arquitectura de hardware-software y la pila tecnológica necesaria para implementar una solución piloto de CDI in situ (o in situ).
El sistema que desarrollado consta de los siguientes elementos: servidor de aplicaciones, cliente móvil, aplicación de escritorio y aplicación de RV.
El esquema de la Figura 6 representa la arquitectura de la solución piloto en una manera simplificada, representando el marco más liviano de interacciones necesario y suficiente para la implementación de la llamada prueba de concepto, es decir, la prueba de la hipótesis planteada sobre la aplicabilidad del uso de las CDI para procesos penales. Al introducir no una solución piloto, sino una plataforma de software y hardware, directamente en procesos penales, su arquitectura debe revisarse y desarrollarse significativamente atendiendo a:
- la inclusión de todos los niveles de autorización y acceso a la información.
- la resolución de los problemas de recopilación de datos de los puntos remotos que son inaccesibles para la transmisión rápida de imágenes fotográficas de alta definición necesarias para lograr un cierto nivel de calidad.
- la inclusión de módulos de características y funcionalidades adicionales, que deben formar directamente la esencia del trabajo de investigación de los investigadores con la CDI, así como la funcionalidad de archivo de casos, búsqueda de precedentes y empleo de una red neuronal sobre un conjunto de datos para refinar el entrenamiento. Para lograr los objetivos establecidos, el desarrollo debe dividirse en tres etapas.
La primera etapa es la puesta en marcha de una solución de demostración que mostrará los puntos débiles del sistema, también es posible que no todos los marcos propuestos lleguen a ser liberados y sea necesaria la búsqueda de soluciones análogas. Esta fase implica que la parte de software del proyecto trabajará estrechamente con los agentes de la ley, ya que son los usuarios finales.
La segunda etapa es la puesta en marcha del MVPiiide la solución, su demostración y prueba de funcionamiento con los agentes de la ley. Esta etapa proporcionará información y comentarios sobre el rendimiento del sistema.
La tercera etapa requiere la realización de pruebas en trabajos de investigación reales, tras el perfeccionamiento basado en las sugerencias y comentarios de los usuarios finales, es posible introducir la plataforma hardware-software en la prueba piloto en una o más unidades en las que se pueda utilizar este sistema. Otros pasos para introducir la plataforma hardware-software en el trabajo real de las fuerzas del orden requieren decisiones administrativas que no son de nuestro nivel.
Escenario de uso general
El escenario de uso original es el siguiente: el equipo de expertos llega al lugar de los hechos, realiza una inspección inicial y acto seguido toma fotografías masivas de todo el espacio que se emplean para construir un modelo tridimensional. Este conjunto de fotos se envía a un servidor en el que se realiza todo el posprocesamiento. El personal, al llegar a la oficina, recibe un modelo en 3D de la escena ya terminado.
Este escenario propone una implementación de una arquitectura cliente-servidor en la que los clientes son la aplicación móvil, la aplicación de RV, y el servidor es el servidor de procesamiento.
Escenario para el uso de la CDI en las pruebas penales
Dado que la CDI construida se aplica como una sofisticada herramienta de alta tecnología en el procedimiento de prueba en un caso penal por los sujetos de la prueba (opcionalmente no sólo el investigador, sino también el abogado de la defensa) en consecuencia, no solo las pruebas de la acusación, sino también las pruebas de la defensa pueden, en principio, formarse cuando se utiliza la CDI.
Del lado del servidor
El servidor de la aplicación se encarga de procesar y preparar los datos para su posterior carga en los formatos preparados (Fig.7) como modelo 3D para la manipulación en la aplicación de RV, o como archivo en uno de los formatos utilizados en los programas de modelado 3D (por ejemplo, (Blender, 2022)
Los datos de entrada son sometidos a un tratamiento inicial para desembalar los datos del archivo en el directorio deseado. Después, se lanza un script para iniciar el procesamiento de AliceVision y la segmentación visual utilizando Detecron2 (Meta AI, 2020), un sistema de software de última generación de Facebook AI Research que implementa algoritmos de detección de objetos de última generación. Por ejemplo, la (Fig.8) muestra los resultados de uno de los métodos de Detecron2, concretamente el método de segmentación de objetos densos TensorMask, que trata la segmentación de objetos densos como un problema de predicción utilizando tensores 4D, reflejando explícitamente esta geometría y permitiendo el uso de nuevos operadores sobre tensores 4D.
La salida se almacena en un directorio al que se accede a través de una conexión ftpiv. El siguiente paso es implementar una conexión segura. La configuración del servidor en el sistema operativo Linux (Ubuntu versión 20.04 se usó en la implementación actual).
Software:
- .Net 6 o superior para ejecutar la aplicación del servidor;
- Python versión 3.6 o superior;
- PyTorch versión 1.8 o posterior;
- Versión de torchvision correspondiente a la versión de PyTorch.
Todo el código fuente de la aplicación del servidor y del cliente móvil se encuentra en el sistema de control de versiones de Githubv.
Aplicación móvil
Se consideraron varias tecnologías para implementar la aplicación móvil, como Flutter (Flutter, 2022), React Native (Meta Platforms, 2022) o el uso de soluciones nativas, pero se optó finalmente por utilizar el framework Xamarin (Microsoft, 2022). A continuación, se explica el porqué de su selección.
En primer lugar, se trata de un framework multiplataforma, que permite escribir una solución para las dos plataformas móviles más populares actualmente (iOS y Android). Esta solución elimina inmediatamente la necesidad de implementar aplicaciones nativas por separado para cada plataforma, lo que dificultaría el soporte de las aplicaciones.
En segundo lugar, hay poca disponibilidad de hardware para el desarrollo en un momento de empeoramiento de la situación política y de las sanciones. Por supuesto, también hay servicios domésticos en la nube en los que se despliega este sistema operativo, pero tales servicios requieren una inversión financiera considerable.
En tercer lugar, el lenguaje de programación, ya que implementar una aplicación por separado para cada plataforma requiere el uso de dos lenguajes de programación, por ejemplo, Swift (Apple, 2022) y Kotlin.
Sin embargo, la naturaleza multiplataforma de Xamarin resuelve todos estos problemas y no limita al desarrollador.
El cliente móvil es una aplicación android/iOS con un diseño ascético (Fig.9) y una funcionalidad básica: preparación de fotos del objeto a enviar, un modelo 3D a construir.
Transferencia a la Realidad Virtual
La aplicación de RV, que es el principal eslabón del sistema, es una herramienta para manipular el modelo 3D, y cuenta con las siguientes funcionalidades:
- observación y manipulación del modelo 3D;
- segmentación de objetos (segmentación visual, sin selección automática de objetos en el modelo);
- selección de objetos significativos en el modelo;
- integración con las bases de datos de las fuerzas del orden y adición de información procedente de ellas;
- herramientas de peritaje balístico.
Esta no es una lista definitiva de posibilidades y podría ampliarse considerablemente, pero constituye el mínimo necesario para obtener mejoras significativas en los procedimientos penales, en particular en el proceso de investigación.
Aplicación de RV
Hoy en día, hay un buen número de plataformas que se utilizan para implementar aplicaciones de RV. Los más utilizados son Unity ENT#091;Unity TechnologiesENT#093; y Unreal Engine (Epic Game, 2022). Unity utiliza C# como lenguaje de programación interno, Unreal Engine utiliza el lenguaje de programación C++ y, además, tiene incorporado un sistema de programación visual BluePrint. Cada uno de estos motores tiene una serie de ventajas e inconvenientes que influyen en la elección de la plataforma. Se ha optado por implementar la solución piloto en el motor Unreal Engine -a través de la programación visual BluePrint, lo que no limita la generalidad, ya que el estado de prueba de concepto ya se ha indicado anteriormente. Sin embargo, esta elección no es definitiva: en opinión de los autores, es mejor utilizar software doméstico, o software protegido de acontecimientos políticos momentáneos, el llamado software libre o de código abierto, para su aplicación en la legislación nacional.
Del lado del servidor
Inicialmente, la idea era utilizar un dispositivo móvil que construyera un modelo 3D por sí mismo, pero surgieron una serie de razones que obligaron a abandonar dicha solución. En Android, hay varias aplicaciones, pero tienen algunas limitaciones, solo pueden construir modelos de objetos pequeños, o requieren una "plataforma" en la que hay que colocar el objeto que se escanea, o el precio del servicio es demasiado alto.
En cuanto a iOS, la situación es mejor - la presencia de sensor LiDARvi en el teléfono inteligente de la serie Pro permite el uso de la aplicación "fuera de la caja", o aplicaciones de terceros, que es un orden de magnitud más que un competidor. Sin embargo, la desventaja de esta solución es el hecho de que tales sensores sólo están disponibles en los teléfonos inteligentes de Apple, a partir de la serie 12, y, como se mencionó anteriormente, sólo en la serie Pro, que no están ampliamente disponibles, sobre todo debido a su alto precio. Esto da lugar a un apego a un dispositivo y una tecnología específicos, lo que no es una solución óptima.
Para conseguir una solución universal que fuera óptima en ambos casos, se decidió utilizar la solución de terceros que se desplegaría en el servidor descrito anteriormente (en el apartado “Enfoques tecnológicos para reconstruir una escena en 3D”).
Conclusiones
Finalmente, el abordar de manera integral la aplicación de los gemelos virtuales en el contexto de análisis de escenas del crimen para la toma de decisiones en procesos penales constituye un reto. El presente trabajo aborda los componentes y principales características de una plataforma de Realidad Virtual para análisis de criminalística. El prototipo presentado responde a enfoques de alta tecnología para los procedimientos penales agrupados en una plataforma (software y hardware). Con la creación de gemelos digitales o copias de las escenas sobre la marcha, se puede profundizar en investigaciones adicionales no en el campo sino en computadora o en Realidad Virtual. Su aplicación puede extenderse a la revisión, así como al análisis de precedentes. Además, puede aplicarse en la formación de profesionales.