Introducing G2.ai, the future of software buying.Try now

Segmentación de imágenes: Técnicas utilizadas para clasificar imágenes

7 de Agosto de 2024
por Holly Landis

En los últimos años, la tecnología ha evolucionado hasta el punto en que las computadoras pueden detectar y entender imágenes visuales casi tan bien como nuestros cerebros humanos. Pero, por supuesto, eso solo ha sido posible gracias a nuestras significativas intervenciones y al desarrollo de un proceso conocido como visión por computadora.

La visión por computadora se basa en una técnica llamada segmentación de imágenes. Sin ella, una imagen simplemente sigue siendo un visual independiente con poca relación con la máquina. Pero con la segmentación, las computadoras pueden etiquetar y entender correctamente los diversos elementos que contiene una imagen y dar sentido a estos datos para su uso posterior.

Una vez segmentados, los elementos individuales pueden ser procesados y evaluados según las necesidades de los usuarios. Las partes de una imagen pueden dividirse usando regiones o por los objetos que están presentes dentro de la imagen. Una vez que se descomponen, los elementos de la imagen pueden ser etiquetados individualmente y agrupados como parte del proceso más amplio de reconocimiento de imágenes. Esto facilita a los usuarios identificar detalles importantes sobre la imagen en su conjunto, así como cada una de las características individuales que contiene. 

La segmentación de imágenes tiene muchos usos en diversas industrias. Por ejemplo, se pueden rastrear objetos en tiempo real bajo vigilancia por video que utiliza segmentación de imágenes. Elementos visuales como personas o vehículos pueden ser aislados dentro del video más grande para facilitar a los agentes de seguridad revisar la información a medida que llega y tomar medidas si es necesario. 

Tipos de modelos de segmentación de imágenes 

La mayoría de la segmentación de imágenes se clasifica en tres categorías según el tipo de información que necesita extraerse de la imagen. 

  • Segmentación de instancias, al igual que la detección de objetos, se centra en detectar y segmentar objetos específicos dentro de la imagen y separarlos del fondo general. Los objetos superpuestos pueden segmentarse más fácilmente usando este enfoque y a menudo se utiliza para identificar y rastrear objetos individuales dentro de una imagen.
  • Segmentación semántica divide las imágenes según los píxeles en una imagen dada. En otras palabras, la segmentación semántica agrupa objetos basándose en cuán similares son sus píxeles entre sí, reconociendo que estos objetos son diferentes del fondo y de otros objetos en la imagen. Cada píxel en la imagen recibe una etiqueta bajo este tipo de segmentación de imágenes.
  • Segmentación panóptica. combina la segmentación semántica y de instancias al mismo tiempo. Cada píxel se etiqueta tanto por su clase como por el tipo de objeto que es. Este tipo de segmentación de imágenes ofrece el nivel más detallado de detección y análisis, por lo que es útil cuando el modelo de computadora necesita ser lo más específico posible, como es el caso de los vehículos autónomos.

types of image segmentation

Fuente: SuperAnnotate

¿Quieres aprender más sobre Software de Redes Neuronales Artificiales? Explora los productos de Red neuronal artificial.

Técnicas de segmentación de imágenes 

Cada tipo de segmentación de imágenes viene con sus propias técnicas basadas en sus fortalezas y aplicaciones. Estas generalmente se dividen en dos categorías separadas: técnicas tradicionales y de aprendizaje profundo.

Técnicas tradicionales 

Utilizadas durante décadas en el campo de la visión por computadora, las técnicas tradicionales surgen de modelos algorítmicos y ecuaciones matemáticas para identificar características comunes dentro de las imágenes para que los objetos puedan ser etiquetados adecuadamente. Las técnicas más comunes utilizadas bajo marcos tradicionales se explican aquí.

  • Basado en regiones. Las imágenes pueden dividirse en regiones basadas en criterios superpuestos, como el color o la textura. En esta técnica, los píxeles se dividen y agrupan según características similares. Los píxeles cercanos entre sí suelen ser parte del mismo objeto, por lo que la máquina buscará similitudes y diferencias en estas áreas para encontrar los bordes de los objetos.
  • Detección de bordes. Basándose en la técnica basada en regiones, la detección de bordes se centra en lugares donde los píxeles que se bordean entre sí cambian repentinamente. Los cambios drásticos de píxeles a menudo indican dónde podría haber un límite para un objeto, por lo que estas áreas se marcan para revisión para delinear dónde está el borde de ese objeto en particular.
  • Umbralización. La forma más simple de segmentación de imágenes, la umbralización divide los píxeles según sus clases e intensidad. La mayoría de las imágenes se cambian a escala de grises para facilitar esta técnica porque la máquina busca áreas de alto y bajo contraste para dividir objetos. Se producen imágenes binarias durante el proceso de segmentación, creando contornos que facilitan a la máquina distinguir entre objetos.
  • Agrupamiento. En este caso, los píxeles se agrupan en sus propios segmentos o grupos según su semejanza. Cada grupo representa una similitud o característica común. 

Técnicas de aprendizaje profundo 

La segmentación de imágenes en aprendizaje profundo se destaca como una de las mejores maneras de obtener un resultado preciso, particularmente cuando se trabaja con conjuntos de datos complejos a gran escala. Las dos técnicas más populares para esto se detallan aquí.

  • U-net, construido para parecerse a una forma de "U", utiliza un proceso de muestreo ascendente y descendente que opera de manera muy similar a un codificador y decodificador en modelos de subtitulado de imágenes. El proceso basado en niveles de U-net se utiliza para evitar la pérdida de datos e información tanto como sea posible durante el proceso de segmentación, convirtiéndolo en una de las metodologías más precisas actualmente disponibles.
  • Mask R-CNN es un proceso de dos etapas que utiliza una red neuronal convolucional, pero ofrece un alto nivel de flexibilidad. El primer paso de esta técnica es descomponer la imagen en regiones de interés propuestas dentro del visual general. A partir de aquí, el segundo paso es encuadrar, clasificar y aplicar máscaras binarias a las regiones separadas y analizarlas pieza por pieza.

Industrias que utilizan la segmentación de imágenes 

La capacidad de analizar información en imágenes después de que ha sido extraída mediante segmentación mejora profundamente los flujos de trabajo y procedimientos para una serie de diferentes industrias.

Imágenes médicas e investigación 

Las resonancias magnéticas, tomografías computarizadas, radiografías y otros tipos de imágenes médicas utilizan una forma de segmentación de imágenes para buscar irregularidades en los escaneos de pacientes. La segmentación de imágenes supera a muchas de las otras formas en que los profesionales médicos diagnostican y tratan a los pacientes. 

Por ejemplo, los trabajadores de la salud pueden detectar más fácilmente tumores con estas herramientas. Las herramientas de segmentación de imágenes destacan el tamaño y la ubicación exactos de los tumores en los escaneos médicos al separar estos objetos del tejido sano. Los escaneos cerebrales también funcionan de manera similar: la segmentación de imágenes puede separar diferentes tejidos dentro del cerebro para ayudar a los médicos a diagnosticar problemas como la enfermedad de Alzheimer o accidentes cerebrovasculares, o planificar cirugías cerebrales.

La segmentación de imágenes también puede implementarse para la investigación biomédica, incluyendo análisis de tejidos, conteo de células y estudios de estructuras anatómicas.

Vehículos autónomos 

Los vehículos autónomos necesitan un conjunto de ojos digitales para guiarlos. Las herramientas de segmentación de imágenes permiten a los vehículos autónomos percibir el mundo que los rodea para que puedan evitar peatones y otros autos, mantenerse en el carril correcto y obedecer las señales de tráfico. Estas características de seguridad cruciales hacen posible que los vehículos autónomos utilicen nuestras carreteras.

Las aplicaciones adicionales cubren el reconocimiento de objetos más allá de los estándares esperados en la carretera y la detección de anomalías que podrían afectar la capacidad de conducción del automóvil.

Imágenes satelitales 

Los satélites pueden usarse para todo tipo de propósitos, en su mayoría aquellos que son difíciles o imposibles de completar por los humanos por sí solos. Monitorear grandes áreas de tierra, por ejemplo, solo ocurre gracias a los satélites aéreos y su capacidad para ver cientos de millas de tierra a la vez.

Con la segmentación de imágenes, estos satélites pueden monitorear con mayor precisión los cambios ambientales que requieren que se tomen medidas, de manera muy similar a como los agricultores monitorean sus cultivos con segmentación de imágenes. También pueden usarse para proyectos extensos de planificación urbana, particularmente donde la tierra rural o agrícola se está convirtiendo en espacio residencial, comercial o de trabajo.

Juegos 

A medida que los juegos se vuelven más interactivos, la tecnología necesaria para impulsarlos se vuelve más compleja. La segmentación de imágenes ha allanado el camino para que los usuarios interactúen como si fueran parte de los juegos mismos, especialmente en entornos de realidad virtual, de nuevas maneras inmersivas. Los personajes también pueden interactuar con los elementos del juego de nuevas maneras, proporcionando una experiencia de juego mejorada para los usuarios.

Robótica 

Nuestras vidas diarias involucran cada vez más la presencia de robots y el uso de herramientas de IA para gestionarlos también está creciendo. Como parte de una práctica más amplia de segmentación de imágenes, el reconocimiento de objetos para robots les permite entender e interactuar con su entorno. Esto les ayuda a seguir comandos de manera precisa, particularmente cuando necesitan identificar objetos en un entorno desconocido.

La segmentación de imágenes también ayuda a la navegación robótica, es decir, mover el robot de un punto a otro. Combinado con la segmentación de objetos, los robots pueden interactuar con diferentes elementos en su entorno y tomar decisiones por sí mismos, como planificar una ruta de navegación y evitar obstáculos en su camino.

Desafíos con la segmentación de imágenes 

No importa cuán compleja y bien construida sea tu máquina, la IA está a merced de buenos datos de entrenamiento. Sin ellos, corres el riesgo de obtener resultados inexactos y largos períodos de reentrenamiento en un esfuerzo por corregir errores cometidos desde el principio. Hay otros desafíos importantes a tener en cuenta cuando se trata de segmentación de imágenes, incluyendo:

  • Ambigüedad de imagen. No todas las imágenes que introduces en la máquina tienen límites nítidos y claros que faciliten al algoritmo distinguir y segmentar objetos. Las regiones con características similares o variaciones de iluminación y otros problemas basados en ruido pueden tener un impacto significativo en la precisión de la segmentación.
  • Sobre y subsegmentación. Las imágenes pueden dividirse en demasiadas regiones, también conocido como sobresegmentación. Por otro lado, múltiples grupos podrían agruparse como una sola región, también conocido como subsegmentación. Hay una línea fina en equilibrar estos, y aún más cuando se trata de objetos pequeños en múltiples puntos de una imagen.
  • Consumo de recursos. Alimentar maquinaria basada en IA consume más energía de lo que podrías pensar. Los recursos informáticos necesarios para lanzar y mantener modelos de aprendizaje profundo pueden volverse rápidamente complejos, por lo que asegurar que tienes todo lo necesario para permitir la segmentación en tiempo real puede ser un desafío.

¡No dividas cabellos, divide imágenes! 

La segmentación de imágenes es una parte vital de la visión por computadora que se basa en la segmentación de imágenes para construir las muchas aplicaciones que las máquinas proporcionan en nuestras vidas, especialmente cuando se utilizan modelos de aprendizaje profundo para replicar el comportamiento humano. Esta poderosa técnica hace que identificar y entender objetos dentro de una imagen sea más rápido y fácil, una característica esencial en muchas industrias.

Construye tus propios sistemas de IA con software de redes neuronales artificiales (ANN) que pueden imitar el cerebro humano.

Holly Landis
HL

Holly Landis

Holly Landis is a freelance writer for G2. She also specializes in being a digital marketing consultant, focusing in on-page SEO, copy, and content writing. She works with SMEs and creative businesses that want to be more intentional with their digital strategies and grow organically on channels they own. As a Brit now living in the USA, you'll usually find her drinking copious amounts of tea in her cherished Anne Boleyn mug while watching endless reruns of Parks and Rec.