Saltar al contenido principal
Este contenido se refiere a versión del dispositivo: 1.1.0.0

Pruebas de rendimiento

Por muchas razones, puede estar interesado en medir el rendimiento de nuestra tecnología con su propio conjunto de datos de prueba. Fomentamos esta práctica, aunque al realizar dicha prueba, debe comprender cuál es la forma correcta de probar el rendimiento de un modelo de visión por computadora y cuáles son los métodos apropiados para probar el rendimiento del dispositivo.

Plantilla para pruebas

DescargarTítulo
  PlantillaPruebas de rendimiento de precisión Top-5 y Top-1 (soporte de decisión clínica)
  PlantillaPruebas de rendimiento de priorización a través de malignidad

Principios de validez

Hay algunos principios que debe seguir:

  1. La prueba debe ser idéntica al entorno del mundo real tanto como sea posible
  2. El estándar de oro con el que mide la precisión debe coincidir con la salida del dispositivo
  3. La métrica de rendimiento debe reflejar los objetivos de la implementación

1. Hacer que la prueba sea idéntica al entorno del mundo real

El uso del dispositivo, en el mundo real, consistirá en personas, como profesionales de la salud (HCP) o sus pacientes tomando fotografías. Esto significará que las personas usarán las cámaras de sus teléfonos para capturar una imagen de una lesión cutánea.

Es por eso que, al probar el rendimiento del dispositivo, debe usar imágenes que coincidan con las características de las que tomarán los HCP y los pacientes.

Debe usar...

✅  Imágenes tomadas directamente desde un smartphone

✅  Imágenes tomadas directamente desde una cámara digital

✅  Imágenes tomadas directamente desde un dermatoscopio

No debe usar...

❌  Imágenes que hayan sido comprimidas u optimizadas

❌  Imágenes descargadas de Internet

❌  Imágenes transmitidas a través de WhatsApp o WeChat

Cómo saber si una imagen ha sido comprimida

Una buena manera de entender si una imagen ha sido distorsionada artificialmente es mirar las dimensiones de la imagen. La mayoría de las compresiones de imágenes también reducen las dimensiones de las imágenes.

Dispositivo✅ Tamaño normal de la imagen❌ Tamaño de imagen comprimida
iPhone 6 (2014)3456 x 2304 píxeles346 x 204 píxeles
Canon SX610 HS (2015)5184 x 2912 píxeles640 x 360 píxeles
iPhone 13 (2021)4032 x 3024 píxeles403 x 302 píxeles
Xiaomi 12T Pro (2022)16384 x 12288 píxeles819 x 614 píxeles

Como puede ver, incluso los iPhones tan antiguos como el 2014 toman imágenes con dimensiones de alrededor de 3000 píxeles. Si una imagen es significativamente más pequeña que esto, puede indicar una compresión.

Recuerde: use tamaños de imagen normales

Verifique que la imagen tenga tamaños que se aproximen a los tamaños normales de imagen, con al menos 2000 píxeles de ancho o alto, porque este es el tamaño de imagen que los usuarios usarán en el mundo real.

2. Asegurando que la salida pueda ser comparada

El dispositivo analiza imágenes y devuelve una lista de condiciones con una probabilidad de que estén presentes. Estas condiciones tienen nombres, como Psoriasis, Carcinoma de células basocelulares o Rosácea, junto con unos pocos cientos de otras condiciones. Además, cada condición tiene un código, de acuerdo con el estándar internacional ICD-11.

Cómo hacerlo mal

En la siguiente tabla, verá una situación en la que el diagnóstico del médico no coincide con la salida del dispositivo. Tenga en cuenta que el diagnóstico del médico actúa como un estándar de oro para esta prueba:

Diagnóstico del médicoSalida del dispositivo¿Están de acuerdo?
AKQueratosis actínica🤷‍♂️ 🤷‍♂️ 🤷‍♂️ 🤷‍♂️ 🤷‍♂️
EczemaDermatitis🤷‍♂️ 🤷‍♂️ 🤷‍♂️ 🤷‍♂️ 🤷‍♂️
Dermografismo sintomáticoUrticaria🤷‍♂️ 🤷‍♂️ 🤷‍♂️ 🤷‍♂️ 🤷‍♂️

Debido a la discrepancia, es muy difícil evaluar correctamente el rendimiento del dispositivo porque no hay una manera directa de decir si el dispositivo coincidió con lo que dijo el médico.

Cómo hacerlo bien

El requisito mínimo para que la prueba sea válida es que la codificación entre el estándar de oro y la salida debe ser comparable. Si el médico y el dispositivo están usando nombres diferentes para las mismas condiciones, parecerá que no están de acuerdo, cuando ese no es el caso.

Diagnóstico del médicoSalida del dispositivo¿Están de acuerdo?

Es por eso que la plantilla ofrece las opciones de diagnóstico desde un menú desplegable. Además, el nombre de las condiciones se muestra junto con su identidad en un estándar internacional para nombres de condiciones, la Clasificación Internacional de Enfermedades (CIE).

3. Selección de métricas de rendimiento que coincidan con el objetivo

Aquí hay una cita famosa que es muy relevante para la tarea en cuestión:

si juzgas a un pez por su capacidad para trepar un árbol, pasará toda su vida creyendo que es estúpido

El dispositivo es una herramienta que sirve a un propósito, y debe medirse en relación con ese propósito. El propósito está definido por el uso o propósito previsto del dispositivo, pero también depende del objetivo con el que lo utilizará.

Entonces, pregúntese: ¿cuál es la implementación real del dispositivo? ¿Qué problema está resolviendo? ¿Quién lo usará? Dependiendo del objetivo y del tipo de integración, se deben realizar diferentes pruebas, midiendo diferentes métricas.

Precisión Top-5  y  Top-1

Como verá en nuestra sección de Usuario previsto, el usuario previsto del dispositivo es un HCP, porque el dispositivo es una herramienta de soporte de decisión clínica. Por esta razón, la precisión Top-5 es la métrica de rendimiento más común, utilizada junto con la precisión Top-1 como un conjunto.

La precisión Top-5 es una medida que denota la corrección de la salida de un modelo de Aprendizaje Automático. La precisión Top-5 se utiliza frecuentemente con Reconocimiento de Imágenes, Detección de Objetos y mucho más.

¿Por qué es tan importante el Top-5?

Diagnosticar es un proceso cognitivo que los HCP realizan con la información que tienen disponible. Con más información, aumenta la precisión del HCP. Y eso es lo que muestra la investigación: la precisión diagnóstica del HCP aumenta cuando ven los resultados Top-5 del dispositivo.

Para medir las precisiones Top-5 y Top-1, en la plantilla que le proporcionamos podrá anotar no solo una, sino las cinco condiciones más probables que devuelve el dispositivo.

¿Sabía que?

Algunas condiciones se convierten en otras condiciones. Por ejemplo, queratosis actínica puede convertirse en carcinoma de células escamosas. Esto significa que, si el dispositivo analiza una lesión de queratosis actínica, es muy interesante ver qué tan cerca está el diagnóstico de carcinoma de células escamosas de la 1era suposición. Esa es una forma en que el Top-5 es una métrica mejor que el Top-1: refleja la evolución de una condición a otra.

Suspicion de malignidad

Si está utilizando el dispositivo para priorizar casos, la métrica que debe estar probando es la sospecha de malignidad. La sospecha de malignidad es un número que va de 0 a 100, que refleja la probabilidad de que una condición sea maligna.

En la API, el dispositivo contiene un campo llamado isMalignantSuspicion, dentro del grupo preliminaryFindings, como se muestra a continuación:

Hallazgos preliminares
{
// ...
"preliminaryFindings": {
// ...
"isMalignantSuspicion": 62
// ...
}
// ...
}

Esto también se puede mostrar como un medidor, reflejando la sospecha de malignidad.

Con el fin de medir el rendimiento del dispositivo en la priorización de casos a través de la sospecha de malignidad, puede ser útil una tabla como la siguiente:

La prueba consiste en medir si el valor de sospecha de malignidad refleja la asignación de prioridad por parte del especialista, o incluso el resultado de la biopsia, si dichos datos están disponibles.