Pruebas de rendimiento
Por muchas razones, puede estar interesado en medir el rendimiento de nuestra tecnología con su propio conjunto de datos de prueba. Fomentamos esta práctica, aunque al realizar dicha prueba, debe comprender cuál es la forma correcta de probar el rendimiento de un modelo de visión por computadora y cuáles son los métodos apropiados para probar el rendimiento del dispositivo.
Plantilla para pruebas
Descargar | Título |
---|---|
![]() | Pruebas de rendimiento de precisión Top-5 y Top-1 (soporte de decisión clínica) |
![]() | Pruebas de rendimiento de priorización a través de malignidad |
Principios de validez
Hay algunos principios que debe seguir:
- La prueba debe ser idéntica al entorno del mundo real tanto como sea posible
- El estándar de oro con el que mide la precisión debe coincidir con la salida del dispositivo
- La métrica de rendimiento debe reflejar los objetivos de la implementación
1. Hacer que la prueba sea idéntica al entorno del mundo real
El uso del dispositivo, en el mundo real, consistirá en personas, como profesionales de la salud (HCP) o sus pacientes tomando fotografías. Esto significará que las personas usarán las cámaras de sus teléfonos para capturar una imagen de una lesión cutánea.
Es por eso que, al probar el rendimiento del dispositivo, debe usar imágenes que coincidan con las características de las que tomarán los HCP y los pacientes.
Debe usar...
✅ Imágenes tomadas directamente desde un smartphone
✅ Imágenes tomadas directamente desde una cámara digital
✅ Imágenes tomadas directamente desde un dermatoscopio
No debe usar...
❌ Imágenes que hayan sido comprimidas u optimizadas
❌ Imágenes descargadas de Internet
❌ Imágenes transmitidas a través de WhatsApp o WeChat
Cómo saber si una imagen ha sido comprimida
Una buena manera de entender si una imagen ha sido distorsionada artificialmente es mirar las dimensiones de la imagen. La mayoría de las compresiones de imágenes también reducen las dimensiones de las imágenes.
Dispositivo | ✅ Tamaño normal de la imagen | ❌ Tamaño de imagen comprimida |
---|---|---|
iPhone 6 (2014) | 3456 x 2304 píxeles | 346 x 204 píxeles |
Canon SX610 HS (2015) | 5184 x 2912 píxeles | 640 x 360 píxeles |
iPhone 13 (2021) | 4032 x 3024 píxeles | 403 x 302 píxeles |
Xiaomi 12T Pro (2022) | 16384 x 12288 píxeles | 819 x 614 píxeles |
Como puede ver, incluso los iPhones tan antiguos como el 2014 toman imágenes con dimensiones de alrededor de 3000 píxeles. Si una imagen es significativamente más pequeña que esto, puede indicar una compresión.
Verifique que la imagen tenga tamaños que se aproximen a los tamaños normales de imagen, con al menos 2000 píxeles de ancho o alto, porque este es el tamaño de imagen que los usuarios usarán en el mundo real.
2. Asegurando que la salida pueda ser comparada
El dispositivo analiza imágenes y devuelve una lista de condiciones con una probabilidad de que estén presentes. Estas condiciones tienen nombres, como Psoriasis
, Carcinoma de células basocelulares
o Rosácea
, junto con unos pocos cientos de otras condiciones. Además, cada condición tiene un código, de acuerdo con el estándar internacional ICD-11.
En la siguiente tabla, verá una situación en la que el diagnóstico del médico no coincide con la salida del dispositivo. Tenga en cuenta que el diagnóstico del médico actúa como un estándar de oro para esta prueba:
Diagnóstico del médico | Salida del dispositivo | ¿Están de acuerdo? |
---|---|---|
AK | Queratosis actínica | 🤷♂️ 🤷♂️ 🤷♂️ 🤷♂️ 🤷♂️ |
Eczema | Dermatitis | 🤷♂️ 🤷♂️ 🤷♂️ 🤷♂️ 🤷♂️ |
Dermografismo sintomático | Urticaria | 🤷♂️ 🤷♂️ 🤷♂️ 🤷♂️ 🤷♂️ |
Debido a la discrepancia, es muy difícil evaluar correctamente el rendimiento del dispositivo porque no hay una manera directa de decir si el dispositivo coincidió con lo que dijo el médico.
Cómo hacerlo bien
El requisito mínimo para que la prueba sea válida es que la codificación entre el estándar de oro y la salida debe ser comparable. Si el médico y el dispositivo están usando nombres diferentes para las mismas condiciones, parecerá que no están de acuerdo, cuando ese no es el caso.
Diagnóstico del médico | Salida del dispositivo | ¿Están de acuerdo? |
---|---|---|
✅ | ||
❌ | ||
✅ |
Es por eso que la plantilla ofrece las opciones de diagnóstico desde un menú desplegable. Además, el nombre de las condiciones se muestra junto con su identidad en un estándar internacional para nombres de condiciones, la Clasificación Internacional de Enfermedades (CIE).
3. Selección de métricas de rendimiento que coincidan con el objetivo
Aquí hay una cita famosa que es muy relevante para la tarea en cuestión:
si juzgas a un pez por su capacidad para trepar un árbol, pasará toda su vida creyendo que es estúpido
El dispositivo es una herramienta que sirve a un propósito, y debe medirse en relación con ese propósito. El propósito está definido por el uso o propósito previsto del dispositivo, pero también depende del objetivo con el que lo utilizará.
Entonces, pregúntese: ¿cuál es la implementación real del dispositivo? ¿Qué problema está resolviendo? ¿Quién lo usará? Dependiendo del objetivo y del tipo de integración, se deben realizar diferentes pruebas, midiendo diferentes métricas.
Precisión Top-5
y Top-1
Como verá en nuestra sección de Usuario previsto, el usuario previsto del dispositivo es un HCP, porque el dispositivo es una herramienta de soporte de decisión clínica. Por esta razón, la precisión Top-5
es la métrica de rendimiento más común, utilizada junto con la precisión Top-1
como un conjunto.
La precisión Top-5
es una medida que denota la corrección de la salida de un modelo de Aprendizaje Automático. La precisión Top-5
se utiliza frecuentemente con Reconocimiento de Imágenes, Detección de Objetos y mucho más.
Top-5
?Diagnosticar es un proceso cognitivo que los HCP realizan con la información que tienen disponible. Con más información, aumenta la precisión del HCP. Y eso es lo que muestra la investigación: la precisión diagnóstica del HCP aumenta cuando ven los resultados Top-5
del dispositivo.
Para medir las precisiones Top-5
y Top-1
, en la plantilla que le proporcionamos podrá anotar no solo una, sino las cinco condiciones más probables que devuelve el dispositivo.
Algunas condiciones se convierten en otras condiciones. Por ejemplo, queratosis actínica
puede convertirse en carcinoma de células escamosas
. Esto significa que, si el dispositivo analiza una lesión de queratosis actínica, es muy interesante ver qué tan cerca está el diagnóstico de carcinoma de células escamosas de la 1era suposición. Esa es una forma en que el Top-5
es una métrica mejor que el Top-1
: refleja la evolución de una condición a otra.
Suspicion de malignidad
Si está utilizando el dispositivo para priorizar casos, la métrica que debe estar probando es la sospecha de malignidad. La sospecha de malignidad es un número que va de 0 a 100, que refleja la probabilidad de que una condición sea maligna.
En la API, el dispositivo contiene un campo llamado isMalignantSuspicion
, dentro del grupo preliminaryFindings
, como se muestra a continuación:
{
// ...
"preliminaryFindings": {
// ...
"isMalignantSuspicion": 62
// ...
}
// ...
}
Esto también se puede mostrar como un medidor, reflejando la sospecha de malignidad.
Con el fin de medir el rendimiento del dispositivo en la priorización de casos a través de la sospecha de malignidad, puede ser útil una tabla como la siguiente:
La prueba consiste en medir si el valor de sospecha de malignidad refleja la asignación de prioridad por parte del especialista, o incluso el resultado de la biopsia, si dichos datos están disponibles.