¿Cuáles son algunos consejos sobre diseño experimental para probar los cambios en el diseño del producto?

Esta respuesta será una combinación del inverso de mi respuesta a ¿Cuáles son las mayores tensiones entre mejorar las métricas y mejorar el diseño? y las mejores prácticas recogidas en Quora y en otros lugares.

Elija el objetivo y las variables dependientes defensivas. Las variables objetivo son lo que espera mover con sus experimentos y las defensivas son los efectos de segundo orden que espera no dañar. Cualquier cambio en la interfaz viene con compensaciones en la atención del usuario, por lo que esto es algo duh, pero asegúrese de medir las cosas de las que está quitando la atención. Encuentro efectivo solicitar métricas defensivas a personas ajenas a mi proyecto porque no están tan enfocadas en los mismos objetivos que usted.

Mira los segmentos de usuarios. A menudo hay valores atípicos que tienen efectos no lineales en un sistema. Por ejemplo, creadores de contenido en un sistema de internet típico de 90–9–1, o simplemente cohortes (personas a las que se unió en 2017, 16, etc.). Dependiendo de su producto, probablemente ya tenga definidos estos segmentos, así que asegúrese de ver cómo un cambio de interfaz afecta específicamente a estas audiencias / personas.

Tenga la seguridad de que los indicadores métricos desean con precisión el comportamiento del usuario. No puede medir todo, solo lo que el usuario ingresa explícitamente en su sistema. Por ejemplo, la confianza y el sentimiento del usuario son notoriamente difíciles de medir, y la disminución de la confianza conduce a una disminución del uso, que es realmente difícil de recuperar. Algo como “número de tweets por día”, por otro lado, es realmente fácil de medir, pero es posible que no te cuente lo suficiente sobre el desglose de sentimientos de esos tweets. Elija buenas métricas o interfaces de diseño y mecanismos de productos para que los usuarios puedan darle una señal limpia.

Ejecute holdouts a largo plazo. Para los cambios importantes, especialmente los que provocan la autorreflexión del usuario y el pensamiento a largo plazo (otro sistema 1 – ejemplo del sistema 2), la forma en que los usuarios reaccionan a corto plazo es bastante diferente a largo plazo. Entonces, cuando haces grandes cambios, a menudo los usuarios tardan semanas en reaccionar, por lo que vale la pena dejar que los experimentos se ejecuten por mucho tiempo.

Sepa cuándo desechar datos novedosos . Similar a los holdouts a largo plazo, a veces la reacción de las personas a corto plazo no refleja una vez que se adaptan a una nueva interfaz, mecánica o cambio de clasificación. A menudo es efectivo descartar la primera semana de datos de comportamiento después de la exposición y solo considerar lo que sucede después.

Ejecute pruebas de red. Productos como Quora, Facebook o Instagram son un sistema en red. A menudo, un cambio de interfaz no afectará a la persona que ve la IU diferente, sino a otra persona, por ejemplo, la persona a la que le gusta la foto podría estar motivada para publicar más. En los productos del mercado, a menudo está optimizando el volumen de transacciones en lugar de un solo lado del mercado. La forma más fácil de ejecutar pruebas de red es encontrar subgrafías representativas densas que estén débilmente conectadas al resto del gráfico. Facebook, por ejemplo, realiza pruebas a países enteros, a menudo comenzando con Nueva Zelanda porque es pequeño, aislado y habla inglés. Hay formas más complejas, por ejemplo, este video describe cómo Facebook / Instagram ejecuta algunas pruebas de clasificación de feeds.

Pruebe un tamaño de lote lo suficientemente grande como para ser significativo. En el desarrollo de productos, a menudo es aconsejable dividir los grandes proyectos en pequeños lotes de cambio. El problema con lotes más pequeños es que las mejoras pueden venir demasiado gradualmente para que la diferencia sea estadísticamente significativa. Esto puede reducir la moral durante los primeros pasos y exponer a los usuarios a una parte del producto que no tiene sentido y tiene un impacto negativo, así que evítelo. Otra forma de hacer que un conjunto de pequeños cambios sean medibles es una prueba de eliminación: en la que se inicia un conjunto de pequeños cambios con un impacto pequeño, luego se eliminan todos a la vez para que un pequeño grupo de retención pruebe el impacto.

Pruebas de puertas pintadas. Más de una idea de producto, pero una forma de medir de manera económica el interés en una característica es pretender que está ahí, pero al hacer clic revela una forma subóptima o, a veces, inexistente, de lograr lo que el usuario se propuso hacer. No es excelente para la experiencia del usuario, pero obtienes un límite superior en lo que puedes mover tu métrica objetivo de manera muy económica.

No exponga a los usuarios a combinaciones de cambios interactivos. Use capas en sus experimentos para que varios experimentos dirigidos a la misma variable dependiente no interactúen de manera inesperada. Esta es una buena cartilla en capas.

Esté atento a los comentarios subjetivos de los usuarios de los grupos de experimentos. Finalmente, esté preparado para que no todas las variables de resultados sean necesariamente observables, así que asegúrese de proporcionar a los usuarios canales de comentarios (encuestas, enlaces de comentarios, etc.), cotejarlos con el grupo de tratamiento en el que están y dirigir estos comentarios a los propietarios de el experimento.