Terasort es principalmente un punto de referencia de E / S (no utiliza replicación, por lo que los reductores escriben datos directamente en sus nodos de datos locales). Por lo tanto, como se indica en “Google MapReduce gana el rendimiento de TeraSort”, se debe comparar el rendimiento, sesgado a la capacidad de clúster de E / S disponible:
Yahoo usó 3.640 discos en sus 209 segundos. El clúster de Google usa 12 discos por servidor para un total de 12,000. Ambos están utilizando discos básicos. El resultado de Hadoop usa 3,640 discos por 209 segundos (761k segundos de disco) y el resultado de Google usa 12,000 discos por 68 segundos (816k segundos de disco).
Normalizando la cantidad de discos, el resultado de Google es aproximadamente un 7% mejor que el número de Hadoop de principios de año. Esa diferencia bastante pequeña podría explicarse por un software más afinado, mejores discos o una combinación de ambos.
- Diseño de la experiencia del usuario: ¿cómo se consigue un trabajo como diseñador sin ir a la escuela de diseño?
- ¿Por qué las empresas cambian constantemente sus logotipos por algo más simple?
- ¿Cuál es la diferencia entre un resumen y un concepto?
- Cómo desarrollar mi idea (videojuego, software, aplicación, sitio web) tan vívidamente que cualquier programador, diseñador y artista deseable pueda producirla fácilmente
- ¿Qué habilidades debo aprender primero para que el diseño web independiente funcione fácilmente?