¿Cómo es la implementación de MapReduce de Google más rápido que Apache Hadoop?

Terasort es principalmente un punto de referencia de E / S (no utiliza replicación, por lo que los reductores escriben datos directamente en sus nodos de datos locales). Por lo tanto, como se indica en “Google MapReduce gana el rendimiento de TeraSort”, se debe comparar el rendimiento, sesgado a la capacidad de clúster de E / S disponible:

Yahoo usó 3.640 discos en sus 209 segundos. El clúster de Google usa 12 discos por servidor para un total de 12,000. Ambos están utilizando discos básicos. El resultado de Hadoop usa 3,640 discos por 209 segundos (761k segundos de disco) y el resultado de Google usa 12,000 discos por 68 segundos (816k segundos de disco).

Normalizando la cantidad de discos, el resultado de Google es aproximadamente un 7% mejor que el número de Hadoop de principios de año. Esa diferencia bastante pequeña podría explicarse por un software más afinado, mejores discos o una combinación de ambos.

Sin poder verificar los resultados quién puede decir. Google MapReduce es de código cerrado.