
Stiamo sfruttando Kafka di Cloudera Data Flow per l'analisi dei flussi. CDF ci fornisce dati in tempo reale, che sono fondamentali per produrre dashboard live, e anche la quantità di dati in streaming (in petabyte) ci aiuta ad avere CDF come punto di riferimento unico per l'analisi dei dati live. Recensione raccolta e ospitata su G2.com.
Kafka di CDF, sebbene sia scalabile, presenta tuttavia molti problemi di lag e necessita di una complessa ottimizzazione. Quando si verifica il lag, cioè quando l'offset corrente è maggiore dell'offset finale del consumatore, si può osservare un lag di 6-7 cifre, il che significa che i record obsoleti raggiungono a volte circa 1 milione, a causa del quale il dashboard attende i dati più recenti e a volte ci vogliono ore per recuperarli e a volte è necessario anche riavviare il servizio per risolvere il problema. Recensione raccolta e ospitata su G2.com.

