Netflix: Las claves del éxito basado en Big Data

Netflix

Gracias a su trabajo sobre el Smart Data, Netflix ha pasado de ser una empresa de alquiler de DVD por correo a ser un líder mundial en la industria del entretenimiento. Netflix recoge y analiza todo tipo de datos del consumo que realizan sus usuarios. Desde qué buscan y cómo etiquetan cada contenido a dónde, cuándo y cómo consumen cada contenido. Sin duda, lo importante está en cómo aprovechan esta analítica de datos para mejorar sus servicios en los siguientes aspectos:

  • Hipersegmentar el cliente.
  • Recomendaciones individualizadas de contenido afín a los gustos que muestra tu consumo.
  • Una plataforma de contenidos simple, usable y personalizada para cada suscriptor, con una mejor experiencia de usuario.
  • Predecir claves de éxito y tendencias, acertando mucho más que la competencia a la hora de producir y generar contenidos propios.

Cómo convertir las predicciones en una ciencia exacta

La plataforma de vídeo por suscripción ha sabido aprovechar como nadie las posibilidades que le ofrece el Big Data. No decide sus contenidos como lo hacen las cadenas tradicionales, consultando la “bola de cristal” de unos pocos directivos, sino que estudia el comportamiento y los hábitos de sus consumidores.

Netflix lo tiene fácil para acceder a la información de sus espectadores. A diferencia de medios como la televisión, que se basan en cuotas de pantalla, el proveedor de vídeo puede extraer los datos de todos sus usuarios:

  • Qué búsquedas realizan
  • Qué dispositivos usan
  • Cuál es su día preferido
  • Cuánto tiempo emplean en el servicio y en cada uno de los contenidos
  • Si ven los capítulos enteros o parcialmente e, incluso, qué fragmentos vuelven a visionar
  • En qué momento abandonan el visionado y si lo recuperan o abandonan
  • Las valoraciones de los consumidores
  • Qué preferencias tienen en común con sus amigos o con la audiencia de su misma zona geográfica
  • La información de sus perfiles en redes sociales…

Todo ese conocimiento, esa inteligencia, hace que la definición de cada producto, cada programa, deje de ser un arte y se convierta en una ciencia.

La información que han recopilado durante casi 20 años es lo que les permite decidir qué películas y series incluir en su parrilla. Y de esta forma la firma estadounidense arrasa en todos los países donde se implanta. En cada uno de ellos, ofrece una programación adaptada a los datos que ha recogido, almacenado y analizado de los espectadores de esa región.

Gracias al Big Data, Netflix ha pasado de ser un distribuidor de contenido a convertirse en una de las productoras de mayor éxito, que le han valido varias nominaciones a los Emmy, los Globos de Oro y otros reconocidos premios del sector. Basta con comparar los resultados de las cadenas convencionales con los de la plataforma de vídeo en streaming:


Cuando un canal de televisión lanza una nueva serie, esta tiene tan solo un 35% de posibilidades de triunfar y mantenerse en la parrilla. Cuando lo hace Netflix, sus posibilidades ascienden al 70% (si nos fijamos en el número de contenidos propios que logran continuar una segunda temporada).


 

Apostando por el éxito: “House of Cards” o “Narcos”

Es lo que ocurrió con la aclamada “House of Cards”. Netflix era entonces conocida como firma tecnológica y buscaba hacerse un hueco dentro del ámbito del entretenimiento. Y para ello apostó fuerte: invirtió 100 millones de dólares en producir una serie propia que, además, colgó del tirón en la plataforma, contraviniendo todos los usos y costumbres de los medios convencionales.

Fue un acierto sin precedentes que, sin embargo, no pilló por sorpresa a la propia compañía: “Podían hacerlo con seguridad porque habían analizado su audiencia, sabían cómo respondería a un drama político, que le gustaba el director David Fincher y que la versión británica había sido un éxito”, explicaba Kevin Spacey, protagonista de la serie.

Pero no utilizaron el Big Data solo para estar seguros de que “House of Cards” triunfaría, sino que además garantizaron que así fuera empleando una estrategia de promoción basada en datos. Para ello, hicieron 10 versiones del trailer dirigidas a diferentes audiencias, segmentadas en función de su comportamiento en la plataforma.

La misma receta fue usada para el diseño de Narcos. Netflix uso la analítica de Big Data para predecir el momento optimo de lanzamiento, selección de actores y la evolución de la serie.

En definitiva, el Big Data le ha servido también para mejorar la fidelidad de sus usuarios. ¿Pero cómo lo ha hecho exactamente?

 

Cómo subir el uso para conjurar el riesgo de baja

Netflix es capaz de determinar cuántas horas al mes debe un suscriptor utilizar el servicio para evitar que se plantee la baja. De manera que, en el momento en que se percata de que la cuota media de uso es inferior al ratio que ha identificado, toma medidas para incrementarla.

Por eso, la compañía ha puesto en marcha técnicas que facilitan que el usuario continúe en la aplicación una vez que acaba de ver el contenido elegido:

– En el caso de las series, cuando finaliza un capítulo se reproduce automáticamente el siguiente.
– Cuando se trata de películas, la plataforma lanza recomendaciones de otros contenidos (personalizados según los datos que tenga de ese consumidor) justo antes de que aparezcan los créditos. Para acceder a esos productos, basta con pulsar el botón indicado desde la misma pantalla.

El éxito empresarial gracias al Big Data

Los resultados de su estrategia han llevado a Netflix a ser una de las empresas de mayor crecimiento, con 11 mill millones de dólares en facturación, multiplicar por 2 su valoración bursátil en el último año y a tener más de 125 millones de suscriptores de su servicio de televisión on demand.

Por ultimo os adjunto un video de Netflix data sobre cómo se aplica el Big Data a la plataforma:

The Netflix Data Platform: Now and in the future

Hasta el proximo post amigos 🙂

Fuentes:

http://www.datacentric.es/blog/insight/exito-netflix-datos/

https://searchdatacenter.techtarget.com/es/opinion/Como-Netflix-cambio-la-industria-televisiva-usando-big-data

 

Anuncios

Big Data & Inteligencia Artificial

Últimamente he oído hablar mucho sobre Inteligencia Artificial (IA). ¿Qué es la Inteligencia Artificial?¿Tienen la IA y el Big data alguna relación? En mi afán por saber un poco más sobre la IA, he encontrado en youtube una conferencia de Cesar Aparicio,el cual me ha inspirado a escribir este post.

La Inteligencia Artificial se define como un área multidisciplinar, que a través de ciencias como la computación, la lógica y la filosofía, estudia la creación y diseño de entidades capaces de resolver problemas cotidianos por sí mismas, utilizando como paradigma a la inteligencia humana. Así es como define Wikipedia a la Inteligencia Artificial.

Es decir, podríamos estar hablando de una entidad no viva que utiliza los algoritmos y la estadística para llegar a resolver problemas, emulando a la inteligencia humana.

Inteligencia Artificial nos suena a robots, pero no tiene por qué tener esa forma puesto que hablamos de un software.

¿Existe alguna relación entre Big data e Inteligencia Artificial?

Cuando hablamos de Big data, ya sabemos que estamos hablando de muchos datos, de muchos tipos, cruzándose a gran velocidad (volumen+velocidad +variedad de datos). Datos cuyo crecimiento es exponencial y cada vez se acelera más la velocidad en que se procesan esos datos.

El crecimiento de Big data y la velocidad de procesamiento de los datos hace posible la Inteligencia Artificial.

¿Cómo?

El combustible de la IA son los datos, la IA lo que hace es basarse en los datos que tiene y aprender de ellos, de modo que utilizando esos datos como patrones y aplicando la estadística, es capaz de realizar predicciones de futuro.

Se ha podido comprobar, utilizando datos como patrones, que la IA puede detectar infartos cuatro horas antes de que sucedan.

También puede utilizarse en marketing o en cualquier otro campo.

Debemos ser conscientes de que la IA no sería posible sin los datos, sin nuestros datos, sin Big data la IA no existiría.

Según Stephen Hawking, la Inteligencia Artificial es el peor error que podría cometer la humanidad y probablemente el último.

El físico ha publicado un artículo conjunto con el especialista en computación Stuart Russell y los físicos Max Tegmark y Franck Wilczek en el que dicen textualmente:

“Si miramos hacia el futuro, no hay límites a lo que podemos lograr en este campo. No hay ninguna ley física que impida que las partículas en un sistema de Inteligencia Artificial ser re-ordenen a sí mismas para realizar cálculos más complejos de los que somos capaces de hacer los seres humanos. Es perfectamente posible que se produzca un salto radical e inesperado……”

Es probable que el ser humano en el futuro desaparezca superado por la IA, no en vano se han hecho infinidad de películas que hablan sobre ello de una u otra forma (“Blade Runner”, “Terminator” ,“Yo Robot” o ” Inteligencia Artifical”) donde las máquinas se revelan y pretenden aniquilar a los humanos.

depositphotos_102205474-stock-illustration-artificial-intelligence-robot-pretending-to

Sea como fuere lo que nos depare el futuro, la IA hoy es una realidad, somos responsables de subir nuestros datos a la red, su gran volumen, velocidad y variedad hacen posible el Big Data y consecuentemente la IA.

Hasta el proximo post amig@s 🙂

 

Internet of Things (IoT) y su aportación al Big Data

Big-Data-a-Necessity-In-The-Times-of-IoT

15 de agosto de 1996, sale al mercado el primer teléfono móvil con capacidad de navegación por Internet, el Nokia 9000 Communicator. Este dispositivo contaba con la desorbitada cantidad de 8 MB totales. Orientado a un mercado profesional únicamente suponía una revolución hasta nuestros días, 20 años después, en el que casi todos tenemos un smartphone. Es la era del Internet of things.

En estos 20 años han salido numerosos smartphones que nos hacen la vida más fácil o más complicada, según se mire, pero que forman parte de nuestro día a día.

Si esto nos parecía poco ya empieza a ser habitual que tengamos una Smart-tv, dispositivos wearables como pulseras de actividad, coches con conexión a Internet y nuevos componentes que en poco tiempo son o serán parte de nuestra vida domótica (carreteras, alumbrado, semáforos, cámaras, puertas de seguridad, etc.).

Implicaciones del IoT

Según numerosos estudios para el año 2020 se espera que haya entre 25 mil y 35 mil millones de dispositivos en el mundo Internet of Things (IoT) con una tasa de crecimiento anual de un 40%.

Estos dispositivos orientados al público en general, a empresas y a administraciones públicas ayudarán a tomar mejores decisiones gracias a los datos que generan y a la información que podemos extraer de ellos.

Negocios del Internet of Things

Los dispositivos IoT ya empiezan a estar asentados en los negocios tradicionales como se muestra en la siguiente imagen, y lo estarán en pocos años en negocios que hoy todavía ni existen.

Negocios-Internet-Of-Things

Un claro ejemplo es la start-up tecnológica Ingran Engineering es (Internet de las cosas) y el del bombeo de agua, mediante telemedida y telecontrol de bombeos de agua en busca de ahorros y optimización de la instalación => Blog ingran.es

Datos – Big Data

El contar con tantos dispositivos que generan y consumen datos aportará a cada negocio y al usuario final múltiples detalles sobre los mismos como los siguientes:

  • Número de vehículos que circulan por una zona haciendo uso de sensores de semáforos
  • Niveles de contaminación gracias a los sensores de concentración de aire
  • Número de farolas que necesitan revisión gracias a los sensores en bombillas o puntos de luz.

A priori podríamos pensar en montar modelos basados en bases de datos relacionales, ir guardando datos y luego procesarlos de manera tradicional, pero eso sería inviable por las tres características que tienen los datos Big Data: Volumen, Velocidad y Variedad.

Para manejar la cantidad de datos generada, la frecuencia con la que se crean y los diferentes formatos necesitamos crear modelos basados en Big Data.

Pongamos como ejemplo un avión bimotor Boeing 737. Este tipo de avión genera 20 TB de datos por hora sobre el funcionamiento. Teniendo en cuenta que tiene 2 motores estaríamos hablando de 40 TB de datos por hora de vuelo. Si a esto añadimos la medición de un vuelo de 6 horas de Nueva York a Los Ángeles y contamos con unos 28000 vuelos que cruzan EE.UU. cada día nos encontramos con que tenemos el siguiente volumen de datos diario:

6.720.000 TB

Multiplicando este dato por los 365 días del año, en 2016 son 366 nos da el siguiente resultado:

2.459.520.000 TB = 2.459.520 PB = 2.459,52 EB = 2,4595 ZB

Como vemos estaríamos hablando de una cantidad de datos de 2,4595 Zettabytes anuales sólo con lo extraído de los sensores de cada avión Boeing 737. Pensemos en la cantidad de modelos de avión que hay, el número de vuelos a nivel mundial y sólo estaremos viendo los datos generados por vuelos de avión. Añadamos posteriormente sensores climáticos, de edificios, de industria, de salud, etc., etc.

Conclusión

El mundo Internet of Things nos proporciona numerosos productos (Things) que nos ayudan en nuestra vida diaria, pero plantear este tipo de proyectos nos obliga a contar con necesidades de almacenamiento, tratamiento y análisis de datos no vistos hasta ahora.

Como dijo Nikola Tesla en 1926, inventor, ingeniero eléctrico y mecánico, físico y reconocido por el diseño del sistema de suministro de electricidad con corriente alterna (AC), “Cuando el Wireless esté perfectamente aplicado en toda la Tierra nos convertiremos en un gran cerebro, seremos capaces de comunicarnos con otros de manera instantánea, sin importarnos la distancia y con instrumentos que podremos llevar en nuestros bolsillos”.

Hasta el proximo post amig@s 🙂

Fuentes: http://www.bit.es

 

#Small Data vs #Big Data: Diferencias y aplicaciones en la gestión empresarial

big-data-dilemma-quantity-vs-quality-big
El dilema

Marketing = Creatividad + Big Data

La innovación tecnológica ha logrado capturar cada vez más información a partir de nuevos dispositivos asociados a la vida cotidiana de las personas a través de la Internet de las Cosas (IoT), la Tecnología Ponible (Wearables); así como también de los propios negocios. Las plataformas digitales, especialmente las de comercio electrónico y las redes sociales, permiten acceder a información sobre hábitos y costumbres de consumo que antes eran impensables.

social network, communication in the global computer networks
social network, communication in the global computer networks

Estamos en una época de sobrecarga informativa, infoxicación o infobesidad y todo indica que seguirá creciendo su volumen. Ahora el desafío es otro: ¿qué vamos a hacer con toda esa información?, ¿qué conocimiento podemos generar a partir de ella que permita crecer nuestro negocio?.

Actualmente, a través de las Ciudades Inteligentes, existe todo un movimiento que busca hacer eficiente la gestión de las ciudades y los gobiernos a través de la utilización y análisis de datos, que se obtienen en su mayoría por medio de Sensores y Redes Sociales. IBM por ejemplo, ha desarrollado un ambicioso proyecto llamado “Smart Cities“, en el cual a partir del análisis y la búsqueda de nuevos patrones de relaciones entre distintos bloques de datos de las ciudades, se generan nuevas ideas y en consecuencia soluciones para problemas típicos como el tráfico, la gestión del medioambiente o la higiene de la población.

La comunicación de negocios y marcas no es ajena al impacto de esta “revolución de la información”. La data es un activo muy importante de las empresas para gestionar y rentabilizar sus clientes. En base a la data podemos acceder a un mejor conocimiento de nuestros clientes y del entorno de mercado. La ventaja competitiva de las empresas también pasa en este momento por generar las capacidades y habilidades necesarias para poder interpretar la data y generar nuevas ideas interesantes y relevantes para crear condiciones de negocio más importantes. Descubrir nuevos nichos, oportunidades, nuevos usos de productos y servicios, la posibilidad de ser más eficientes en nuestro mercadeo.

La comunicación publicitaria se favorece muchísimo de esta nueva realidad. En el pasado, la medición del impacto de cualquier campaña de comunicación aparecía como algo complicado, impreciso y hasta opaco.El nuevo paradigma de la información, nos permite desarrollar nuevas formas de análisis de nuestros esfuerzos de comunicación. Ahora podemos medir con mayor certeza, tanto para hacer un seguimiento, como para poder descubrir nuevas posibilidades para nuestras marcas.

La “data” es la base para construir nuevas oportunidades.

“Para mí la creatividad es la diana a la que lanzamos dardos, pero el Big Data es lo que nos ayuda a hacerlo”, y por tanto “no hay que separar esos dos mundos”, señalo Fernando Maldonado, ingeniero de ventas en Sizmek.

En el ambiente de la comunicación, emerge un nuevo paradigma: la data y la creatividad. No podemos concebir la una sin la otra. La creatividad se inspira y se fundamenta en las ideas o conceptos desarrollados a partir de la data que podemos obtener y procesar. Necesitamos la data para poder desarrollar campañas que nos aseguren una buena probabilidad de respuesta positiva de nuestros clientes.Dominar ambos procesos se vuelve clave.

Las agencias de marketing deben reunir talentos de diversa índole y hacerlos trabajar juntos con desafíos y objetivos comunes: especialistas en negocios, creativos y especialistas en información y análisis de grandes datos (Big Data). La retroalimentación entre estos es crítica para que los proyectos de nuestras marcas lleguen a buen término. Pero nada de esto tendría sentido si no se coloca el enfoque sobre la creatividad que es la que construye la diferenciación y relevancia para las marcas de los clientes.

Equilibrio entre data y creatividad para la construcción de relaciones duraderas con los clientes y conectar esas cosas que antes no estaban conectadas, será el desafío de los expertos del marketing. “Hay que crear ideas que rompan formatos, ideas que tengan una calidad en digital para que la gente quiera compartir”. “Las producciones deben ser complementarias”, agregó Maldonado.

by

Spark (II) – Características principales

Hoy veremos las características principales que hacen a Spark tan atractivo.

Resilient Distributed Dataset

En Spark a diferencia de Hadoop, no utilizaremos una colección de datos distribuidos sino que usaremos los RDDs (Resisilient Distribuited Datasets). Normalmente no suelo dar la chapa sobre en que consiste esto a bajo nivel, pero ya que estamos en el blog lo dejo aquí por escrito:
Son colecciones lógicas, inmutables y particionadas de registros a lo largo del cluster que pueden ser reconstruidas si alguna partición se pierde (no necesitan ser materializadas pero si reconstruidas para mantener el almacenamiento estable). Se crean mediante la transformación de datos utilizando para ello transformaciones (filtros, joins, Group by…). Por otra parte permite cachear los datos mediante transformaciones como Reduce, Collect, count, save…
Los RDD son tolerantes a fallos, para ello mantiene una cosa llamada el “lineage” del RDD. Este “lineage” permite que los RDDs se reconstruyan en caso de que una porción de datos se pierda.
Por tanto, los beneficios de utilizar RDD´s son varios:
· La consistencia se vuelve más sencilla gracias a la inmutabilidad.
· Tolerancia a fallos con bajo coste (gracias al “lineage” mantenemos checkpoints de los datos).

· A pesar de ser un modelo restringido a una serie de casos de uso por defecto, gracias a RDDs se puede utilizar Spark para un cantidad de aplicaciones muy variadas.

Operaciones en RDDs

Análisis Interactivo de Datos

 Una de las características más útiles es el Shell interactivo que permite a un usuario utilizar las capacidades de Spark inmediatamente (no se necesita un IDE o compilar el código). La Shell es una herramienta que se utiliza para la exploración de datos interactivamente, que nos permitirá probar porciones de la aplicación que estemos desarrollando.
Spark puede leer y escribir datos desde y hasta HDFS. Lo bueno es que nos permite jugar con APIs en Java, Scala y Python para aplicaciones “stand-alone”.

Batch Processing más Rápido

 Los primeros despliegues de Spark se enfocaron en aumentar el rendimiento de las aplicaciones MapReduce existentes. Recodemos que MapReduce en la actualidad es un framework genérico de ejecución paralela de aplicaciones y no es exclusivo ni una implementación propietaria del core de Hadoop. Por lo tanto Spark proporciona también MapReduce que puede llegar a ser más eficiente gracias al uso de la memoria (mientras utilizará “lineage” para recuperar los fallos en caso de que fuese necesario).

Algoritmos Iterativos

Spark permite a los usuarios y a las aplicaciones especificar el cacheo de un dataset mediante la operación cache(). Esto significa que nuestra aplicación puede acceder a la memoria RAM en vez de al disco, lo cual aumenta de manera espectacular el rendimiento en algoritmos iterativos ya que pueden acceder acceder al mismo dataset repetidamente. Ese caso de uso cubre un gran número de aplicaciones, como pueden ser las aplicaciones orientadas a machine learning o los algoritmos gráficos que son iterativos por naturaleza.
Puedes ver más sobre esto en la web oficial de Spark.

Procesamiento de Streams en Tiempo Real

Dado que las operaciones realizadas los sistemas de análisis de datos poseen una latencia baja, es natural extender el motor hacia streams de datos en tiempo real. Spark tiene un API que nos permite trabajar con estos streams de datos y que además tienen una ventaja diferencial: podemos mezclar streams en tiempo real con programas Batch.

Spark (I) – Introducción

spark-logo

Voy a hacer una serie de posts en la que explicaré tanto la instalación como el funcionamiento de los programas desarrollados para Spark.

En este primer post introductorio quiero hablar de dónde viene, en que estado está y hacia donde va. La mayoría de esta información la he sacado de la web oficial de Spark, pero intento darle un toque de sencillez en algunos puntos para hacerlo más entendible a los humanos.

 

Introducción

Hadoop revolucionó el procesamiento BigData permitiendo a los usuarios almacenar y procesar cantidades masivas de datos a un precio muy bajo. El algoritmo|técnica MapReduce es ideal para implementar aplicaciones de Batch Processing muy complejas que a menudo tratan de dar solución a sistemas de log, la ejecución de ETL, la computación de los índices web y potenciar los sistemas de recomendación personal. Sin embargo, su dependencia del almacenamiento persistente en disco para proporcionar tolerancia a fallos provoca una alta latencia entre servidores, cosa que viene muy mal para algunos cálculos iterativos así como algoritmos de aprendizaje que utilicen MapReduce.

El proyecto de Spark se centró desde el comienzo en aportar una solución factible a estos defectos de Hadoop, mejorando el comportamiento de las aplicaciones que hacen uso de MapReduce y aumentando el rendimiento considerablemente.

Pero…¿Qué es Spark?

Spark es un motor para el procesamiento de grandes volúmenes datos y que gracias a su llamada “interactividad” hace que el paradigma MapReduce ya no se limite a las fases Map y Reduce y podamos realizar más operaciones (mappers, reducers, joins, groups by, filtros…).
También proporciona API´s para Java,Scala & Python. Es preferible que se programe en Scala ya que el código se verá reducido y todo parecerá más limpio.

La principal ventaja de Spark es que guarda todas las operaciones sobre los datos en memoria. Esta es la clave del buen rendimiento que tiene Spark.

La siguiente figura muestra algunas de sus principales características:

· Baja latencia computacional mediante el cacheo de los datos en memoria en un dataset.
· Algoritmos iterativos eficientes debido a que las sucesivas operaciones comparten los datos en memoria, o accediendo de manera repetida al mismo dataset.

Un programa escrito en Spark como veremos en los siguientes posts permite ver un algoritmo paralelo de una forma tipo imperativa.

Y hasta aquí el post de hoy.

Os espero en el siguiente!!!

Fuentes:
http://spark.apache.org/downloads.html
http://databricks.com/blog