Innova Challenge BBVA: BBVAPlaces
Estimación de consumos a partir de datos de Google Places

Motivación y planteamiento

  1. ¿Existe alguna relación entre las valoraciones sociales de una categoría de establecimientos en un código postal y su consumo estimado en base al número de transacciones?
  2. ¿Cómo se distribuyen las valoraciones sociales en diferentes códigos postales y diferentes categorías?
  3. ¿Podemos aproximar de una manera estadísticamente significativa el consumo en una categoría y código postal a partir de la densidad de establecimientos y/o sus valoraciones?
  4. ¿Tiene sentido, conociendo el número de establecimientos en una zona y categoría, definir una métrica de éxito local a partir de la relación entre número de transacciones y número de locales?
El presente proyecto nace con la vocación de responder a estas cuatro preguntas. Para ello, hemos descargado información de número de locales por categoría y sus valoraciones (para Madrid y Barcelona) del API de Google Places. Nos hemos centrado únicamente en tres categorías: hoteles (hotel), comida (food) y moda (fashion), puesto que hemos visto la relación más clara entre éstas y los tipos de establecimiento que define, como veremos, Google Places.

Aunque en este resumen mostraremos algunos mapas y análisis, es recomendable visitar la pestaña de mapas y la de estadística para hacerse una idea de las posibilidades de la combinación de ambas fuentes de datos

Si lo que te interesa es un resumen gráfico, te recomendamos visitar la pestaña de infografías

Resultados e insights

i) y iii) Predicción de densidad de pagos en función de la densidad de "Places" y la valoración media

Para responder a la pregunta de si hay una relación entre el número de establecimientos por km2 y sus transacciones por km2 (siempre en un mismo código postal), hemos hecho una regresión lineal, con resultados prometedores

Según el análisis estadístico llevado a cabo, hemos comprobado que cerca del 82% de la varianza de la densidad de pagos se explica mediante la densidad de "Places" en Madrid, mientras que en Barcelona roza el 90% (87%), con un p-value muy por debajo de 0.01, esto es: La correlación es estadísticamente significativa en ambos casos

Igualmente, hemos probado una regresión entre la densidad de pagos y la combinación entre densidad de establecimientos y valoración social

En este caso, únicamente la densidad de pagos se puede explicar mediante valoración social+densidad de establecimientos a partir de determinados umbrales mínimos de número de valoraciones, este es el caso, por ejemplo, en Madrid, donde con un umbral de número de valoraciones de 40, en el caso de la categoría 'food', se obtiene un p-value global de 0.0001; y en Barcelona, con un corte de valoraciones mínimo de 20, se obtiene un p-value de 1.62e-12

Ejemplo: Mapa de densidad de pagos para categoría 'food' en Madrid vs densidad de establecimientos

*Nótese la alta semejanza de la distribución espacial. En el primer caso son datos del API BBVA, en el segundo(derecha) la distribución se basa ÚNICAMENTE en los datos de Google Places

ii) Áreas con mejor valoración social

Despejada la incógnita de la dependencia del gasto con la valoración social, cabe preguntarse qué areas de una ciudad tienen mejores valoraciones para cada sector. Como se observa en el ejemplo, más abajo, la distribución dista mucho de ser plana, y nos da una idea de las áreas de una ciudad donde se tiene una mejor percepción social de los establecimientos, complementando el análisis de transacciones, de cara a una posible apertura de negocio

En la pestaña de mapas se encuentran los mapas relevantes para cada categoría y ciudad

Ejemplo: Mapa de valoración social media para categoría 'food' en Madrid

iv) Métrica de éxito de establecimientos: numPaymentsPerPlace

Donde realmente pensamos que brilla este análisis combinado es en el cociente entre el número de transacciones y el número de establecimientos por categoría y código postal

Este cociente viene a indicarnos el número de transacciones por establecimiento, y puede ser un indicador directo de las zonas más favorables para la apertura de un nuevo negocio

Ejemplo: Mapa de éxito (relación pagos/places) para categoría 'food' en Madrid

Para ampliar información

Puedes visitar la pestaña de mapas para observar el conjunto de mapas generados, la de estadística para una explicación detallada del análisis estadístico subyacente, la de infografías para descargar material visual y la de proyecto y equipo para conocer el proceso en detalle.

Trabajos futuros y posibilidades

Algunas líneas de trabajo futuras:

  1. Extender el análisis a todas las categorías de establecimientos
  2. Analizar en más profundidad las diferencias encontradas entre Madrid y Barcelona
  3. Incorporar valoraciones sociales procedentes de otros servicios
  4. Contrastar el número de establecimientos estimado a partir de Google Places con otro proveedor
  5. Analizar las diferencias en la predicción entre diferentes categorías e interpretarlas

Referencias

[1] Google Places API
[2] Google Places API, Places types