Esta entrada está disponible en RPubs. Publicada originalmente en Medium.

Esta publicación reproduce un ejercicio realizado como parte del taller “R para Ciencias Sociales” impartido por Brenda Vázquez. A lo largo de este ejercicio se otorgan los enlaces para acceder a las bases de datos y se reproduce el código utilizado para el ejercicio.

El objetivo de este ejercicio es estimar qué tan asociado está el puntaje que obtienen películas de habla inglesa con el número de premios que reciben. La premisa es que aquellas cintas que reciben una mejor recepción de la crítica y la audiencia tienden a obtener un mayor reconocimiento institucional. Usaremos como variable independiente o explicativa el puntaje que obtienen películas de habla inglesa en el sitio Metacritic y como variable dependiente el número de premios recibidos.

Metacritic es un sitio en el que usuarios y sitios especializados valoran distintos tipos de productos culturales (desde películas y series hasta videojuegos y música).

Datos y técnicas

Los datos que utilizaremos para poner a prueba esta premisa fueron construidos por un estudiante originario de India, Syed Mubarak quien publicó en Kaggle una base de datos que contiene 9425 registros de películas y series disponibles en la plataforma Netflix. La base fue publicada en agosto de 2021 por lo que es una de las más recientes. Puede consultarse en el sitio de Kaggle.

El conjunto de datos ofrece 29 variables entre las que se encuentra el título, género, idiomas, duración, entre otros. Para la variable explicativa utilizaremos el puntaje obtenido en Metacritic (“Metacritic Score”) y para la dependiente el número de premios obtenidos (“Awards Received”) que forman parte de la base. Estas variables serán sometidas a un modelo de regresión linear para estimar el efecto que el puntaje tiene en el número de premios. Esperamos que aquellas películas más valoradas por los usuarios sean las que obtengan mayor reconocimiento.

Después de explorar los datos, notamos que existen títulos que no cuentan con datos. Para refinar el proceso, decidimos eliminar los datos perdidos así como aquellos que tuvieran menos de un premio. Como paso adicional, decidimos filtrar los registros para quedarnos únicamente con películas cuyo idioma fuera Inglés. Para llevar a cabo esto realizamos un subconjunto de datos a partir de la base original.

metapremios <-subset(datos, datos$`Series or Movie`==”Movie” & datos$Languages==”English”
& datos$`Awards Received`>1 & !is.na(datos$`Awards Received`) & !is.na(datos$`Metacritic Score`))

Del total de registros en el conjunto original, redujimos el número de observaciones a 988 películas en habla inglesa con al menos dos premios obtenidos.

Resultados

El siguiente paso fue explorar los descriptivos de cada variable.

summary(metapremios$`Metacritic Score`)
Min. 1st Qu. Median Mean 3rd Qu. Max.
6.0 52.0 66.0 62.9 75.0 99.0
summary(metapremios$`Awards Received`)
Min. 1st Qu. Median Mean 3rd Qu. Max.
2.0 3.0 5.0 12.7 13.0 242.0

Así, encontramos que la media de puntaje en Metacritic para el conjunto de películas es de 62.9 y la media de premios es de 13 galardones. Mediante las siguientes líneas de código, graficamos los resultados y trazamos las líneas donde se cruzan las medias de cada una de las variables.

plot(metapremios$`Metacritic Score`, metapremios$`Awards Received`,
main=”Películas y premios obtenidos”,
xlab=”Puntaje alcanzado en Metacritic”,
ylab=”Premios obtenidos”,
xaxp=c(0,100,10), yaxp=c(0,250,5))
abline(v=media.metacritic, col=”red”)
abline(h=media.premios, col=”red”)
points(media.metacritic, media.premios, pch=21, cex=5, col=”red”)
points(media.metacritic, media.premios, pch=19, cex=2, col=”red”)
Gráfica de dispersión para películas por puntaje alcanzado en Metacritic y número de premios obtenidos.

Lo primero que cabe notar es que, aparentemente, películas con mayor puntaje en Metacritic obtienen un mayor número de premios, sin embargo, aún hay un alto número de películas que obtienen pocos premios pese a su alto puntaje. Cabe esperar que la correlación entre estas dos variables, si bien existe, no sea tan fuerte como esperábamos al principio. Para explorar esto, realizaremos una correlación simple entre ambas.

cor(metapremios$`Metacritic Score`, metapremios$`Awards Received`,
use = “pairwise.complete.obs”)
#[1] 0.3916265

Obtenemos un valor de 0.39 que nos indica una asociación no muy fuerte pero positiva entre el puntaje de la crítica y los premios recibidos. Hemos decidido realizar una exploración gráfica para ver cómo se distribuye la asociación. Para ello, utilizaremos ‘ggscatter’ que requiere instalar y cargar los paquetes ‘ggplot2’, ‘ggsci’ y ‘ggpubr’.

library(ggplot2)
library(ggsci)
library(ggpubr)
ggscatter(metapremios, x = “Metacritic Score”, y = “Awards Received”,
add = “reg.line”, conf.int = TRUE,
cor.coef = TRUE, cor.method = “pearson”,
xlab = “Puntaje en Metacritic”, ylab = “Premios Obtenidos”)
Gráfico de dispersión de la correlación entre Puntaje en Metacritic y Premios Obtenidos para películas en habla inglesa disponibles en Netflix.

Ahora podemos ver no solo el valor de la correlación (R=0.39) sino también su pendiente. Ahora que tenemos certeza de que las variables están asociadas, que su correlación es positiva y que ésta es estadísticamente significativa, procederemos a poner a prueba nuestra premisa calculando un modelo de regresión. Para obtener una versión más estilizada de los resultados del modelo, hemos cargado el paquete ‘jtools’ que nos da la opción summ(modelo) como la veremos a continuación. (La opción con R Base es llamar el resultado con ‘summary(model)’.

meta.model <- lm(metapremios$`Awards Received`~metapremios$`Metacritic Score`)
summ(meta.model)
Resultados de un modelo de regresión que calcula el efecto del puntaje en Metacritic sobre el número de premios recibidos para películas en inglés disponibles en la plataforma Netflix.

La opción ‘summ(modelo)’ nos ofrece una vista más resumida de los resultados de la regresión. En primer lugar, vemos que el coeficiente del puntaje en Metacritic tiene un efecto positivo que es estadísticamente significativo sobre el número de premios que una película obtiene. El modelo cuenta con una R2 ajustada de 0.15, por lo que, si bien no es el modelo con el mejor ajuste, nos permite explicar el 15% de la varianza de los datos con los que contamos. Cabe señalar que en las exploraciones previas, ninguna otra medida de la crítica (Hiddem Gems Score, Rotten Tomatoes, IMdB Score) obtenían una correlación tan alta como el puntaje en Metacritic.

Como paso adicional, hemos decidido hacer una exploración gráfica de nuestra línea de regresión con ‘jtools’. Aunque la gráfica de correlación ya nos ofrece la visualización, hemos decidido ofrecer esta visualización adicional.

library(jtools)
premios <- metapremios$`Awards Received`
puntaje <- metapremios$`Metacritic Score`
fit <- lm(premios~puntaje)
summ(fit)
effect_plot(fit, pred = “puntaje”, interval = TRUE, plot.points = FALSE, rug=TRUE,
partial.residuals = TRUE,
point.size=0.5,
main.title = “Modelo de regresión para películas en inglés”,
x.label = “Puntos obtenidos en Metacritic”,
y.label = “Número de premios alcanzados”,
colors = “blue2”,
point.color= “red”)
Gráfico de dispersión del modelo de regresión para películas en inglés disponibles en la plataforma Netflix. El puntaje obtenido en Metacritic tiene un efecto en el número de premios alcanzados.

Discusión

Resulta difícil estimar qué película recibirá una mayor cantidad de premios únicamente tomando en cuenta la percepción que la crítica ofrece. Metacritic es un espacio para que usuarios valoren aquellos filmes que más les complacieron, la plataforma permite no solo colocar un número a las cintas sino también ofrecer una reseña. En este sentido, como plataforma social, sintetiza parte del sentimiento que las audiencias tienen en torno a una producción cinematográfica en particular y a la industria del cine en general.

En ese sentido, el puntaje en Metacritic nos ha servido como una variable de aproximación (proxy) a un elemento que puede tener impacto en el éxito final, medido en número de premios, que tiene una película.

El modelo de regresión, con su R2=0.15 nos lleva en la línea correcta al poner a prueba el efecto de una variable que podría explicar, en parte, el éxito de una producción cinematográfica. En este caso, hemos limitado el cálculo a cintas en habla inglesa que se encuentran en una plataforma, Netflix, por lo que no sabemos nada de aquellas cintas fuera de la plataforma, pero creemos que esta muestra nos da pistas del fenómeno.

Otra caución a tomar en cuenta es que un modelo de regresión linear puede no ser tan indicado para evaluar el efecto que la crítica tiene en las películas. Es posible que, si exploramos la asociación entre estas dos variables tomando en cuenta el género del filme, obtengamos resultados más robustos para cierto tipo de filmes (drama, comedia, acción, etc.), por lo que necesitamos seguir explorando los datos integrando variables de otro tipo (categóricas) con un modelo ajustado a las mismas.

Conclusiones

Este ejercicio ha buscado poner a prueba la idea de que el peso de la crítica tiene cierto efecto en el reconocimiento que un filme logra. Así, hemos visto que la calificación que las audiencias ofrecen a una película está asociado positivamente con el número de premios que ésta recibe.

Al calcular un modelo de regresión, hemos podido estimar el efecto que buenas calificaciones llegan a tener en producciones cinematográficas. Hemos usado una base disponible y que cuenta con cintas disponibles en una plataforma de VOD. De contar con un mayor número de datos, es posible que podamos confirmar esta premisa y, si estimamos modelos que puedan integrar variables categóricas, también es posible que podamos discernir el efecto entre distintos tipos de películas.

De momento, hemos logrado explorar la posibilidad de bases de datos de este tipo en el ánimo de utilizar herramientas de estadística y visualización de datos para estimar analíticas culturales, un área en la que creemos que es necesario diseñar aproximaciones sistemáticas que nos permitan construir una mejor comprensión de los fenómenos culturales contemporáneos.