OPINIÓN

¿El fin de las encuestas?

Cada vez que hay elecciones se produce el mismo debate. Un recorrido histórico sobre esta metodología tan utilizada en política. Sus posibles reemplazos.

Cada año electoral las encuestas se ven sometidas a un test de confianza, en particular a lo que acertar el resultado de las elecciones se refiere. Desde hace un tiempo hay buenos y malos momentos, aunque generalmente queda flotando en el aire la idea de que las “encuestas se equivocaron”, aunque acierten el orden de los candidatos, no lo hacen en las diferencias y cantidades de votos y porcentajes.

La metodología de las encuestas tal y como hoy la conocemos, fue el resultado de una evolución teórica y práctica. En primer lugar, existieron prácticas sin demasiado fundamento científico, como el procesar cupones que se adherían a revistas (como Readers Digest) o a productos (como los de la empresa Eastman Kodak). No es sino hasta 1935, que una histórica empresa, que aún hoy persiste crea un instituto para estudiar la opinión pública, ese año Gallup crea British Institute of Public Opinion. Luego le seguirán, en 1937 la American Association for Public Opinion Research y su revista Public Opinion Quaterly, y en Europa en 1938 se crea el Institute Francaise de l´Opinion Publique con su revista Sondage. Finalmente, su madurez se alcanza con la creación en 1946 Asociación Estadounidense de Estudio de la Opinión Pública (AAPOR) y en 1947 su par europea. Hasta aquí se fueron perfeccionando las metodologías y los fundamentos estadísticos que convirtieron a la opinión pública en un conjunto de opiniones y comportamientos susceptibles de ser medidos. Pero son las elecciones en EEUU de 1952 entre Eisenhower vs. Stevenson que se utilizan las encuestas para proyectar resultados electorales, o el comportamiento político de los votantes.

La metodología se consolida con el desarrollo de las estadísticas aplicadas a los estudios de opinión pública. En particular, las llamadas técnicas de muestreo, que permiten conocer lo que piensa un universo de gente (toda la población) sin hacer un censo, con la sola colección de información de un grupo de personas de ese universo. Esta técnica supone ciertas reglas de inferencia estadísticas: que los casos son elegidos al azar, que la distribución de los individuos en el universo supone una distribución normal, que se va a utilizar un nivel de confianza estadísticamente controlado, y sobre todo la regla de los “grandes números”, esto es, que cuanto mas grande es la muestra, menos es el error estadístico, es decir la distancia de lo proyectado con el resultado finalmente obtenido.

Junto a la maduración de la base epistemológica de las estadísticas aplicadas a el estudio de la opinión pública, se da un fenómeno tecnológico en la recolección y procesamiento de los datos. En la recolección de datos desde el uso de los cupones que la gente llenaba voluntariamente, se pasa a entrevistas personales, con hogares preseleccionados. La posibilidad de usar el teléfono del hogar para contactar a las personas fue otro salto fundamental, sobre todo en lo que a los costos de hacer los estudios se refiere, aunque los cuestionarios deben ser menos extensos.

https://publish.twitter.com/oembed?url=https%3A%2F%2Ftwitter.com%2FLetra_P%2Fstatus%2F1721994651618423233&partner=&hide_thread=false

Este auge del modelo de encuestas se consolida, hasta que nuevos fenómenos tecnológicos y sociales comienzan a socavar las mismas bases de la credibilidad. La capacidad y velocidad de procesamiento de datos se acelera con el uso de computadoras mas robustas, pero la aparición del teléfono celular y el reemplazo del teléfono de hogar hace que la cobertura telefónica de los universos pase de un 95% de cobertura, a menos del 30% de los hogares con teléfonos. Queda demostrado, después de varios intentos, que es muy complejo obtener entrevistas llamando a teléfonos celulares, porque los niveles de rechazo a la encuesta superan lo mínimamente razonable. Desde el punto de vista del comportamiento, las personas son mas reacias a contestar estudios por el agotamiento y el stress que tantos estudios que se realizan pasando desde los estudios de marketing hasta la venta telefónica. La distribución social y urbana también pasa a ser un problema: los lugares para entrevistar personalmente encuentran barreras en edificios de muchos pisos, barrios privados o en el extremo, asentamientos precarios a donde no se accede generando sesgos entre los entrevistados en los sectores de mayor y de menor nivel adquisitivo. A esto se suma un problema conductual, la decisión de voto se toma cada vez mas cerca del día de la elección, lo que impide conocer las preferencias de la muestra en un 100%.

Mientras tanto, otra revolución tecnológica está teniendo lugar: internet, y en particular las redes sociales. Los estudios de opinión pública intentan utilizar estas nuevas posibilidades para subsanar los problemas que se estaban teniendo con los viejos métodos de recolección de información: se intenta usar el correo electrónico y grandes bases de datos para enviar los cuestionarios, de los que vuelven con respuestas pocos y con mala calidad en lo que a representación se refiere. Se intenta colocar banners en páginas de alta circulación, como portales de medios, en los que el cuestionario aparece luego de un click de quien acepta participar del estudios, imposibilitando el control de la muestra y perdiendo el control estadístico de los resultados, por lo que los datos son usados por lo medios como “consultas” a la audiencia, sabiendo que no hay representatividad en esos resultados, sesgados además por la orientación social o ideológica de medio que promociona la consulta.

Pero la cantidad de información que fluye en internet y en las redes parece muy valiosa para dejarla escapar, y la capacidad computacional sigue creciendo, por lo que cada vez se pueden procesar, mas y mas datos, aunque no se aplica en el caso la “ley de los grandes números” que enunciábamos porque esta supone una selección al azar de los casos y en este caso no es al azar sino algoritmica. Pero desde la estadística comienzan a aparecer algunas nuevas herramientas que, aún en forma precaria, comienzan a generar las primeras bases para poder decir que contamos con una teoría que sustente el procesamiento de información. Aparece lo que hoy se llama Data Science (o Ciencia de Datos), el Big Data (o el uso de bases de datos de dimensiones inusitadas para la estadística inferencial anterior) y el Data Minning (o minería de datos, que permite utilizar algoritmos de selección de casos que recuperan la idea de selección mediante el azar, permite conocer con cierta certeza a quienes estamos incluyendo en nuestra muestra).

A falta de una teoría que permita comprender las causas que relacionan fenómenos cada vez más numerosos e interdependientes, las máquinas utilizan con mayor profusión nuevas técnicas, basadas en la mera búsqueda de correlaciones y ya no de causalidades. Correlaciones, sin embargo, tan poderosas que parecen permanentes, incluso en el futuro. Sin tratar de explicar la razón de ello. Correlaciones basadas en leyes estadísticas: el azar, en el cual se ha buscado, durante milenios, la forma de expresión del futuro a través de lo divino resurge, así, de manera muy diferente, en modelos que pronto serán tan precisos que acabarán transformándose en máquinas de predicción. Éstas lograrán su objetivo cada vez mejor ya que las herramientas de cálculo son cada vez más potentes: en 2014, la compañía SanDisk presentó un dispositivo SD de una capacidad de 512 gigas en un volumen de 1,5 centímetros cúbicos. En 2015, hay máquinas que realizan 35 millones de millardos de operaciones por segundo.” (Attali, J., 2006)

A la vanguardia del uso de información en las redes para proyectar comportamiento, vienen los físicos que trabajan generalmente en los mercados financieros. Esto no es casualidad, su formación les permite diseñar modelos predictivos de comportamientos bursátiles que luego testean en grandes bases de datos económicos que están disponibles y son de una gran calidad. Estos modelos son los criticados en el Libro el Cisne Negro por Nasim Taleb, quien les desconoce la capacidad de prevenir crisis imprevisibles, que es justamente lo que se supone deberían estar haciendo.

Siguiendo a Attali, este autor nos señala que entre los estudios que avanzan se encuentra el del uso de Google Trends, que permite saber la frecuencia con que los internautas de todo el mundo realizan una consulta a través de Google, Tobias Preis llegó a la conclusión de que una búsqueda masiva que afecte a 98 términos de economía siempre precede a importantes caídas en los mercados de capitales y un estudio que lleva el título de Twitter mood predicts the stock market, de J. Bollen, H. Mao y X. Zeng han observado, asimismo, que hay una correlación entre el “tono” de los mensajes enviados a través de Twitter y las ulteriores oscilaciones del Dow Jones.

En el año 2011, la compañía Derwent Capital Markets llegó a crear un fondo de cobertura experimental especializado en el análisis de Twitter, cuya rentabilidad fue superior a la media del mercado y de los otros fondos de cobertura. Algunos programas informáticos, siguiendo los pasos de Linguistic Inquiry y Word Count, son capaces de analizar el contenido de un texto y deducir de él el grado de emociones positivas o negativas que se encuentran en el mensaje, en lo que se llama sentimental análisis, ¿y que se puede ver en el artículo titulado Can Facebook Predict Stock Market Activity?, Yigitcan Karabulut, donde este analiza la relación entre dicho índice de felicidad y los índices bursátiles.

El uso de Facebook en política tuvo su gran momento en la campaña de Trump, en la que la empresa Cambridge Analytica, afirmó conocer 12.000 datos de cada uno de los votantes americanos, aunque su uso fue para segmentar y dirigir mensajes a favor o en contra de determinados candidatos y no de predecir un resultado electoral, luego Facebook cerró la posibilidad de utilizar la base de datos de sus usuarios.

https://publish.twitter.com/oembed?url=https%3A%2F%2Ftwitter.com%2FLetra_P%2Fstatus%2F796371569320796160&partner=&hide_thread=false

Creemos que, así como la inferencia estadística se fue desarrollando para llegar a convertirse en el sustento epistemológico y científico de los estudios electorales, el desarrollo de los modelos físicos-financieros son el inicio de una especialización de modelos predictivos para los comportamientos electorales. El desafío es replantear muchos supuestos teóricos de las viejas encuestas, como por ejemplo la selección aleatoria de los casos, por un algoritmo que modele las grandes bases de datos, en particular de las redes sociales como X o Google. Esos nuevos modelos de interpretación suponen la selección de cierta información que tenga correlaciones positivas con el comportamiento electoral, ya que se abandona la idea de preguntar-para-conocer por elegir-para-correlacionar. Lo que antes era el trabajo del encuestador o pollster, diseñar una muestra y un cuestionario, hoy el esfuerzo se lo lleva el modelizar un algoritmo de búsqueda (minning) con correlaciones a la decisión electoral.

Si esta nueva base científica significa el fin de las encuestas tal y como la conocimos, nos inclinamos por una respuesta afirmativa. Se podrán seguir realizando encuestas, porque han demostrado que han sido un método robusto, pero sus costos y las limitaciones seguirán creciendo, mientras que el uso de Data Science seguirá fortaleciéndose, y convirtiéndose en la nueva plataforma científica de los estudios electorales.

encuesta ix: massa supera a milei por dos puntos en el ballotage
encuesta xi: milei le gana a massa por mas de nueve puntos

También te puede interesar