Language models accurately infer correlations between psychological items and scales from text alone

Here, we apply the model to data not used for training, a holdout. The holdout sample was collected by Bainbridge et al. 2022.

knitr::opts_chunk$set(echo = TRUE, error = T)

# Libraries and Settings

# Libs ---------------------------
library(tidyverse)
library(ggplot2)
library(plotly)

item_pair_table <- rio::import("ignore/item_pair_table.feather")
set.seed(42)
(item_pair_table %>% 
  mutate(synthetic_r = round(synthetic_r, 2),
         empirical_r = round(empirical_r, 2),
         items = str_replace_all(str_c(item_text_1, "\n", item_text_2),
                                  "_+", " ")) %>% 
    # sample_df(2000) %>% 
ggplot(., aes(synthetic_r, empirical_r, 
              # ymin = empirical_r - empirical_r_se, 
              # ymax = empirical_r + empirical_r_se, 
              label = items)) + 
  geom_abline(linetype = "dashed") +
  geom_point(color = "#00A0B0", alpha = 0.3, size = 1) +
  xlab("Synthetic inter-item correlation") + 
  ylab("Empirical inter-item correlation") +
  theme_bw() +
  coord_fixed(xlim = c(-1,1), ylim = c(-1,1))) %>% 
  ggplotly()

LS0tCnRpdGxlOiAiTGFuZ3VhZ2UgbW9kZWxzIGFjY3VyYXRlbHkgaW5mZXIgY29ycmVsYXRpb25zIGJldHdlZW4gcHN5Y2hvbG9naWNhbCBpdGVtcyBhbmQgc2NhbGVzIGZyb20gdGV4dCBhbG9uZSIKZGF0ZTogIjIwMjMtMTEtMDciCm91dHB1dDogaHRtbF9kb2N1bWVudAotLS0KCkhlcmUsIHdlIGFwcGx5IHRoZSBtb2RlbCB0byBkYXRhIG5vdCB1c2VkIGZvciB0cmFpbmluZywgYSBob2xkb3V0LiBUaGUgaG9sZG91dCBzYW1wbGUgd2FzIGNvbGxlY3RlZCBieSBCYWluYnJpZGdlIGV0IGFsLiAyMDIyLgoKYGBge3Igd2FybmluZz1GLG1lc3NhZ2U9Rn0Ka25pdHI6Om9wdHNfY2h1bmskc2V0KGVjaG8gPSBUUlVFLCBlcnJvciA9IFQpCgojIExpYnJhcmllcyBhbmQgU2V0dGluZ3MKCiMgTGlicyAtLS0tLS0tLS0tLS0tLS0tLS0tLS0tLS0tLS0KbGlicmFyeSh0aWR5dmVyc2UpCmxpYnJhcnkoZ2dwbG90MikKbGlicmFyeShwbG90bHkpCmBgYAoKYGBge3J9Cml0ZW1fcGFpcl90YWJsZSA8LSByaW86OmltcG9ydCgiaWdub3JlL2l0ZW1fcGFpcl90YWJsZS5mZWF0aGVyIikKc2V0LnNlZWQoNDIpCihpdGVtX3BhaXJfdGFibGUgJT4lIAogIG11dGF0ZShzeW50aGV0aWNfciA9IHJvdW5kKHN5bnRoZXRpY19yLCAyKSwKICAgICAgICAgZW1waXJpY2FsX3IgPSByb3VuZChlbXBpcmljYWxfciwgMiksCiAgICAgICAgIGl0ZW1zID0gc3RyX3JlcGxhY2VfYWxsKHN0cl9jKGl0ZW1fdGV4dF8xLCAiXG4iLCBpdGVtX3RleHRfMiksCiAgICAgICAgICAgICAgICAgICAgICAgICAgICAgICAgICAiXysiLCAiICIpKSAlPiUgCiAgICAjIHNhbXBsZV9kZigyMDAwKSAlPiUgCmdncGxvdCguLCBhZXMoc3ludGhldGljX3IsIGVtcGlyaWNhbF9yLCAKICAgICAgICAgICAgICAjIHltaW4gPSBlbXBpcmljYWxfciAtIGVtcGlyaWNhbF9yX3NlLCAKICAgICAgICAgICAgICAjIHltYXggPSBlbXBpcmljYWxfciArIGVtcGlyaWNhbF9yX3NlLCAKICAgICAgICAgICAgICBsYWJlbCA9IGl0ZW1zKSkgKyAKICBnZW9tX2FibGluZShsaW5ldHlwZSA9ICJkYXNoZWQiKSArCiAgZ2VvbV9wb2ludChjb2xvciA9ICIjMDBBMEIwIiwgYWxwaGEgPSAwLjMsIHNpemUgPSAxKSArCiAgeGxhYigiU3ludGhldGljIGludGVyLWl0ZW0gY29ycmVsYXRpb24iKSArIAogIHlsYWIoIkVtcGlyaWNhbCBpbnRlci1pdGVtIGNvcnJlbGF0aW9uIikgKwogIHRoZW1lX2J3KCkgKwogIGNvb3JkX2ZpeGVkKHhsaW0gPSBjKC0xLDEpLCB5bGltID0gYygtMSwxKSkpICU+JSAKICBnZ3Bsb3RseSgpCmBgYAoK

Language models accurately infer correlations between psychological items and scales from text alone

2023-11-07