Liang P., Bommasani R., Lee T., Tsipras D., Soylu D., Yasunaga M., Zhang Y., Narayanan D., Wu Y., Kumar A., Newman B., Yuan B., Yan B., Zhang C., Cosgrove C., Manning C.D., Ré. C., Acosta-Navas D., Hudson D.A., Zelikman E., Durmus E., Ladhak F., Rong F., Ren H., Yao H., Wang J., Santhanam K., Orr L., Zheng L., Yuksekgonul M., Suzgun M., Kim N., Guha N., Chatterji N., Khattab O., Henderson P., Huang Q., Chi R., Xie S.M., Santurkar S., Ganguli S., Hashimoto T., Icard T., Zhang T., Chaudhary V., Wang W., Li X., Mai Y., Zhang Y., Koreeda Y.,
Holistic evaluation of language models, 2022, arXiv,
https://doi.org/10.48550/arXiv.2211.09110.
arXiv:2211.09110.