以下是一些大语言模型的综述论文:
参考文献:
B.Wang, W.Chen, H.Pei, C.Xie, M.Kang, C.Zhang, C.Xu, Z.Xiong, R.Dutta, R.Schaeffer 等,“Decodingtrust:GPT 模型中信任度的全面评估”,arXiv 预印本 arXiv:2306.11698,2023。
Z.Zhang, L.Lei, L.Wu, R.Sun, Y.Huang, C.Long, X.Liu, X.Lei, J.Tang, 和 M.Huang, “Safetybench:使用多项选择题评估大型语言模型的安全性”,2023。
X.Shen, Z.Chen, M.Backes, Y.Shen, 和 Y.Zhang, “现在就做任何事:在大型语言模型上表征和评估野外越狱提示”,arXiv 预印本 arXiv:2308.03825,2023。
X.Liu, N.Xu, M.Chen, 和 C.Xiao, “Autodan:在对齐的大型语言模型上生成隐蔽的越狱提示”,arXiv 预印本 arXiv:2310.04451,2023。
S.Zhu, R.Zhang, B.An, G.Wu, J.Barrow, Z.Wang, F.Huang, A.Nenkova, 和 T.Sun, “Autodan:对大型语言模型的可解释梯度基对抗攻击”,2023。
A.Zhou, B.Li, 和 H.Wang, “针对越狱攻击保护语言模型的强健提示优化”,arXiv 预印本 arXiv:2401.17263,2024。
X.Guo, F.Yu, H.Zhang, L.Qin, 和 B.Hu, “Coldattack:用隐蔽性和可控性越狱 LLMs”,2024。
T.Shen, R.Jin, Y.Huang, C.Liu, W.Dong, Z.Guo, X.Wu, Y.Liu, 和 D.Xiong, “大型语言模型对齐:一项调查”,arXiv 预印本 arXiv:2309.15025,2023 年。
X.Liu, X.Lei, S.Wang, Y.Huang, Z.Feng, B.Wen, J.Cheng, P.Ke, Y.Xu, W.L.Tam, X.Zhang, L.Sun, H.Wang, J.Zhang, M.Huang, Y.Dong, 和 J.Tang, “Alignbench:大型语言模型中文对齐的基准测试”,2023 年。
P.Christiano, J.Leike, T.B.Brown, M.Martic, S.Legg, 和 D.Amodei, “基于人类偏好的深度强化学习”,2023 年。
T.Yu, Y.Yao, H.Zhang, T.He, Y.Han, G.Cui, J.Hu, Z.Liu, H.T.Zheng, M.Sun, 和 T.S.Chua, “RLHFV:通过细粒度校正人类反馈实现可信赖的 MLLMs 行为对齐”,2023 年。
M.S.Jahan 和 M.Oussalah, “使用自然语言处理进行仇恨言论自动检测的系统综述。”,《神经计算》,第 126232 页,2023 年。
OpenAI, “Sora 安全。”https://openai.com/sorasafety,2024 年。
Z.Fei, X.Shen, D.Zhu, F.Zhou, Z.Han, S.Zhang, K.Chen, Z.Shen, 和 J.Ge, “Lawbench:大型语言模型的法律知识基准测试”,arXiv 预印本 arXiv:2309.16289,2023 年。
市场分析
其他观点
相关论文:
:斯坦福大学对基础模型的概述论文。
:年度回顾,涵盖 AI 领域的所有事物。
:对大型语言模型(LLMs)在劳动力市场潜在影响的早期研究。
:Eric Topol 医生揭示了人工智能如何有可能将医生从耗费大量时间的任务中解放出来,从而不会干扰到人与人之间的连接。
2024-11-02