端侧模型具有以下一些应用:
[title]中文大模型基准测评2023年度报告[heading1]专项基准[heading1]行业基准:SuperCLUE-Auto汽车行业测评基准部分大模型在技术和应用不同维度表现稍显不一致。车辆使用指南这一维度上,多个模型达到了80分以上的优异表现,说明在一些对用户有用的任务上(如操作指南、车辆故障诊断、维修保养)已经具备较高的交互成熟度。在智能座舱与交互这一维度上,仅有一个中文模型达到了良好表现,说明中文大模型在智能座舱与交互还有不少的进步空间。在汽车场景中,有一些13-14B中小模型也超过了云端的闭源模型,说明可满足用户需求具备良好能力的端侧模型有非常大的潜力。
虽然新的gpt-3.5-turbo模型针对会话进行了优化,但它对于传统的完成任务也非常有效。原始的GPT-3.5模型针对[文本补全](https://ywh1bkansf.feishu.cn/wiki/OIBbwywg0i3RXrkXMDlcDmxRnPc)进行了优化。我们用于[创建嵌入(Embedding)](https://ywh1bkansf.feishu.cn/wiki/M5C9wX65mi9OWCkc8JHcFIkFnXf)和[编辑文本](https://ywh1bkansf.feishu.cn/wiki/OIBbwywg0i3RXrkXMDlcDmxRnPc)的端点它们自己的一组专用模型。
可以看到Google的研究成果有一个聚合的趋势。随着数据量的增加,从分层模型过渡到端到端模型也许是一个自然趋势。技术和意义RT-1:基于模仿学习中的行为克隆学习范式,输入一段短的图像序列和一个指令,输出每个时间步的一个动作,历时17个月基于13个机器人采集了130k episodes以及超过700个任务的数据集,使机器人具备了一定的泛化性,能够发现结构相似任务之间的模式,且应用到新任务上。RT-1的输入由图片序列、自然语言指令构成,输出由机械臂运动的目标位姿(Toll,pitch gaw,gripper stαtus)、基座的运动、模式转换指令构成。RT-2:一个真正的端到端VLA模型(Vision-language-Action)。RT2将动作视为一种新的语言,结合针对动作语言的CoT技术,同时实现了机器人基于大模型的语义理解(High level reasoning)和动作理解(Low level action),意味着机器人可端到端生成动作,从而执行更复杂的任务例:RT-2不仅能听懂自然语言指令,还会主动思考,当听到“捡起灭绝的动物”指令,能准确理解其中含义,并完成从恐龙、鲸鱼、狮子三种塑料玩具中抓取恐龙的连续性动作