Navigate to WaytoAGI Wiki →
Home/Question List/Question Detail

人机交互模型

Answer

目前大模型在人机交互方面可能存在以下三种模式:

  1. 以人为主导,大模型提供建议(copilot 阶段):如同副驾驶,在人做决策时提供建议,决定权在人手中。
  2. 人和大模型协同工作,合作完成同一个工作(embedding 阶段):在实际工作场景中,部分小环节可由大模型完成,能提高工作效率。
  3. 人指挥大模型工作(数字员工阶段):此阶段较为少见,大模型目前还不能完全独立完成具体工作,可能是工程问题或自身能力欠缺所致。

个人观点认为,当下应努力将大模型从简单提供建议转变为深度融入工作流,而数字员工阶段尚不成熟,可由其他大厂和学界先行尝试。

此外,每一次平台型技术的出现都会催生新的人机交互方式。如在智能时代,我们曾认为 ChatGPT 的 LUI(自然语言对话式界面)是交互终点,但并非如此。知名科幻电影 HER 中人类与 AI 全感知无障碍的对话形式才是我们所期望的。

OpenAI 发布的 GPT-4o 是其之前所有技术的集大成者,采用新的全模态模型-Omnimoda Model。通过端到端的神经网络,将视觉、语音和文本数据混合训练,而非常见的先转换为文本再处理的工程手段。GPT-4o 对音频输入的平均反应时间为 300 毫秒,与人类相似,且能从音频数据中感悟人类的情绪、语调、风格等,甚至还原训练时的环境声音。但 OpenAI 未公开 GPT-4o 的技术细节,唯一线索来自内部模型炼丹师的一篇博客,项目名是 AudioLM,2023 年中启动,目标是用端到端的方式扩大语音模型的能力。

Content generated by AI large model, please carefully verify (powered by aily)

References

Waytoagi 共学 -大模型在 B 端场景的应用

1.如何交互(目前的人机协同模式是什么样)?之前很多人都说到大模型可能会有3种交互模型模式一:以人为主导,大模型提供建议(copilot阶段)像一个副驾驶,开车的时候给你提供建议,但是决定权还是在你手上模式二:人和大模型协同工作,合作完成同一个工作(embedding阶段)在实际的工作场景中,有一些小的环节可以让大模型来完成,从整个工作流程的角度来看这样确确实实的嵌入到我们的工作中,提高的效率模式三:人指挥大模型工作(数字员工阶段)这个阶段目前看来,非常少见。大模型还不能完全独立于人来完成某一个非常具体的工作。可能是一个工程上的问题,也有可能是大模型本身能力欠缺导致。个人观点:当下最应该努力的方向其实:如何从简单使用大模型得到建议,转变为让大模型深度的融入到工作流里面去。这样的一套agent一定是有很高价值的。至于数字员工这个阶段,还不是特别成熟,可以让其他大厂和学界先多试一下作者:朱一鸣,锤子

Waytoagi 共学 -大模型在 B 端场景的应用

1.如何交互(目前的人机协同模式是什么样)?之前很多人都说到大模型可能会有3种交互模型模式一:以人为主导,大模型提供建议(copilot阶段)像一个副驾驶,开车的时候给你提供建议,但是决定权还是在你手上模式二:人和大模型协同工作,合作完成同一个工作(embedding阶段)在实际的工作场景中,有一些小的环节可以让大模型来完成,从整个工作流程的角度来看这样确确实实的嵌入到我们的工作中,提高的效率模式三:人指挥大模型工作(数字员工阶段)这个阶段目前看来,非常少见。大模型还不能完全独立于人来完成某一个非常具体的工作。可能是一个工程上的问题,也有可能是大模型本身能力欠缺导致。个人观点:当下最应该努力的方向其实:如何从简单使用大模型得到建议,转变为让大模型深度的融入到工作流里面去。这样的一套agent一定是有很高价值的。至于数字员工这个阶段,还不是特别成熟,可以让其他大厂和学界先多试一下

智变时代 / 全面理解机器智能与生成式 AI 加速的新工业革命

每一次平台型技术的出现,都会催生出新的人机交互方式,个人电脑时代的鼠标与键盘,移动时代的触摸屏,现在是智能时代,我们一度认为ChatGPT的LUI(自然语言对话式界面)就是这个时代交互的终点,但事实并非如此,知名科幻电影HER中,那种人类与AI全感知无障碍的对话形式,才是我们想要的。“通过语音、文本和视觉进行推理非常重要,因为我们正在研究与机器交互的未来”,Muri Murati在今年五月十三日那场不到半小时的超快发布会上这样告诉大家。那天OpenAI发布了最新的模型GPT-4o,并且用了个很前卫的新概念,全模态模型-Omnimoda Model。GPT-4o是OpenAI之前所有技术的集大成者,新模型通过端到端的神经网络,把视觉、语音和文本数据混合训练,而不是用大家常用的工程手段,先各种数据先转换成文本后,交给LLM处理,然后再把输出的文本转换成对应的媒体形式。这样,GPT-4o对音频输入的平均反应时间为300毫秒,与人类对话的反应时间相似;而且直接拿音频数据来训练的好处就是模型能从数据中感悟到人类表达的情绪、语调、风格等等,你能听到几乎真实的人类的声音,在一段演示中感觉连训练时的环境声音都给还原出来了。OpenAI并没有公开GPT-4o的任何技术细节,唯一的线索就是来自他们内部模型炼丹师的一篇博客,项目名是AudioLM,2023年中启动,目标是用端到端的方式扩大语音模型的能力。

Others are asking
有什么着重于「交互」的人机交互的作品设计方案可以参考
目前暂时没有关于着重于“交互”的人机交互作品设计方案的相关内容可供参考。但一般来说,一个好的着重于交互的人机交互作品设计方案通常会考虑以下几个方面: 1. 明确用户需求和目标,深入了解用户群体的特点和行为习惯。 2. 设计直观简洁的界面,确保用户能够轻松理解和操作。 3. 提供及时有效的反馈机制,让用户清楚知道自己的操作结果。 4. 注重多模态交互,如结合语音、手势、触摸等多种交互方式。 5. 进行用户测试和迭代优化,不断改进交互体验。
2024-10-26
人机交互
人机交互方面的知识如下: 具身智能:是人工智能的一个子领域,强调智能体通过与物理世界或虚拟环境的直接交互来展现智能。其核心在于智能体的“身体”或“形态”,涉及多个学科,在机器人、虚拟现实等领域有广泛应用,但仍面临诸多挑战。 AI 与人的协同关系:生成式 AI 的人机协同分为 Embedding(嵌入式)、Copilot(副驾驶)、Agent(智能代理)3 种产品设计模式,在不同模式下,人与 AI 的协作流程有所差异。 大模型在 B 端场景的交互模式:包括以人为主导,大模型提供建议(copilot 阶段);人和大模型协同工作(embedding 阶段);人指挥大模型工作(数字员工阶段)。当下应努力让大模型深度融入工作流,数字员工阶段尚不成熟。
2024-10-08
人机交互
人机交互方面的知识如下: 具身智能:是人工智能的一个子领域,强调智能体通过与物理世界或虚拟环境的直接交互来发展和展现智能。其核心在于智能体的“身体”或“形态”,涉及多个学科,在机器人、虚拟现实等领域有广泛应用,但仍面临诸多挑战。 AI 与人的协同关系:生成式 AI 的人机协同分为 Embedding(嵌入式)、Copilot(副驾驶)、Agent(智能代理)3 种产品设计模式,不同模式下人与 AI 的协作流程有所差异。 大模型在 B 端场景的交互模式:包括以人为主导,大模型提供建议(copilot 阶段);人和大模型协同工作,合作完成同一个工作(embedding 阶段);人指挥大模型工作(数字员工阶段)。当下应努力让大模型深度融入工作流,数字员工阶段尚不成熟。
2024-10-08
你使用了哪些大模型
以下是关于大模型的相关信息: 大模型的定义:大模型的“大”指用于表达 token 之间关系的参数多,主要是模型中的权重(weight)与偏置(bias),例如 GPT3 拥有 1750 亿参数。以 Transform 为代表的大模型采用自注意力(Selfattention)机制来学习不同 token 之间的依赖关系,生成高质量 embedding。数字化便于计算机处理,为让计算机理解 Token 之间的联系,需把 Token 表示成稠密矩阵向量,这个过程称为 embedding,常见算法有基于统计的 Word2Vec、GloVe,基于深度网络的 CNN、RNN/LSTM,基于神经网络的 BERT、Doc2Vec 等。 国内部分大模型: 北京:百度(文心一言)https://wenxin.baidu.com 、抖音(云雀大模型)https://www.doubao.com 、智谱 AI(GLM 大模型)https://chatglm.cn 、中科院(紫东太初大模型)https://xihe.mindspore.cn 、百川智能(百川大模型)https://www.baichuanai.com/ 上海:商汤(日日新大模型)https://www.sensetime.com/ 、MiniMax(ABAB 大模型)https://api.minimax.chat 、上海人工智能实验室(书生通用大模型)https://internai.org.cn 部分大模型的特点:在聊天状态下能生成 Markdown 格式的有智谱清言、商量 Sensechat、MiniMax;目前不能进行自然语言交流的有昇思、书生;受限制使用的有 MiniMax;特色功能方面,昇思能生图,MiniMax 能语音合成。 大模型的动手实验:由于作者使用的是 macOS 系统,因此采用 GGML 量化后的模型。比较有名的相关项目有 ggerganov/llama.cpp:Port of Facebook's LLaMA model in C/C++ 中下载模型,3G 到 7G 不等。此外,llama.cpp 还提供了 WebUI 供用户使用,首先启动 server,它默认监听 8080 端口,打开浏览器就可以对话。
2025-02-20
养老场景实时健康监测与风险预警在技术上怎么实现,用AI大模型实现,请给出一个可行的方案
以下是一个利用 AI 大模型实现养老场景实时健康监测与风险预警的可行方案: 首先,需要明确相关的概念和技术名词。AI 即人工智能,机器学习是电脑找规律学习,包括监督学习、无监督学习和强化学习。监督学习是基于有标签的训练数据,学习输入和输出之间的映射关系,包括分类和回归。无监督学习是在无标签数据中自主发现规律,例如聚类。强化学习是从反馈中学习以最大化奖励或最小化损失,类似训小狗。深度学习参照人脑,具有神经网络和神经元,因层数多被称为深度,神经网络可用于多种学习方式。生成式 AI 能生成文本、图片、音频、视频等内容形式,LLM 是大语言模型,生成图像的扩散模型不属于大语言模型,像谷歌的 BERT 模型可用于语义理解,如上下文理解、情感分析、文本分类。 在技术里程碑方面,2017 年 6 月谷歌团队发表的《Attention is All You Need》论文首次提出了 Transformer 模型,其完全基于自注意力机制处理序列数据,不依赖循环神经网络或卷积神经网络。 对于养老场景的实时健康监测与风险预警,可利用传感器收集老人的生理数据,如心率、血压、血糖等。这些数据通过物联网传输到服务器,利用深度学习算法对数据进行分析和处理。例如,使用基于 Transformer 模型的大模型,对历史健康数据和当前实时数据进行学习和分析,建立老人的健康模型。通过与正常健康指标的对比,及时发现异常情况,并结合无监督学习中的聚类算法,对不同健康状况的老人进行分类,以便提供个性化的预警和建议。同时,利用强化学习不断优化模型的预警准确性和及时性。 总之,通过整合传感器数据采集、物联网传输、深度学习算法分析和模型优化等环节,借助 AI 大模型实现养老场景的实时健康监测与风险预警。
2025-02-20
大模型和小模型区别是什么?为什么大模型有幻觉,小模型没有?
大模型和小模型的区别主要体现在以下几个方面: 1. 规模和参数:大模型通常具有更多的参数和更复杂的架构,而小模型相对规模较小。 2. 能力和性能:在处理自然语言等任务时,大模型往往表现出更强的能力,例如更准确的理解和生成能力。 3. 应用场景:大模型适用于通用的、复杂的任务,小模型则更适合特定的、简单的场景。 关于大模型存在幻觉而小模型没有的原因: 1. 工作原理:大模型基于统计模型预测生成内容,通过训练数据猜测下一个输出结果,可能因错误数据导致给出错误答案。 2. 数据局限性:大模型的知识完全源于其训练数据,可能存在过时、不准确或不完整的信息。 3. 不可预测性:大模型的输出结果具有不可预测性,而小模型相对更稳定和可预测。
2025-02-20
大模型讲解
大模型是指输入大量语料,使计算机获得类似人类“思考”能力,能进行文本生成、推理问答、对话、文档摘要等工作。 大模型的训练和使用过程可以用“上学参加工作”来类比: 1. 找学校:训练大模型需要大量计算,GPU 更合适,只有购买得起大量 GPU 的才有资本训练。 2. 确定教材:大模型需要大量数据,几千亿序列(Token)的输入基本是标配。 3. 找老师:选择合适算法让大模型更好理解 Token 之间的关系。 4. 就业指导:为让大模型更好胜任某一行业,需要进行微调(fine tuning)指导。 5. 搬砖:就业指导完成后,进行如翻译、问答等工作,在大模型里称之为推导(infer)。 在 LLM 中,Token 被视为模型处理和生成的文本单位,会被数字化形成词汇表,便于计算机处理。为让计算机理解 Token 之间的联系,还需把 Token 表示成稠密矩阵向量,这个过程称为 embedding,常见算法有基于统计的 Word2Vec、GloVe,基于深度网络的 CNN、RNN/LSTM,基于神经网络的 BERT、Doc2Vec 等。以 Transform 为代表的大模型采用自注意力(Selfattention)机制来学习不同 token 之间的依赖关系,生成高质量 embedding。大模型的“大”在于用于表达 token 之间关系的参数多,主要是模型中的权重(weight)与偏置(bias)。 从整体分层的角度来看,大模型整体架构分为以下几层: 1. 基础层:为大模型提供硬件支撑、数据支持,如 A100、数据服务器等。 2. 数据层:包括静态的知识库和动态的三方数据集。 3. 模型层:有 LLm(大语言模型,如 GPT,一般使用 transformer 算法实现)或多模态模型(如文生图、图生图等模型,训练数据与 llm 不同,用图文或声音等多模态数据集)。 4. 平台层:如大模型的评测体系、langchain 平台等,提供模型与应用间的组成部分。 5. 表现层:即应用层,是用户实际看到的地方。
2025-02-20
生成3d模型可以让模型动起来吗?
生成 3D 模型后是可以让模型动起来的。例如,通过以下工具和流程可以实现: 工具链:Midjourney(生成等距图像)→Trellis(图像转 3D 模型)→Browser Lab(浏览器内 3D 编辑器)。 步骤: 使用 Midjourney 生成等距 3D 场景,提示词示例:3D isometric bedroom with a bed and desk。(DALLE 3 也可测试) 用 Trellis 工具将图像转为 3D 模型(支持 Tripo 3D 等其他工具)。工具地址: 下载生成的 3D 模型(GLB 文件或高斯分布文件),然后导入 Browser Lab 编辑器中进一步编辑。编辑器地址: 结合可灵 AI、Hailuo AI、Runway 等工具可让场景中的人物动起来。 对于文物雕塑上色,可使用 runway 让固有想法的物体变得动态,runway gen3 的 V2V 可以让物体重新建模、重新上色,再把背景上个色,传到剪映,加上 BGM。 先上传图片,运用提示词,只要让物体动起来就行,一次可能不成功,可以多次抽卡(分够的话)。 生成好的视频的左下方,点击“Reuse”,再点击上方出现的“Video to Video”,视频就会跳转到我们的工作台。 再在下方输入提示词“3D modeling with vibrant colors”等待生成。 再重复上面一个步骤,把提示词换成“Changing the background to the universe,the body emits light”。 最后导入剪映,按照自己喜欢的风格,剪成一个小短片。 另外,可以用即梦 S2.0(或其他可以动效的工具)出动态视频,在剪映提前转成 9:16 或 16:9 的大小,否则 runway 会裁剪尺寸。
2025-02-20
你用的是什么ai模型
以下是关于所使用的 AI 模型的相关信息: 我使用的是 GPT4,其他模型的效果不太好。如果您使用 GPT4 总结的内容质量不行,可以点击“重试”按钮让其重新总结。 默认情况下,Cursor Chat 将 OpenAI 的 GPT4(具体为 GPT4Turbo 实例)用于其 AI 模型,您可以通过选择喜欢的 AI 模型,且为 Chat 选择的模型会保存供未来使用。 有实例中使用的是阿里千问模型。
2025-02-20