Navigate to WaytoAGI Wiki →
Home/Question List/Question Detail

人机交互模型

Answer

目前大模型在人机交互方面可能存在以下三种模式:

  1. 以人为主导,大模型提供建议(copilot 阶段):如同副驾驶,在人做决策时提供建议,决定权在人手中。
  2. 人和大模型协同工作,合作完成同一个工作(embedding 阶段):在实际工作场景中,部分小环节可由大模型完成,能提高工作效率。
  3. 人指挥大模型工作(数字员工阶段):此阶段较为少见,大模型目前还不能完全独立完成具体工作,可能是工程问题或自身能力欠缺所致。

个人观点认为,当下应努力将大模型从简单提供建议转变为深度融入工作流,而数字员工阶段尚不成熟,可由其他大厂和学界先行尝试。

此外,每一次平台型技术的出现都会催生新的人机交互方式。如在智能时代,我们曾认为 ChatGPT 的 LUI(自然语言对话式界面)是交互终点,但并非如此。知名科幻电影 HER 中人类与 AI 全感知无障碍的对话形式才是我们所期望的。

OpenAI 发布的 GPT-4o 是其之前所有技术的集大成者,采用新的全模态模型-Omnimoda Model。通过端到端的神经网络,将视觉、语音和文本数据混合训练,而非常见的先转换为文本再处理的工程手段。GPT-4o 对音频输入的平均反应时间为 300 毫秒,与人类相似,且能从音频数据中感悟人类的情绪、语调、风格等,甚至还原训练时的环境声音。但 OpenAI 未公开 GPT-4o 的技术细节,唯一线索来自内部模型炼丹师的一篇博客,项目名是 AudioLM,2023 年中启动,目标是用端到端的方式扩大语音模型的能力。

Content generated by AI large model, please carefully verify (powered by aily)

References

Waytoagi 共学 -大模型在 B 端场景的应用

1.如何交互(目前的人机协同模式是什么样)?之前很多人都说到大模型可能会有3种交互模型模式一:以人为主导,大模型提供建议(copilot阶段)像一个副驾驶,开车的时候给你提供建议,但是决定权还是在你手上模式二:人和大模型协同工作,合作完成同一个工作(embedding阶段)在实际的工作场景中,有一些小的环节可以让大模型来完成,从整个工作流程的角度来看这样确确实实的嵌入到我们的工作中,提高的效率模式三:人指挥大模型工作(数字员工阶段)这个阶段目前看来,非常少见。大模型还不能完全独立于人来完成某一个非常具体的工作。可能是一个工程上的问题,也有可能是大模型本身能力欠缺导致。个人观点:当下最应该努力的方向其实:如何从简单使用大模型得到建议,转变为让大模型深度的融入到工作流里面去。这样的一套agent一定是有很高价值的。至于数字员工这个阶段,还不是特别成熟,可以让其他大厂和学界先多试一下作者:朱一鸣,锤子

Waytoagi 共学 -大模型在 B 端场景的应用

1.如何交互(目前的人机协同模式是什么样)?之前很多人都说到大模型可能会有3种交互模型模式一:以人为主导,大模型提供建议(copilot阶段)像一个副驾驶,开车的时候给你提供建议,但是决定权还是在你手上模式二:人和大模型协同工作,合作完成同一个工作(embedding阶段)在实际的工作场景中,有一些小的环节可以让大模型来完成,从整个工作流程的角度来看这样确确实实的嵌入到我们的工作中,提高的效率模式三:人指挥大模型工作(数字员工阶段)这个阶段目前看来,非常少见。大模型还不能完全独立于人来完成某一个非常具体的工作。可能是一个工程上的问题,也有可能是大模型本身能力欠缺导致。个人观点:当下最应该努力的方向其实:如何从简单使用大模型得到建议,转变为让大模型深度的融入到工作流里面去。这样的一套agent一定是有很高价值的。至于数字员工这个阶段,还不是特别成熟,可以让其他大厂和学界先多试一下

智变时代 / 全面理解机器智能与生成式 AI 加速的新工业革命

每一次平台型技术的出现,都会催生出新的人机交互方式,个人电脑时代的鼠标与键盘,移动时代的触摸屏,现在是智能时代,我们一度认为ChatGPT的LUI(自然语言对话式界面)就是这个时代交互的终点,但事实并非如此,知名科幻电影HER中,那种人类与AI全感知无障碍的对话形式,才是我们想要的。“通过语音、文本和视觉进行推理非常重要,因为我们正在研究与机器交互的未来”,Muri Murati在今年五月十三日那场不到半小时的超快发布会上这样告诉大家。那天OpenAI发布了最新的模型GPT-4o,并且用了个很前卫的新概念,全模态模型-Omnimoda Model。GPT-4o是OpenAI之前所有技术的集大成者,新模型通过端到端的神经网络,把视觉、语音和文本数据混合训练,而不是用大家常用的工程手段,先各种数据先转换成文本后,交给LLM处理,然后再把输出的文本转换成对应的媒体形式。这样,GPT-4o对音频输入的平均反应时间为300毫秒,与人类对话的反应时间相似;而且直接拿音频数据来训练的好处就是模型能从数据中感悟到人类表达的情绪、语调、风格等等,你能听到几乎真实的人类的声音,在一段演示中感觉连训练时的环境声音都给还原出来了。OpenAI并没有公开GPT-4o的任何技术细节,唯一的线索就是来自他们内部模型炼丹师的一篇博客,项目名是AudioLM,2023年中启动,目标是用端到端的方式扩大语音模型的能力。

Others are asking
有什么着重于「交互」的人机交互的作品设计方案可以参考
目前暂时没有关于着重于“交互”的人机交互作品设计方案的相关内容可供参考。但一般来说,一个好的着重于交互的人机交互作品设计方案通常会考虑以下几个方面: 1. 明确用户需求和目标,深入了解用户群体的特点和行为习惯。 2. 设计直观简洁的界面,确保用户能够轻松理解和操作。 3. 提供及时有效的反馈机制,让用户清楚知道自己的操作结果。 4. 注重多模态交互,如结合语音、手势、触摸等多种交互方式。 5. 进行用户测试和迭代优化,不断改进交互体验。
2024-10-26
人机交互
人机交互方面的知识如下: 具身智能:是人工智能的一个子领域,强调智能体通过与物理世界或虚拟环境的直接交互来展现智能。其核心在于智能体的“身体”或“形态”,涉及多个学科,在机器人、虚拟现实等领域有广泛应用,但仍面临诸多挑战。 AI 与人的协同关系:生成式 AI 的人机协同分为 Embedding(嵌入式)、Copilot(副驾驶)、Agent(智能代理)3 种产品设计模式,在不同模式下,人与 AI 的协作流程有所差异。 大模型在 B 端场景的交互模式:包括以人为主导,大模型提供建议(copilot 阶段);人和大模型协同工作(embedding 阶段);人指挥大模型工作(数字员工阶段)。当下应努力让大模型深度融入工作流,数字员工阶段尚不成熟。
2024-10-08
人机交互
人机交互方面的知识如下: 具身智能:是人工智能的一个子领域,强调智能体通过与物理世界或虚拟环境的直接交互来发展和展现智能。其核心在于智能体的“身体”或“形态”,涉及多个学科,在机器人、虚拟现实等领域有广泛应用,但仍面临诸多挑战。 AI 与人的协同关系:生成式 AI 的人机协同分为 Embedding(嵌入式)、Copilot(副驾驶)、Agent(智能代理)3 种产品设计模式,不同模式下人与 AI 的协作流程有所差异。 大模型在 B 端场景的交互模式:包括以人为主导,大模型提供建议(copilot 阶段);人和大模型协同工作,合作完成同一个工作(embedding 阶段);人指挥大模型工作(数字员工阶段)。当下应努力让大模型深度融入工作流,数字员工阶段尚不成熟。
2024-10-08
可以改变视频人物说话内容 的模型
以下是一些可以改变视频人物说话内容的模型及相关信息: 解梦新出的 p 模型支持人物多动作和变焦,易改变画风;s 模型生成速度快、积分消耗少,能保持原始画风但语义理解有限。 吉梦的对口型技术支持文本朗诵和本地配音,能根据输入生成人物开口讲话的视频,但有上传人物长相等限制。 Runway 的 GN3 模型支持上传视频并转换风格,可用于实现多元宇宙等风格穿梭的片子,也能将简单场景转换为难以拍摄的场景。 在角色生视频方面: 角色生视频突破关键帧限制,不再依赖关键帧输入,而是直接传入角色本身,可更灵活生成视频。 支持多角色参考生成创意视频,可上传多张图,最多三张,将人物、衣服、背景等元素融合生成视频。 不同工具的角色生视频效果有所不同,如 Runway 的 x one 在身体、头部、眼神动态上表现更好。 角色生视频的应用场景包括规避机器人念台词的尴尬瞬间,让机器人有更丰富的表情和神态。未来视频生成将摆脱纯关键帧方式,采用多模态信息输入,如定义角色和场景的三视图等。 此外,谷歌 Gemini 模型在处理视频相关问题时,可通过修改提示来改变模型的行为。
2025-01-16
2024大模型典型应用案例集
以下是 2024 大模型的一些典型应用案例及相关信息: 《2024 大模型典型示范应用案例集》汇集了 97 个优秀案例,展示了大模型技术在教育、医疗、金融、政务等多个行业和领域的应用。案例由阿里云、百度、华为等领先企业实施,上海成为应用落地的热点地区,大中型企业是主要试验场。AI 智能体和知识库成为提升大模型落地实效的关键手段。 在智能终端行业,中国超半数手机厂商都在使用文心大模型,包括三星、荣耀、vivo、OPPO、小米等主流手机品牌;上汽大众、吉利汽车、蔚来汽车、长安汽车等十余家车企已接入百度文心大模型。 整体来看,在主流大模型厂商中,百度表现突出,拿下最关键的中标项目数量、中标金额两项第一。截至 11 月,其文心大模型日均调用量超过 15 亿次,千帆平台帮助客户精调了 3.3 万个模型、开发了 77 万个企业应用。今年三季度财报披露,百度智能云营收达 49 亿元,同比增长 11%,其增长主要由互联网、教育、金融等行业对模型训练和推理的高需求带动。 企业想要真正将大模型在自身场景落地,需要具备构建算力、数据治理、模型训练、场景落实、应用搭建、持续运营、安全合规等整套能力。 相关报告: 《信达证券:AI 行业设计领域专题报告:Adobe AI 功能覆盖全面,Canva、美图等力争上游》 《中国信通院:大模型基准测试体系研究报告(2024 年)》 《埃森哲:人工智能行业:2024 在生成式人工智能时代重塑工作、劳动力和员工》 此外,还有一些相关活动,如: 2024 年是国内大模型技术加速落地的关键年份,各大厂商如百度、阿里、字节等在 AI 大模型领域展开激烈竞争。百度凭借 40 个中标项目和 2.74 亿元中标金额在行业中处于领先地位。尤其在金融、智能终端等行业,百度文心大模型的应用广泛,表现亮眼。 🏮「非遗贺春」魔多蛇年春节 AI 模型创作大赛,大赛时间 2024 年 12 月 24 日2025 年 1 月 15 日。大赛奖池【¥12000】现金奖励+官方高含金量荣誉证书+会员与算力激励+流量激励。双赛道同时开启,赛道一【春节】+赛道二【爱非遗 AI 传承】。本次活动由浙江省非遗保护中心(浙江省非遗馆)指导×浙江省非遗保护基金会主办×魔多 AI 联合承办,由提供社区传播支持。
2025-01-16
个人知识库与大模型如何结合
个人知识库与大模型的结合是一个关键问题。目前大模型在通用知识方面表现出色,但对专业领域知识了解有限。将两者结合有以下 5 种方法: 1. 重新训练:使用私域数据重新训练大模型。 2. 微调:利用私有数据对大模型进行 finetuning。 3. RAG:将知识库里的知识搜索送进大模型。 4. 关键词工程:写好提示词。 5. 加长 Context:当 Context 能无限长时,理论上可将个人知识和记忆都 prefill 到 Context 里。 对于哪种方法最有希望,学术界存在分歧。做深度学习的人偏向于用 RAG,而以前做过搜索的人则偏向于用 Long Context。有人认为最终会采用仿生的方法,即拥有一个足够长的 Context,例如谷歌的一篇论文 infinite context transform 提到,不需要把 Context 做得太长,可以将以前可能需要被扔掉的 token 深度压缩后依然保存在 Context 里。 此外,运行一个几百亿个参数的大模型,存算一体的架构是最佳选择,因为能避免所有数据的搬运。使用存算一体的方式也是未来 AI 硬件的发展趋势。
2025-01-16
总结一下大模型数据发展的最新趋势,基于历史的事实和数据总结23年以来发生了什么,25年可能发生什么
以下是关于大模型数据发展趋势的总结: 2023 年以来: 大量创新大模型架构涌现,尝试在保留 Transformer 优势的同时解决其算力开销太高的问题,对 Transformer 的绝对统治地位形成有力挑战。 多种有代表性的技术路径出现,如类循环神经网络模型(以 RWKV 为代表)、状态空间模型(以 Mamba 为代表)、层次化卷积模型(以 UniRepLKNet 为代表)、多尺度保持机制模型(以 RetNet 为代表)、液体神经网络模型(以 LFM 为代表)等。这些模型在不同程度保留 Transformer 架构优势的基础上,结合 RNN、CNN 等思想做出创新发展,使得大模型架构呈现出日益明显的混合趋势,更多创新架构具备“博采众家之长”的特点。 对于 2025 年的预测,由于目前的信息有限,难以给出确切的预测。但可能会在现有创新架构的基础上进一步优化和融合,出现更高效、更强大且更具通用性的大模型架构,同时可能在技术应用和行业落地方面取得更显著的成果。
2025-01-16
模型下载
以下是关于模型下载的相关信息: ComfyUI BrushNet 模型下载: 原项目:https://tencentarc.github.io/BrushNet/ 插件地址:https://github.com/kijai/ComfyUIBrushNetWrapper 模型下载:https://huggingface.co/Kijai/BrushNetfp16/tree/main 第一次运行会自动下载需要的模型,如果使用 ComfyUIBrushNetWrapper 节点,模型将自动从此处下载:https://huggingface.co/Kijai/BrushNetfp16/tree/main 到 ComfyUI/models/brushnet。 因环境问题,也可手动下载后放在这个文件夹里面。另外,BrushNet 提供了三个模型,个人测试下来,random 这个效果比较好。 SD 模型下载: 常用的模型网站有: 下载模型后需要将之放置在指定的目录下,不同类型的模型放置目录不同: 大模型(Ckpt):放入 models\\Stablediffusion VAE 模型:一些大模型需要配合 vae 使用,对应的 vae 同样放置在 models\\Stablediffusion 或 models\\VAE 目录,然后在 webui 的设置栏目选择。 Lora/LoHA/LoCon 模型:放入 extensions\\sdwebuiadditionalnetworks\\models\\lora,也可以在 models/Lora 目录 Embedding 模型:放入 embeddings 目录
2025-01-14
Cursor什么添加模型
在 Cursor 中添加模型的方法如下: 1. 使用光标聊天、Ctrl/⌘K 和终端 Ctrl/⌘K,您可以轻松地在您选择的不同模型之间切换。 2. 在 AI 输入框下方,您将看到一个下拉列表,允许您选择要使用的模型。默认情况下,Cursor 已准备好使用以下模型: cursorsmall:cursorsmall 是 Cursor 的自定义模型,它不如 GPT4 智能,但速度更快,用户可以无限制地访问它。 3. 您可以在 Cursor Settings>Models>Model Names 下添加其他模型。 此外,有人通过接入更多模型如 Qwen2.5Coder、Llama3.3、deepseek v3、gemini2.0flash 等对 Cursor 进行配置,但接入再多的模型也无法完全填平 Cursor 免费版和 Cursor Pro 的差距。
2025-01-14