首页/问答列表/问答详情

大模型技术和应用动态

回答

以下是关于大模型技术和应用动态的相关信息：

大模型的背景和趋势：

随着大模型技术的成熟和规模增大，其为 AI Agent 提供强大能力，有望构建具备自主思考、决策和执行能力的智能体，广泛应用于多个行业和领域。

大模型的热门应用场景：

游戏开发和互动体验：用于创建游戏中的角色对话、故事情节生成和增强玩家的沉浸式体验。
医疗和健康咨询：理解和回答医疗相关问题，提供初步的健康建议和医疗信息查询服务。
法律和合规咨询：帮助解读法律文件，提供合规建议，降低法律服务门槛。

大模型中的 Embedding 技术：

Embedding 是一个浮点数的向量（列表），两个向量之间的距离度量它们的相关性，小的距离表示高相关性，大的距离表示低相关性。
Embedding 共有词、句子、文档、图像等分类。
实战方面，可从数据集中获取 Embedding 结果，并保存为 csv 文件。参考 OpenAI 官网最新文档，加上个人测试阶段的问题和代码注释。进阶到企业级应用开发的大模型技术还会涉及利用开源的 Embedding 模型、向量数据库去做检索增强生成（RAG），以及购买 GPU 服务器去基于开源大模型搭建企业级大模型项目。

需要注意的是，随着大模型的普及，也需关注其在隐私、安全和伦理方面的挑战。同时，部分内容由 AI 大模型生成，请仔细甄别。

内容由 AI 大模型生成，请仔细甄别（powered by aily）

参考资料

开发：AI应用大模型商业化落地现状与思考

首先，我们先来看大模型的背景和发展趋势。关于AI的演进历程，很多媒体包括各类研究资料都已经做过详细的介绍，相信今天在座的各位对AI的基本情况都已有所了解，因此我不会过多赘述AI的演进历程。（有兴趣的小伙伴可以多从公开资料中查找一下~）我们的重点将放在大模型当前的应用能力上，随着大模型技术的愈发成熟，规模增大，大模型为AI Agent()提供强大能力。Agent+大模型将有望构建具备自主思考、决策和执行能力的智能体，进一步提升大模型的应用能力，广泛应用于多个行业和领域。

问：现在大模型有什么比较火的应用场景

游戏开发和互动体验：大模型可以用于创建游戏中的角色对话、故事情节生成和增强玩家的沉浸式体验。医疗和健康咨询：大模型能够理解和回答医疗相关的问题，提供初步的健康建议和医疗信息查询服务。法律和合规咨询：大模型可以帮助解读法律文件，提供合规建议，降低法律服务的门槛。这些应用场景只是大模型潜力的一部分体现，随着技术的进步和模型的优化，大模型在未来可能会拓展到更多的领域和场景中。同时，随着大模型的普及，也需要注意其在隐私、安全和伦理方面的挑战。内容由AI大模型生成，请仔细甄别。

认识大模型 Embedding 技术加实战

我们认识了Embedding（嵌入）是一个浮点数的向量（列表），两个向量之间的距离度量它们的相关性，小的距离表示高相关性，大的距离表示低相关性。知道了Embedding共有：词、句子、文档、图像等分类。还分析了Embedding在大模型中的价值。最后是Embedding的实战部分：从数据集中获取Embedding结果，并保存为csv文件。最后，本示例中的实战代码，参考的是官方最新文档的内容，加上个人测试阶段的遇到的问题、代码注释等OpenAI官网文档链接：https://platform.openai.com/docs/introduction大模型技术，除了在OpenAI官网能看到的：Embedding、Function Call和Fune Tuning等。进阶到企业级应用开发的大模型技术还会涉及到：利用开源的Embedding模型、向量数据库去做检索增强生成（RAG），以及购买GPU服务器去基于开源大模型搭建企业级大模型项目。

其他人在问

国内外好用的图生视频模型

以下是一些国内外好用的图生视频模型：可灵（国内，免费）网址：https://klingai.kuaishou.com/ 支持文生视频、图生视频。支持图生视频首尾帧功能。提示词可使用中文。文生视频支持正向提示词、反向提示词、运镜控制、时长选择（5s、10s），支持 16:9、9:16、1:1 尺寸。图生视频除了不可运镜控制以外，其他跟文生视频基本相同。默认生成 5s 的视频。 ETNA（国内）网址：https://etna.7volcanoes.com/ 由七火山科技开发的文生视频 AI 模型。可以根据用户简短的文本描述生成相应的视频内容。生成的视频长度在 8 15 秒，画质可达到 4K，最高 38402160，画面细腻逼真，帧率 60fps。文生视频，支持中文，时空理解。关于可灵的文生视频效果，测试者 Austin 周安鑫进行了以下测试： 1. 场景识别：包括室内和室外，如客厅的沙发、液晶电视、漂亮的波斯猫、超现实主义的蜿蜒河流、茂密森林、灿烂花海、碧绿草坪等。 2. 物体识别：涵盖静态和动态物体，如水晶球、跳动的火焰、翱翔的飞鸟、闪烁的流星、飞溅的水珠等。 3. 人物识别：包括面部和姿态，如一个人笑容灿烂、一个人惊恐愤怒，一位芭蕾舞女孩在冰面上跳舞等。 4. 动作识别：包含基本和复杂动作，如短跑运动员快速奔跑、赛车手驾驶跑车激烈漂移等。 5. 事件检测：有简单和复杂事件，如一位帅哥在喝水、外星文明和地球进行星际大战等。 6. 环境变化：涉及光线和天气，如奇幻的极光舞动变幻、城市写字楼灯光忽明忽暗、闪电交加、乌云密布、台风、大雨等。 7. 多对象场景：包括单一和多对象场景，如 1 个飞行员驾驶战斗机翱翔太空、海军指挥航母战斗群展开激烈战斗等。 8. 特殊场景：有遮挡和非标准场景，如城市大雾遮挡摩天大楼、一边是神秘海底世界，一边是梦幻糖果屋。 9. 细节检测：包含小物体和微表情，如崭新的苹果电脑屏幕上播放电影、瞳孔收缩、脸颊泛红、嘴唇微微颤抖。

目前在具备图像 OCR 能力的大模型方面，一些较为知名和好用的包括百度的文心大模型、阿里云的通义大模型等。但大模型的性能和适用场景可能会因具体需求和使用场景的不同而有所差异。您可以根据自己的具体需求进一步评估和选择。

2024-09-19

AI 大模型命名带有-instruct的含义

AI 大模型中带有“instruct”通常与指令微调相关。在大模型的训练过程中，指令微调是其中一个重要阶段。此阶段模型被训练以理解并执行具体指令，例如翻译文本等，从而能够回答问题。指令微调阶段输入的内容通常包括三个部分，如“Instruct：请你翻译下面这段话”“Input：一段英文”“Output：一段中文”。通过指令微调，模型能够更好地按照人类的期望和具体要求进行输出。

2024-09-19