Navigate to WaytoAGI Wiki →
Home/Question List/Question Detail

吴恩达大模型教程

Answer

以下是一些与吴恩达大模型相关的教程和资源:

大语言模型分为基础 LLM 和指令微调 LLM 两类。基础 LLM 经过训练可根据文本预测下一个词,指令微调 LLM 经过训练能遵循指令,为让系统更有帮助并遵循指令,通常会使用人类反馈强化学习(RLHF)技术优化。提示的关键原则包括尽可能保证下达的指令“清晰、没有歧义”,给大模型思考的时间以及足够的时间去完成任务。

Content generated by AI large model, please carefully verify (powered by aily)

References

LLM开源中文大语言模型及数据集集合

面向开发者的LLM入门课程:地址:[https://github.com/datawhalechina/prompt-engineering-for-developers](https://github.com/datawhalechina/prompt-engineering-for-developers)简介:一个中文版的大模型入门教程,围绕吴恩达老师的大模型系列课程展开,主要包括:吴恩达《ChatGPT Prompt Engineering for Developers》课程中文版,吴恩达《Building Systems with the ChatGPT API》课程中文版,吴恩达《LangChain for LLM Application Development》课程中文版等。提示工程指南:地址:[https://www.promptingguide.ai/zh](https://www.promptingguide.ai/zh)简介:该项目基于对大语言模型的浓厚兴趣,编写了这份全新的提示工程指南,介绍了大语言模型相关的论文研究、学习指南、模型、讲座、参考资料、大语言模型能力以及与其他与提示工程相关的工具。LangChain🦜️🔗中文网,跟着LangChain一起学LLM/GPT开发:地址:[https://www.langchain.asia](https://www.langchain.asia/)简介:Langchain的中文文档,由是两个在LLM创业者维护,希望帮助到从刚进入AI应用开发的朋友们。LLMs九层妖塔:地址:[https://github.com/km1994/LLMsNineStoryDemonTower](https://github.com/km1994/LLMsNineStoryDemonTower)简介:ChatGLM、Chinese-LLaMA-Alpaca、MiniGPT-4、FastChat、LLaMA、gpt4all等实战与经验。

目录:吴恩达讲Prompt

https://github.com/zard1152/deepLearningAI/wiki[ChatGPT提示工程中文翻译版(仅用于学习分享)](https://fieghf3pzz6.feishu.cn/wiki/MazPw5eo5iW95gkvWAhcSTxdnSc)[openai官方《提示词工程课》超详细中文笔记](https://ec26ubh65w.feishu.cn/docx/PuULdQP3wojyZYxn157cnsDXnqe)[GitHub-Kevin-free/chatgpt-prompt-engineering-for-developers:吴恩达《ChatGPT Prompt Engineering for De](https://github.com/Kevin-free/chatgpt-prompt-engineering-for-developers)[heading2]介绍[content]有两类大语言模型:基础LLM:基础大型语言模型经过训练,可以根据文本预测下一个词。训练数据通常基于大量来自互联网和其他来源的数据,以推断出最有可能出现的下一个词。指令微调LLM:指令调优的大型语言模型是当前大型语言模型研究和实践的主要发展方向。指令调优的大型语言模型经过训练,能够遵循指令。为了让系统更有帮助并遵循指令,通常会进一步使用一种名为人类反馈强化学习(RLHF)的技术来优化。因为指令调优的大型语言模型经过训练,更有助于提供有用的、无害的回答。[heading2]原则与技巧[content]两个提示的关键原则:1)原则1:尽可能保证下达的指令“清晰、没有歧义”2)原则2:给大模型思考的时间,以及足够的时间去完成任务

Coze 复刻:吴恩达开源的 AI 翻译项目,简单几步提升 AI 翻译质量

1.然后就是核心的反思优化的大模型节点,这里我们需要配置反思优化的提示词,告诉模型应该如何去思考和优化翻译结果,并将这些建议都提出来。提示词的设计非常关键,直接决定了反思优化的效果。我们可以继续参考项目给出的示例提示词,也可以根据自己的经验和需求进行改进。这里我就先参考示例提示词进行填写,具体分为两个提示词,如下:没有语言翻译特色的反思优化的提示词:有语言翻译特色的反思优化的提示词:1.接下来就是结合反思优化的建议后再翻译的大模型节点了,这里其实就是结合上述的反思优化的建议,再结合初始翻译的结果再次进行翻译,以此获得更好的翻译结果,如下图:相关提示词:1.最后我们就可以将优化过的翻译结果输出给结束节点了,这里我们可以选择输出的方式了,这里我选择了自定义的内容输出+流式传输来输出翻译后的结果,如下图:讲到这里,相信大家对如何在Coze上复刻吴恩达的AI翻译项目已经有了一个比较全面的了解。虽然整个过程涉及到不少配置和调试,但是在Coze的帮助下,一切都变得简单易行了。即使是零基础的小白,只要肯花点时间,也完全可以搭建出一个强大的AI翻译助手!当然,这里还有个功能是还没有复刻的,那就是分块处理,这个功能其实也是非常重要的,因为对于长文本的翻译,分块处理可以提高处理效率,更重要的是可以让模型在局部文本上进行更精细的优化,翻译质量可以进一步提升。这个进阶的功能,我就留到下次再和大家分享了,或者等你们熟悉了Coze平台后,自己去尝试实现也是可以的。

Others are asking
吴恩达系列课程
以下是关于吴恩达系列课程的相关信息: 面向开发者的 LLM 入门课程: 地址: 简介:一个中文版的大模型入门教程,围绕吴恩达老师的大模型系列课程展开,包括吴恩达《ChatGPT Prompt Engineering for Developers》课程中文版、《Building Systems with the ChatGPT API》课程中文版、《LangChain for LLM Application Development》课程中文版等。 提示工程指南: 地址: 简介:该项目基于对大语言模型的浓厚兴趣,编写了这份全新的提示工程指南,介绍了大语言模型相关的论文研究、学习指南、模型、讲座、参考资料、大语言模型能力以及与其他与提示工程相关的工具。 LangChain🦜️🔗中文网,跟着 LangChain 一起学 LLM/GPT 开发: 地址: 简介:Langchain 的中文文档,由两个在 LLM 创业者维护,希望帮助到刚进入 AI 应用开发的朋友们。 LLM 开源中文大语言模型及数据集集合中的 LLM 九层妖塔: 地址: 简介:ChatGLM、ChineseLLaMAAlpaca、MiniGPT4、FastChat、LLaMA、gpt4all 等实战与经验。 吴恩达讲 Prompt 相关课程: 谷歌/百度 AI 部门负责人吴恩达和 OpenAI 合作推出了免费的 Prompt Engineering(提示工程师)课程。课程主要内容是教您书写 AI 提示词,并且最后会教您利用 GPT 开发一个 AI 聊天机器人。 原版网址:https://www.deeplearning.ai/shortcourses/chatgptpromptengineeringfordevelopers/ B 站版本:【合集·AI Course哔哩哔哩】https://b23.tv/ATc4lX0 、https://b23.tv/lKSnMbB 翻译版本: 推荐直接使用 Jupyter 版本学习,效率更高:https://github.com/datawhalechina/promptengineeringfordevelopers/ 吴恩达和 Open AI 合作的提示工程课程一共 9 集全部已经翻译完成,并且改成了双语字幕,字幕文件也已经上传了。 视频下载地址:https://pan.quark.cn/s/77669b9a89d7 OpenAI 开源了教程:https://islinxu.github.io/promptengineeringnote/Introduction/index.html 纯文字版本: 2023 年 8 月 24 日历史更新(归档): 吴恩达最新的《》短课程上线,课程内容包括了解何时对 LLM 应用微调、准备数据以进行微调、根据您自己的数据训练和评估 LLM。 《》非常深入浅出地介绍了基于大语言模型的 AI Agents,从记忆检索到决策推理,再到行动顺序的选择,真实展现了 Agent 的智能化进程。 在》,用一张清晰、具有美感的图片展示了 Models、Prompt Templates、Chains、Agent 和 MultiAgent 之间的关系。 《》,周伯文是清华大学讲席教授、衔远科技创始人,也是前京东集团高级副总裁,他在 GAIR 2023 论坛上发表了自己对未来的看法:AI 未来将融合语言与工具智能,实现人工智能在复杂场景下的应用。
2025-01-11
吴恩达的视频课程链接
以下是吴恩达相关视频课程的链接: 谷歌/百度 AI 部门负责人吴恩达和 OpenAI 合作推出的免费 Prompt Engineering(提示工程师)课程: 原版网址:https://www.deeplearning.ai/shortcourses/chatgptpromptengineeringfordevelopers/ B 站版本: 【合集·AI Course哔哩哔哩】https://b23.tv/ATc4lX0 https://b23.tv/lKSnMbB 翻译版本: 推荐直接使用 Jupyter 版本学习,效率更高:https://github.com/datawhalechina/promptengineeringfordevelopers/ 视频下载地址:https://pan.quark.cn/s/77669b9a89d7 OpenAI 开源了教程:https://islinxu.github.io/promptengineeringnote/Introduction/index.html 纯文字版本: 2023 年 11 月 9 日推出的新课程《》,一共 31 集,可在 B 站观看学习。
2025-01-07
我在哪里能看到吴恩达的大模型通识课?
以下是一些可以看到吴恩达大模型通识课的途径: 1. 中文版的大模型入门教程,围绕吴恩达老师的大模型系列课程展开,地址: 2. 目录:吴恩达讲 Prompt,地址:https://github.com/zard1152/deepLearningAI/wiki ; 3. 2023 年 8 月 24 日,吴恩达最新的《》短课程上线。
2024-12-30
吴恩达
吴恩达(Andrew Ng)是人工智能领域的知名科学家和教育者。 他在机器学习、统计学和人工智能领域贡献显著: 曾在斯坦福大学任副教授,领导过谷歌的大脑项目(Google Brain)。 担任过百度公司首席科学家并领导百度研究院。 以深度学习和大规模机器学习系统的研究闻名,推动了人工智能技术的商业应用和普及,是多个人工智能和机器学习开源项目的倡导者,如 TensorFlow 和 Caffe。 他致力于普及人工智能教育,在斯坦福大学和 Coursera 教授的机器学习课程广受欢迎,吸引全球数百万学生参与。其教学和研究工作对人工智能领域发展影响深远。 在相关研究中,吴恩达逐渐意识到利用大量训练数据与快速计算能力的重要性,其想法在一些论文中得到支持。他参与的分散式代码研发,以及在相关领域的成果,为行业发展带来积极影响。 在机器学习课程方面,完成吴恩达的 Coursera 机器学习课程可能会激发对神经网络和深度学习的兴趣。
2024-12-13
吴恩达关于使用hugging face 、langchain 创建自己应用的教程
以下是一些与吴恩达关于使用 hugging face 、langchain 创建自己应用的相关教程资源: 1. 面向开发者的 LLM 入门课程: 地址: 简介:一个中文版的大模型入门教程,围绕吴恩达老师的大模型系列课程展开,包括吴恩达《ChatGPT Prompt Engineering for Developers》课程中文版,吴恩达《Building Systems with the ChatGPT API》课程中文版,吴恩达《LangChain for LLM Application Development》课程中文版等。 2. 提示工程指南: 地址: 简介:该项目基于对大语言模型的浓厚兴趣,编写了这份全新的提示工程指南,介绍了大语言模型相关的论文研究、学习指南、模型、讲座、参考资料、大语言模型能力以及与其他与提示工程相关的工具。 3. LangChain 🦜️🔗中文网,跟着 LangChain 一起学 LLM/GPT 开发: 地址: 简介:Langchain 的中文文档,由是两个在 LLM 创业者维护,希望帮助到从刚进入 AI 应用开发的朋友们。 4. AIGC Weekly 32 中的精选文章: 地址: 简介:这个短期课程是吴恩达工作室与 Hugging Face 合作的,旨在教授如何快速创建和演示机器学习应用程序。学员将学习构建图像生成、图像字幕和文本摘要应用程序,并与团队成员、测试人员等分享自己的应用程序。课程内容包括使用少量代码创建用户友好的应用程序,使用开源大型语言模型对输入文本进行摘要,并显示摘要。
2024-08-19
吴恩达 prompt
吴恩达(Andrew Ng)是一位在人工智能领域享有盛誉的科学家和教育者,他在机器学习、统计学和人工智能领域做出了重要贡献,并且是在线教育平台 Coursera 的联合创始人。以下是关于他的一些信息: 1. 学术背景:吴恩达曾在斯坦福大学担任副教授,并领导了谷歌的大脑项目(Google Brain)。此外,他还曾担任百度公司首席科学家,并领导百度研究院。 2. 研究领域:吴恩达以其在深度学习和大规模机器学习系统方面的研究而闻名,他在这些领域的工作推动了人工智能技术的商业应用和普及。他还是多个人工智能和机器学习开源项目的倡导者,包括 TensorFlow 和 Caffe。 3. 教育贡献:除了在学术界和工业界的贡献,吴恩达还致力于普及人工智能教育。他教授的机器学习课程是斯坦福大学和 Coursera 上最受欢迎的在线课程之一,吸引了全球数百万学生的参与。通过他的教学和研究工作,吴恩达对人工智能领域的发展产生了深远的影响。 总的来说,吴恩达在人工智能领域的研究和教育贡献使他成为该领域的重要人物之一。
2024-06-04
有没有关于cursor的使用教程
以下是关于 Cursor 的使用教程: 1. 中文教程网站: 网站:,提供中文教程,帮助您更好地掌握 Cursor 的使用方法,适合想深入了解和学习的用户。 2. 张梦飞的 0 编程基础入门极简使用指南: 下载 Cursor: 注册账号,可用邮箱(如 google、github、163、qq 邮箱)直接登录,接受二维码登录。 安装中文包插件。 在设置中 Rule for AI 配置。 按 ctrl/cmd+i 输入需求,例如:帮我做一个贪吃蛇游戏,在网页中玩。 3. 其他相关工具和步骤: 对于做 2048 游戏,可使用任意 AI 工具获得代码,专业代码模型表现更优。 使用 Cursor 不用下载上一步中的 Pycharm,网址:,通过对话获得代码,指令更详细效果更好。 Deepseek(新手推荐):网址:,方便国内访问,网页登录便捷,目前完全免费。 通义灵码:在 Pytharm 中,“文件”“设置”“插件”红色框位置搜索“通义灵码”安装(目前免费)。 JetBrains 自身的助手插件:在 Pytharm 中,“文件”“设置”“插件”红色框位置搜索“Jetbrains AI assistant”安装(收费,目前有 7 天免费试用)。 还有 Marscode 及 Tencent cloud AI code Assistant 等。 无影的晓颖 AI 助手在云栖大会上有过使用,内置在云电脑里,使用较流畅。
2025-01-21
Flux 的lora模型训练教程
以下是 Flux 的 Lora 模型训练教程: 1. 模型准备: 下载所需模型,如 t5xxl_fp16.safetensors、clip_l.safetensors、ae.safetensors、flux1dev.safetensors。 注意: 不使用时模型存放位置随意,只要知晓路径,后续会引用。 训练建议使用 flux1dev.safetensors 版本的模型和 t5xxl_fp16.safetensors 版本的编码器。 2. 下载训练脚本: 夸克网盘链接:https://pan.quark.cn/s/ddf85bb2ac59 百度网盘链接:https://pan.baidu.com/s/1pBHPYpQxgTCcbsKYgBi_MQ?pwd=pfsq 提取码:pfsq 3. 训练步骤: 进入厚德云模型训练数据集:https://portal.houdeyun.cn/sd/dataset 步骤一·创建数据集: 在数据集一栏中,点击右上角创建数据集。 输入数据集名称。 可以提前将图片和标签打包成 zip 上传,zip 文件里图片名称与标签文件应当匹配,如图片名"1.png",对应的达标文件就叫"1.txt"。也可以一张一张单独上传照片。 上传 zip 以后等待一段时间,确认创建数据集,返回到上一个页面,等待一段时间后上传成功,可点击详情检查,预览数据集的图片以及对应的标签。 步骤二·Lora 训练: 点击 Flux,基础模型会默认是 FLUX 1.0D 版本。 选择数据集,点击右侧箭头,会跳出所有上传过的数据集。 触发词可有可无,取决于数据集是否有触发词。 模型效果预览提示词则随机抽取一个数据集中的标签填入即可。 训练参数这里可以调节重复次数与训练轮数,厚德云会自动计算训练步数。如果不知道如何设置,可以默认 20 重复次数和 10 轮训练轮数。 可以按需求选择是否加速,点击开始训练,会显示所需要消耗的算力。 然后等待训练,会显示预览时间和进度条。训练完成的会显示出每一轮的预览图。鼠标悬浮到想要的轮次模型,中间会有个生图,点击会自动跳转到使用此 lora 生图的界面。点击下方的下载按钮则会自动下载到本地。 4. 低配置方案: 开源社区对低配置方案进行了优化,NF4 来自 controlnet 的作者,GGUF 则包含多个版本可以使用。 NF4 模型下载:https://huggingface.co/lllyasviel/flux1devbnbnf4/blob/main/flux1devbnbnf4.safetensors ,放置在 ComfyUI/models/checkpoint/中(不像其他 Flux 模型那样放置在 UNET 中),NF4 配套节点插件:git clone https://github.com/comfyanonymous/ComfyUI_bitsandbytes_NF4.git GGUF 模型下载:Flux GGUF 模型:https://huggingface.co/city96/FLUX.1devgguf/tree/main ,GGUF 配套节点插件:GGUF 节点包:https://github.com/city96/ComfyUIGGUF 。 值得一提的是在最新版本的 ComfyUI 中 GGUF 的节点插件可以在 Manager 管理器中搜到下载安装,NF4 的配套节点插件则搜不到。 注意使用精度优化的低配模型的话,工作流和原版是不一样的。此处没有专门列举。 自己改的话就是把上面官方的 fp8 的工作流,只需把底模的节点换成 NF4 的或者 GUFF 的即可。 相关生态发展很快,有 Lora、Controlnet、IPadpter 相关生态建设非常速度,以及字节最近发布的 Flux Hyper lora 是为了 8 步快速生图。
2025-01-19
dify的使用教程
以下是 Dify 的使用教程: 1. 构建知识库: 准备数据:收集文本数据,包括文档、表格等格式,并进行清洗、分段等预处理以确保数据质量。 创建数据集:在 Dify 中创建新数据集,上传准备好的文档,并编写良好的描述。 配置索引方式:Dify 提供三种索引方式,如高质量模式、经济模式和 Q&A 分段模式,根据实际需求选择合适的方式。 集成至应用:将数据集集成到 Dify 的对话型应用中,在应用设置中配置数据集的使用方式。 持续优化:收集用户反馈,对知识库内容和索引方式进行优化和迭代,定期更新知识库。 2. 部署网站: 云服务版本:直接在官网 dify.ai 上注册账号使用。 部署社区版:开源,可商用,但不能作为多租户服务使用,对个人使用无限制。部署前提条件为 2 核 4G 云服务器一台。 3. 接入企业微信: 创建聊天助手应用:在 Dify 平台创建基础编排聊天助手应用,获取 API 密钥和 API 服务器地址。 下载 Dify on WeChat 项目:下载并安装依赖。 填写配置文件:在项目根目录创建 config.json 文件,填写 API 密钥和服务器地址。 把基础编排聊天助手接入微信:快速启动测试,扫码登录,进行对话测试,可选择源码部署或 Docker 部署。 把工作流编排聊天助手接入微信:创建知识库,导入知识库文件,创建工作流编排聊天助手应用,设置知识检索节点和 LLM 节点,发布更新并访问 API。 把 Agent 应用接入微信:创建 Agent 应用,设置对话模型和添加工具,生成 API 密钥,填写配置文件,启动程序并进行测试。更多内容请访问原文:https://docs.dify.ai/v/zhhans/learnmore/usecases/difyonwechat
2025-01-18
coze的使用教程
以下是关于 Coze 的使用教程: Coze 概述: 字节的官方解释:Coze 是新一代一站式 AI Bot 开发平台。无论是否有编程基础,都能在该平台上快速搭建基于 AI 模型的各类问答 Bot,从解决简单问答到处理复杂逻辑对话,并可将 Bot 发布到各类社交平台和通讯软件上与用户互动。 个人观点:Coze 是字节针对 AI Agent 领域的初代产品,在 Coze 中称 AI Agent 为 Bot。 部署站点: 国内版: 网址:https://www.coze.cn 官方文档教程:https://www.coze.cn/docs/guides/welcome 大模型:使用字节自研的云雀大模型,国内网络可正常访问。 海外版: 网址:https://www.coze.com 官方文档教程:https://www.coze.com/docs/guides/welcome 大模型:GPT4、GPT3.5 等大模型(可参考文档白嫖 ChatGPT4),访问需突破网络限制的工具,参考文档:https://www.coze.com/docs/zh_cn/welcome.html AI Agent 的开发流程: Bot 的开发和调试页面布局主要分为以下几个区块: 提示词和人设的区块 Bot 的技能组件 插件 工作流 Bot 的记忆组件 知识库 变量 数据库 长记忆 文件盒子 一些先进的配置 触发器:例如定时发送早报 开场白:用户和 Bot 初次对话时,Bot 的招呼话语 自动建议:每当和 Bot 一轮对话完成后,Bot 给出的问题建议 声音:和 Bot 对话时,Bot 读对话内容的音色 搭建教学: 基础框架:本 bot 基于三部分构成,包括提示词(使用结构化提示词框架,通过提示要求大模型根据不同行为调用不同工作流)、数据库(能够记录不同用户历史记账记录的关键,工作流里会用到)、工作流(增加记账调用 add_accounting_record 工作流;查询账户余额调用 query_accounting_balance 工作流;删除所有记账记录调用 init_accounting_records)。 数据库:数据库是 Coze 用来长久存放用户自己生成的数据的功能,可通过 mysql 语句写入数据到数据库中,也可从数据库中读取已存储数据用于加工或显示。本次记账功能定义了三个字段:item(记账的事项,字段类型 string)、occurrence_time(记账发生时间,字段类型 string)、account_change(变得的金额,即收入或花费的金额数,字段类型 integer,单位是分,例如 1.23 元,记录进入数据库是 123,注意一定要用 integer 类型,不能使用 number,不然当金额有小数时计算会不准)。
2025-01-18
怎么做 agent,有什么 coze做 agent 的视频教程
以下是一些关于如何做 Agent 以及相关的 Coze 视频教程: 基础教程: 大圣:胎教级教程:万字长文带你使用 Coze 打造企业级知识库 (https://waytoagi.feishu.cn/wiki/CT3UwDM8OiVmOOkohPbcV3JCndb) 大聪明:保姆级教程:Coze 打工你躺平 (https://waytoagi.feishu.cn/wiki/PQoUwXwpvi2ex7kJOrIcnQTCnYb) 安仔:Coze 全方位入门剖析 免费打造自己的 AI Agent (https://waytoagi.feishu.cn/wiki/SaCFwcw9xi2qcrkmSxscxTxLnxb) 基础教程:Coze“图像流”抢先体验 (https://waytoagi.feishu.cn/wiki/AHs2whOS2izNJakGA1NcD5BEnuf) YoYo:Coze 图像流小技巧:探索视觉艺术的隐藏宝藏 (https://waytoagi.feishu.cn/wiki/CTajwJnyZizxlJk8a4AcJYywnfe) 【智能体】让 Coze 智能体机器人连上微信和微信群详细配置文档 (https://waytoagi.feishu.cn/wiki/ExHMwCDZ7i6NA7knCWucFvFvnvJ) 历史活动教程: 5 月 7 号():大聪明分享|主题:Agent 的前世今生,每个分享人分享最初是怎么接触 Coze 的,以及现在用 Coze 做什么 5 月 8 号():大圣分享|主题:我眼中的 AI Agent 以及通过搭建知识库实例入门 Coze 5 月 9 号():艾木分享|主题:Agent 系统的核心构成:Workflow 和 Multiagent Flow(以“Dr.Know”和“卧底”为例,线上答疑 5 月 10 号():罗文分享|主题:一个方法解锁 COEZ 所有插件的用法+如何自动化解锁每天抓取 X 内容+改写+发布到飞书 5 月 11 号():Itao 分享|主题:和 AI 成为搭子,线上答疑
2025-01-18
有哪些关于AI编程的cursor的内容,比较好的教程和使用经验之类的
以下是一些关于 AI 编程 Cursor 的内容、教程和使用经验: 1. 熊猫 Jay 的教程: 原文地址:https://mp.weixin.qq.com/s/KZt53OxCtlwuTKhplzGCg 涵盖了 Cursor 和其他编程工具的区别、Cursor 入门(安装和使用)、Cursor 初阶案例(开发谷歌插件)、Cursor 进阶案例(开发卡密系统)以及很多加餐项。 2. Cursor 官方介绍: 强调 Cursor 是使用 AI 进行编码的最佳方式,旨在让您极其高效。 包括读懂数据库、使用 tab 来编辑等功能。 3. 三个人和一场黑客松的经历: 作者认为 Cursor 改变了普通人与编程的关系,让不具备代码能力的人可以通过自然语言描述快速开发一些项目。 提到了一些用 AI 做的项目,如各类视频站的整合下载工具、根据 BGM 节奏合成高频卡点视频的 Python 脚本、提取图片颜色生成色板的 Chrome 插件等。 如果您想进一步了解具体内容,可以访问上述提到的链接。
2025-01-17
SD模型
Stable Diffusion(SD)模型是由 Stability AI 和 LAION 等公司共同开发的生成式模型,参数量约 1B,可用于文生图、图生图、图像 inpainting、ControlNet 控制生成、图像超分等任务。 文生图任务是将文本输入到 SD 模型,经过一定迭代次数生成符合描述的图片。例如输入“天堂,巨大的,海滩”,模型生成美丽沙滩图片。 图生图任务在输入文本基础上再输入一张图片,模型根据文本提示重绘输入图片使其更符合描述,如在沙滩图片上添加“海盗船”。 输入的文本信息需通过“桥梁”CLIP Text Encoder 模型转换为机器数学信息。该模型作为 SD 模型中的前置模块,将输入文本编码生成 Text Embeddings 特征矩阵,用于控制图像生成。 目前 SD 模型使用的是中的 Text Encoder 模型,其只包含 Transformer 结构,由 12 个 CLIPEncoderLayer 模块组成,模型参数大小为 123M,输出 Text Embeddings 的维度为 77x768。 以下是相关资源获取方式: SD 模型权重:关注 Rocky 的公众号 WeThinkIn,后台回复“SD 模型”,可获得包含多种模型权重的资源链接。 SD 保姆级训练资源:关注 Rocky 的公众号 WeThinkIn,后台回复“SDTrain”,可获得包含数据处理、模型微调训练及基于 SD 的 LoRA 模型训练代码等全套资源。 Stable Diffusion 中 VAE、UNet 和 CLIP 三大模型的可视化网络结构图:关注 Rocky 的公众号 WeThinkIn,后台回复“SD 网络结构”,即可获得网络结构图资源链接。
2025-01-22
到今天,大语言模型还会产生“幻觉”吗
截至今天,大语言模型仍会产生“幻觉”。 大语言模型偶尔会根据输入输出一些荒谬或不符合事实的内容,目前各家大语言模型在该问题上的表现都不尽如人意。产生“幻觉”的原因包括: 1. 样本存在错误(Imitative Falsehoods):如果大语言模型学习的“教材”中有错误,它也容易给出错误回答。缓解该问题的一个办法是上采样(Up Sampling)。 2. 信息过时(Outdated Factual Knowledge):以前正确的信息现在可能过时了。 此外,大语言模型通过训练数据猜测下一个输出结果,可能因错误数据导致给出错误答案,优质数据集对其很重要。如果在其训练过程中,模型被暴露于大量知识之中,它并没有完美地记忆所见到的信息,并不十分清楚自己的知识边界,可能会尝试回答有关深奥话题的问题,并虚构听起来有道理但实际不正确的内容。 在构建应用程序时,可以使用一些技术来避免这种情况,例如要求模型先从文本中找到相关引文,然后使用引文回答问题,并将答案追溯回源文件,这通常有助于减少“幻觉”的发生。
2025-01-22
本地部署大模型
以下是关于本地部署大模型的详细步骤: 1. 部署大语言模型: 下载并安装 Ollama: 根据电脑系统,从 https://ollama.com/download 下载 Ollama。 下载完成后,双击打开,点击“Install”。 安装完成后,将 http://127.0.0.1:11434/ 复制进浏览器,若出现相关字样则表示安装完成。 下载 qwen2:0.5b 模型(若设备充足可下载更大模型): Windows 电脑:点击 win+R,输入 cmd 点击回车。 Mac 电脑:按下 Command(⌘)+Space 键打开 Spotlight 搜索,输入“Terminal”或“终端”,选择“终端”应用程序。 复制相关命令行,粘贴进入并回车,等待自动下载完成。 2. ComfyUI ollama 本地大模型部署: 先下载 ollama 安装,安装完成后可在电脑桌面右下角或隐藏图标中找到。 下载对应的模型,选择模型并复制对应的命令。 打开命令行界面,输入对应的模型获取命令,等待下载完成。 模型下载后会保存到 D:\\ollama\\blobs 。 进行 docker 安装,安装会下载一些文件,安装后更改目录,不要放在 C 盘。 进行 Open webui 安装,输入相关命令,安装成功后回到 docker,点击会自动打开网页,第一次使用需注册账号,选择下载好的模型即可开始使用。 3. 错误解决: 端口占用问题,在 Windows 上可能出现,运行相关两条命令可解决。 4. 相关链接: comfyuiollama:https://github.com/stavsap/comfyuiollama?tab=readmeovfile Ollama:https://ollama.com/ docker:https://www.docker.com/ Open webui:https://openwebui.com/ 此外,还有一篇思路来源于视频号博主黄益贺的相关内容,作者按照其视频进行了实操并附加了一些关于 RAG 的额外知识。文中提到读完本文可以学习到如何使用 Ollama 一键部署本地大模型、通过搭建本地聊天工具了解 ChatGPT 信息流转、RAG 的概念及核心技术、通过 AnythingLLM 软件搭建完全本地化的数据库等内容。虽然大多数人不需要自己部署大模型,但期望通过本文的指导能够折腾一遍,从而做到知其然且知其所以然。
2025-01-22
大模型评分
大模型评分通常会根据不同的赛事或评估体系有所差异。 在金融行业的大模型挑战赛中,评测任务形式为给定一组参考文档和问题,要求模型按指定格式生成答案。赛事主办方会根据选手提供的回答与参考答案对比,并根据关键字段命中情况进行评分。评分公式涉及关键词命中总次数、关键词总数、小题数和得分等参数。例如在示例问题中,根据每个小题的回答正确情况计算得分,完全正确得满分 1 分,部分正确则根据命中比例计算得分。 在其他的大模型评估方面: FlagEval(天秤)大模型评测体系及开放平台,旨在建立科学、公正、开放的评测基准、方法、工具集,创新构建了“能力任务指标”三维评测框架,细粒度刻画基础模型的认知能力边界,可视化呈现评测结果。地址:https://github.com/FlagOpen/FlagEval 。 CEval 构造了一个覆盖多个学科的中文知识和推理型测试集,并给出了当前主流中文 LLM 的评测结果。地址:https://github.com/SJTULIT/ceval 。 SuperCLUElyb 是中文通用大模型匿名对战评价基准,以众包方式提供匿名、随机的对战,并发布了初步结果和基于 Elo 评级系统的排行榜。地址:https://github.com/CLUEbenchmark/SuperCLUElyb 。 斯坦福发布的大模型排行榜 AlpacaEval 支持两种模式的模型评估方式:alpaca_eval 和 alpaca_eval evaluate_from_model 。评测过程分为选择评估集并计算输出、计算 golden 输出、通过指定的自动标注器计算胜率等步骤。相对于人工标注,全自动化的 AlpacaEval 具有较低的经济成本和时间成本。
2025-01-22
有哪些能够本地部署的AI视频生成模型
以下是一些能够本地部署的 AI 视频生成模型: 1. Stable Video Diffusion 模型: 准备工作:手动下载相关内容,分别放到指定路径。 模型选择:点击下拉箭头选择不同模型版本,勾选 load Model。 视频创作:支持图生视频,图片来源可选择 Midjourney、Stable Diffusion 等生成的图片,上传到 SVD 进行视频生成,可调节左侧参数控制效果。 保存路径:生成的视频在 outputs 下。 2. LTXVideo 模型: 基于 2B 参数 DiT,能够以 768x512 分辨率生成 24 FPS 的视频,速度比观看还快。 专为 RTX 4090 等 GPU 优化,使用 bfloat16 精度,实现高效内存使用且不影响质量。 ComfyUI 现已支持该模型,用户只需下载模型文件并获取工作流即可在本地运行。 3. Sora 模型: 功能:文生视频、图生视频、视频生视频,支持多种视频定制选项,如分辨率、视频长度和视频风格;具有故事板功能,允许用户通过时间线指导视频中的多个动作;提供混音和编辑功能,包括视频混音、延伸和剪辑、创建循环视频等;还有混合功能,可将两个视频场景合并成一个新的场景。 费用和订阅套餐:对于拥有 OpenAI Plus 或 Pro 账户的用户,使用包含在现有订阅中。OpenAI Plus 订阅每月 50 次视频生成次数,OpenAI Pro 订阅无限次慢速队列生成,500 次正常速度的视频生成次数。用户可根据需要选择更高分辨率的视频生成,但可能会减少每月使用次数。发布初期,某些地区(如欧洲和英国)可能会有延迟。
2025-01-21
国内文生图模型
以下是关于国内文生图模型的相关信息: Recraft 模型:用 8 个月自研模型,包含处理数据的模型、标注工作、训练 OCR 模型、新构建的数据集等。Recraft 生成带有长文本图像的流程图解,但存在生成默认是外国面孔而非亚洲面孔且生成的亚洲人不太自然的情况,可能与数据集有关。只有少数公司真正从头训练模型,创建自己的模型困难且成本高,需要超强团队和资金。 模型能力方面: 文本编码器的能力是文生图模型语义理解能力的关键。一开始大部分模型使用 CLIP 作为文本编码器,但存在一些问题。新的模型纷纷优化文本编码器能力,如引入更大更强的 T5XXL 或结合多个特征,但开源模型在中文生图方面能力一般。 腾讯开源的 HunyuanDiT 是较可用的中文生图模型,但仍存在优化空间。 Kolors 是最近开源的给力文生图模型,改进全面,技术实力强。
2025-01-21