Navigate to WaytoAGI Wiki →
Home/Question List/Question Detail

有没有关于大模型的实战技术文章

Answer

以下是为您找到的关于大模型的实战技术文章:

  1. 《认识大模型 Embedding 技术加实战》
    • 小结:认识了 Embedding 是浮点数向量,向量距离度量相关性,了解其分类及在大模型中的价值,还有从数据集中获取 Embedding 结果并保存为 csv 文件的实战部分。参考了 OpenAI 官网最新文档,包含个人测试问题和代码注释。链接:https://platform.openai.com/docs/introduction
    • 原文链接:https://mp.weixin.qq.com/s/8mDLFFmgKOQC8WK2kkwhaA 原创:皇子|皇子谈技术|2024-03-21 19:54 大模型应用开发技术不需要掌握机器学习和深度学习算法,但要有编程思维和 Python 基础。
  2. 《ChatBot 是怎么炼成的?》
    • 介绍了 LLM 基座大模型下游应用 ChatBot 的研发过程,在介绍 ChatBot 之前,先介绍了 LLM 在辅助编程方面的应用,包括 Codex 和 AlphaCode 两个奠基性工作,Codex 提出了编程数据集和 pass@k 指标,并采用了 2 阶段训练方式,还介绍了 Codex 的局限性和辅助编程问题定义。作者:[aaronxic] 链接:https://ywh1bkansf.feishu.cn/wiki/HRnLw588DiTDLPkSTXCcKit8nbD 发布日期:2023/07/08
Content generated by AI large model, please carefully verify (powered by aily)

References

认识大模型 Embedding 技术加实战

我们认识了Embedding(嵌入)是一个浮点数的向量(列表),两个向量之间的距离度量它们的相关性,小的距离表示高相关性,大的距离表示低相关性。知道了Embedding共有:词、句子、文档、图像等分类。还分析了Embedding在大模型中的价值。最后是Embedding的实战部分:从数据集中获取Embedding结果,并保存为csv文件。最后,本示例中的实战代码,参考的是官方最新文档的内容,加上个人测试阶段的遇到的问题、代码注释等OpenAI官网文档链接:https://platform.openai.com/docs/introduction大模型技术,除了在OpenAI官网能看到的:Embedding、Function Call和Fune Tuning等。进阶到企业级应用开发的大模型技术还会涉及到:利用开源的Embedding模型、向量数据库去做检索增强生成(RAG),以及购买GPU服务器去基于开源大模型搭建企业级大模型项目。

认识大模型 Embedding 技术加实战

原文链接:https://mp.weixin.qq.com/s/8mDLFFmgKOQC8WK2kkwhaA原创:皇子|皇子谈技术|2024-03-21 19:54有朋友说想学习大模型应用开发技术,让我谈一谈。首先大模型应用开发技术不需要我们掌握机器学习和深度学习的算法,但是要有编程思维、python基础,然后跟着下面的步骤走,就能学得明白。下面正式开始认识大模型Embedding的理论知识,加代码实战。看大家反馈,如果觉得难,我有打算接着《[讲清Transformer模型架构](http://mp.weixin.qq.com/s?__biz=MzkyMzYyNjQxOQ==&mid=2247484298&idx=1&sn=d638818dab71ce80a5e9426a0393cfc9&chksm=c1e37d56f694f440291b7cf5f233cfebea0696f76d838d28fb6854f2e40150c4411e9bf2a76b&scene=21#wechat_redirect)》,继续往后写GPT和BERT模型,又或者加入更多的实战,欢迎私信交流。

小A-技术开发/大模型

|标题|备注|作者|链接|发布日期|附件(1)|单选|<br>|-|-|-|-|-|-|-|<br>|ChatBot是怎么炼成的?|本文介绍了LLM基座大模型下游应用ChatBot的研发过程。在介绍ChatBot之前,作者先介绍了LLM在辅助编程方面的应用,主要包括Codex和AlphaCode两个奠基性工作。Codex提出了编程数据集和pass@k指标,并采用了2阶段训练方式。文章还介绍了Codex的局限性和辅助编程问题定义。|[aaronxic](https://www.zhihu.com/people/aaronxic)|[(3)ChatBot是怎么炼成的?](https://ywh1bkansf.feishu.cn/wiki/HRnLw588DiTDLPkSTXCcKit8nbD)|2023/07/08|||<br>|多模态的大一统之路|首先介绍了Vision Transformer的入门知识和相关的应用。包括了[ViT(2020.10)](https://link.zhihu.com/?target=https%3A//arxiv.org/abs/2010.11929),[ViT-22B(2023.02)](https://link.zhihu.com/?target=https%3A//arxiv.org/abs/2302.05442),[Swin Transformer(2021.08)](https://link.zhihu.com/?target=https%3A//arxiv.org/abs/2103.14030),[MAE(2021.11)](https://link.zhihu.com/?

Others are asking
在哪里可以看AIGC智能客服 实战项目
以下是一些可以查看 AIGC 智能客服实战项目的途径: 1. 数字人课程:卡尔的 AI 沃茨推出的数字人课程,包含 15 节视频课,持续更新并附赠课外社群辅导,课程中回顾了 2023 年数字人领域的破圈事件,还介绍了数字人的广泛应用和完整学习体系。报名方式为扫码查看课程详细内容和介绍。 2. 摊位信息:在杭州商场举办的 AI 切磋大会的摊位中,有关于“AI 数字员工”的摊位,提供抖音运营、AI 客服、智能问诊、企业定制员工、定制知识库等体验 demo。 3. 大厂 AIGC 实践:京东有众多 AIGC 相关的实践案例,如【羚珑 AI 智绘营】IPAdapter 等,相关链接可在给定的内容中查看。
2025-01-01
哪里有rag实战开源项目
好的,以下是根据你的需求为你生成的文章: 检索增强生成技术(RAG)的基本概念和应用 一、RAG 的基本概念 RAG(Retrieval Augmented Generation)是一种结合了检索和生成的技术,它可以让大模型在生成文本时利用额外的数据源,从而提高生成的质量和准确性。其基本流程如下: 1. 给定一个用户的输入,例如一个问题或一个话题。 2. 从一个数据源中检索出与之相关的文本片段,例如网页、文档或数据库记录。这些文本片段称为上下文(Context)。 3. 将用户的输入和检索到的上下文拼接成一个完整的输入,传递给一个大模型,例如 GPT。 4. 从大模型的输出中提取或格式化所需的信息,返回给用户。 二、RAG 的实际应用 \中提到,配备了全景和精准 PDF 解析器的 RAG 系统 ChatDOC 可以检索到更准确和完整的文本段,因此能够给出更好的回答。实验证明,ChatDOC 在近 47%的问题上表现优于 Baseline 模型,在 38%的问题上与 Baseline 模型表现持平,仅在 15%的问题上表现落后于 Baseline 模型。这表明,我们可以通过增强 PDF 结构识别来革新检索增强生成技术(RAG)。 三、RAG 的开发 \中提到,RAG 是一种结合了检索和生成的技术,它可以让大模型在生成文本时利用额外的数据源,从而提高生成的质量和准确性。RAG 的基本流程如下: 1. 给定一个用户的输入,例如一个问题或一个话题。 2. 从一个数据源中检索出与之相关的文本片段,例如网页、文档或数据库记录。这些文本片段称为上下文(Context)。 3. 将用户的输入和检索到的上下文拼接成一个完整的输入,传递给一个大模型,例如 GPT。这个输入通常会包含一些提示(Prompt),指导模型如何生成期望的输出,例如一个答案或一个摘要。 4. 从大模型的输出中提取或格式化所需的信息,返回给用户。 综上所述,RAG 是一种结合了检索和生成的技术,它可以让大模型在生成文本时利用额外的数据源,从而提高生成的质量和准确性。ChatDOC 在近 47%的问题上表现优于 Baseline 模型,在 38%的问题上与 Baseline 模型表现持平,仅在 15%的问题上表现落后于 Baseline 模型。这表明,我们可以通过增强 PDF 结构识别来革新检索增强生成技术(RAG)。
2024-05-24
什么是大模型
大模型通俗来讲,是输入大量语料,让计算机获得类似人类的“思考”能力,从而能够理解自然语言,并进行文本生成、推理问答、对话、文档摘要等工作。 可以用“上学参加工作”这件事来类比大模型的训练和使用过程: 1. 找学校:训练大模型需要大量计算,GPU 更合适,只有购买得起大量 GPU 的才有资本训练自己的大模型。 2. 确定教材:大模型需要的数据量特别多,几千亿序列(Token)的输入基本是标配。 3. 找老师:即用合适的算法讲述“书本”中的内容,让大模型更好理解 Token 之间的关系。 4. 就业指导:学完知识后,为让大模型更好胜任某一行业,需要进行微调(fine tuning)指导。 5. 搬砖:就业指导完成后,就要正式干活,比如进行翻译、问答等,在大模型里称之为推导(infer)。 在大模型中,Token 被视为模型处理和生成的文本单位,会被分割并生成词汇表,数字化便于计算机处理。为让计算机理解 Token 之间的联系,还需把 Token 表示成稠密矩阵向量,这个过程称为 embedding,常见算法有基于统计的 Word2Vec、GloVe,基于深度网络的 CNN、RNN/LSTM,基于神经网络的 BERT、Doc2Vec 等。以 Transform 为代表的大模型采用自注意力(Selfattention)机制来学习不同 token 之间的依赖关系,生成高质量 embedding。 大模型的“大”指用于表达 token 之间关系的参数多,主要是模型中的权重(weight)与偏置(bias),例如 GPT3 拥有 1750 亿参数。 所谓的大模型,简而言之,就是拥有庞大参数数量的模型,通过处理和理解海量数据,能够胜任一系列复杂任务。大模型强大的原因在于庞大的参数数量和大量的数据训练。这些参数帮助模型更深入地理解和生成数据,而大量的数据让模型掌握丰富的知识和技能。
2025-01-06
什么是多模态模型
多模态模型是指能够处理和融合多种不同模态信息的模型,例如视觉和语言双模态。以下为您介绍一些相关的多模态模型: CogAgent18B:这是基于 CogVLM17B 改进的开源视觉语言模型,拥有 110 亿视觉参数和 70 亿语言参数,支持 11201120 分辨率的图像理解,在 CogVLM 功能基础上具备 GUI 图像的 Agent 能力。代码链接:。 CogVLM17B:强大的开源视觉语言模型(VLM),基于对视觉和语言信息之间融合的理解,能在不牺牲任何 NLP 任务性能的情况下,实现视觉语言特征的深度融合,是目前多模态权威学术榜单上综合成绩第一的模型,在 14 个数据集上取得了 stateoftheart 或者第二名的成绩。代码链接:。 Visualglm6B:开源的支持图像、中文和英文的多模态对话语言模型,语言模型基于。 RDM(Relay Diffusion Model):级联扩散模型,可以从任意给定分辨率的图像快速生成,而无需从白噪声生成。代码链接:。 Gemini 模型本身也是多模态的,其展示了无缝结合跨模态能力的独特能力,例如从表格、图表或图形中提取信息和空间布局,以及语言模型的强大推理能力,在识别输入中的细微细节、在空间和时间上聚合上下文,以及在一系列视频帧和/或音频输入上应用这些能力方面也表现出强大的性能。下面的部分提供了对模型在不同模态(图像、视频和音频)上的更详细评估,以及模型在图像生成和跨不同模态的信息组合能力方面的定性示例。
2025-01-06
通过 API 调用大模型
以下是通过 API 调用大模型的相关步骤: 1. 创建大模型问答应用: 进入百炼控制台的,在页面右侧点击新增应用。在对话框,选择智能体应用并创建。 在应用设置页面,模型选择通义千问Plus,其他参数保持默认。您也可以选择输入一些 Prompt,比如设置一些人设以引导大模型更好的应对客户咨询。 在页面右侧可以提问验证模型效果。不过您会发现,目前它还无法准确回答你们公司的商品信息。点击右上角的发布。 2. 获取调用 API 所需的凭证: 在我的应用>应用列表中可以查看所有百炼应用 ID。保存应用 ID 到本地用于后续配置。 在顶部导航栏右侧,点击人型图标,点击 APIKEY 进入我的 APIKEY 页面。在页面右侧,点击创建我的 APIKEY,在弹出窗口中创建一个新 APIKEY。保存 APIKEY 到本地用于后续配置。 3. 直接调用大模型(之前完成过 coze 对接的同学,直接去二、百炼应用的调用): 百炼首页:https://bailian.console.aliyun.com/ 当在 COW 中直接调用千问的某一个大模型时,只需要更改 key 和 model 即可。以调用“qwenmax”模型为例,在/root/chatgptonwechat/文件夹下,打开 config.json 文件,需要更改"model",和添加"dashscope_api_key"。 获取 key 的视频教程: 图文教程:以下是参考配置。 注意:需要“实名认证”后,这些 key 才可以正常使用,如果对话出现“Access to mode denied.Please make sure you are eligible for using the model.”的报错,那说明您没有实名认证,点击去,或查看自己是否已认证。 4. 申请大模型的 API 接口(以 silicon 硅基接口为例): 官方提供的接入 API 的教学文档。 以平时使用的 silicon 接口为例,有众多开源模型(Yi、Qwen、Llama、Gemma 等)免费使用。另赠送 14 元体验金,有效期未知,是个人认为 API 接口最方便最实惠的接口了。 silicon 注册和使用地址: 邀请码:ESTKPm3J(谢谢支持) 注册登录后,单击左边栏的 API 密钥,单击新建 API 密钥。 单击密钥即可完成 API 密钥的复制。 silicon 支持多种大模型,也支持文生图、图生图、文生视频,可自行探索。 这一步得到 silicon 的密钥即可,我们可以调用千问 2.5 的这个模型,满足日常对话完全没有问题,并且是免费调用的。 5. 申请大模型的 API 接口(以智普 GLM4 接口为例): 正在 BigModel.cn 上用智谱 API 打造新一代应用服务,通过专属邀请链接注册即可获得额外 GLM4Air 2000 万 Tokens 好友专属福利,期待和您一起在 BigModel 上探索 AGI 时代的应用;链接:https://www.bigmodel.cn/invite?icode=xxcbnybpRLOsZGMNOkqaLnHEaazDlIZGj9HxftzTbt4%3D 进入个人中心,先完成实名认证,再单击左边栏 API KEYS 或右上角的 API 密钥,进入后单击右上角的添加 API。 鼠标移至密钥上方,单击复制即可得到智普的 APIkey。 这一步做的是注册 silicon 和智普 GLM 的大模型账号,申请 API 密钥,保存密钥,等下配置需要填写。 密钥一定要保管好不能公开,否则后果很严重。
2025-01-06
模型的部署、容器化
以下是关于模型的部署和容器化的相关信息: ComfyUI ollama 本地大模型部署: 1. 先下载 ollama 安装,安装完成后不会有任何界面弹出,可以在电脑桌面右下角或者隐藏图标里面找到。 2. 之后再去下载对应的模型,选择模型,复制对应的命令。 3. 打开命令行界面,输入对应的模型获取命令,等待下载完成。 4. 下载的模型会保存到 D:\\ollama\\blobs 目录。 5. Docker 安装时会下载一些文件,安装后改下目录,不要放在 C 盘。 6. Open webui 安装,输入相关命令,安装成功后,回到 docker,点击会自动打开网页,第一次使用需注册账号,选择下载好的模型即可开始使用。 7. 若出现端口占用问题,运行特定两条命令可以解决。 8. 相关链接: comfyuiollama:https://github.com/stavsap/comfyuiollama?tab=readmeovfile Ollama:https://ollama.com/ docker:https://www.docker.com/ Open webui:https://openwebui.com/ 模型部署: 1. 选择学习路径: 快速上手 使用 Anaconda: 第 0 步:确保安装了 Python 3.10 以上版本。 第 1 步:准备环境,如需设置环境,安装所需要的软件包,运行特定命令。 第 2 步:从以下来源下载 Atom7BChat 模型:。 第 3 步:进行推理,创建一个名为 quick_start.py 的文件,并将相关内容复制到该文件中,运行 quick_start.py 代码。 快速上手 使用 Docker:详情参见:,包括准备 docker 镜像,通过 docker 容器启动,通过 dockercompose 启动 chat_gradio。 快速上手 使用 llama.cpp:详情参见: 快速上手 使用 gradio:基于 gradio 搭建的问答界面,实现了流式的输出,将特定代码复制到控制台运行,不同模型只需修改 model_name_or_path 对应的模型名称。 ComfyUI FLUX 模型的安装部署: 1. 模型:FLUX.1、FLUX.1,建议选择 dev 版本的,显卡可以的用 fp16,显卡不够用的选 fp8。模型下载后,放入 ComfyUI/models/unet/文件夹中。若爆显存,“UNET 加载器”节点中的 weight_dtype 可设置为 fp8,降低显存使用量,但可能稍降质量。 2. clip:t5xxl_fp16.safetensors 和 clip_l.safetensors,放在 ComfyUI/models/clip/文件夹里面。可以使用 t5xxl_fp8_e4m3fn.safetensors 来降低内存使用率,若有超过 32GB 内存,建议使用 fp16。相关链接:https://huggingface.co/comfyanonymous/flux_text_encoders/tree/main 3. Vae:下载后放入 ComfyUI/models/vae 文件夹。 4. T5(/t5xxl_fp16.safetensors)的这个 clip,原本有一个输入输出,可能会导致提示词被吞,短提示效果差,训练 flux 或者 sd3 时,应尽量用长提示词或自然语言。
2025-01-06
开源模型与闭源模型调用
开源模型与闭源模型调用相关信息如下: 通义千问自 2023 年 8 月起密集推出 Qwen、Qwen1.5、Qwen2 三代开源模型,Qwen 系列的 72B、110B 模型多次登顶 HuggingFace 的 Open LLM Leaderboard 开源模型榜单。Qwen2 系列已上线魔搭社区 ModelScope 和阿里云百炼平台,开发者可在魔搭社区体验、下载模型,或通过阿里云百炼平台调用模型 API。同时,Qwen272binstruct 模型已上线中国大语言模型评测竞技场 Compass Arena,所有人都可登录体验其性能或进行对比测评,测评地址为:https://opencompass.org.cn/arena 。Compass Arena 是由上海人工智能实验室和魔搭社区联合推出的大模型测评平台,集齐了国内主流的 20 多款大模型。 部分声称性能卓越的中国大模型被揭露为“套壳”产品,如李开复创办的“零一万物”被国外开发者质疑为“套壳”产品,其团队承认在训练过程中沿用了开源架构。此外,字节跳动被曝出在其秘密研发的大模型项目中调用了 OpenAI 的 API,并使用 ChatGPT 的输出数据来训练自己的模型。 在 LLM 应用程序中,开发者通常使用 OpenAI API 启动新的 LLM 应用,如 gpt4 或 gpt432k 模型。当项目投入生产并规模化时,常见的选择包括切换到更便宜且速度更快的 gpt3.5turbo,与其他专有供应商(如 Anthropic 的 Claude 模型)进行实验,将一些请求分流到开源模型等。开源模型有多种推理选项,包括 Hugging Face 和 Replicate 的简单 API 接口、主要云提供商的原始计算资源等。
2025-01-06
RAG,Agent 与小模型
以下是关于 RAG、Agent 与小模型的相关知识: Agent: Agent 是大模型的一个热门概念,被认为是大模型未来的主要发展方向之一。 其本质是在大模型(如 LLM)基础上增加工具、记忆、行动、规划这四个能力。 目前行业里主要用到的是 langchain 框架,它把 LLM 和 LLM 之间以及 LLM 和工具之间通过代码或 prompt 的形式进行串接。 例如,长期记忆相当于给大模型一个数据库工具让其记录重要信息,规划和行动则是在大模型的 prompt 层做逻辑设计,如将目标拆解并输出不同的固定格式 action 指令给工具。 RAG: 向量相似性检索,可以放在 system prompt 里或通过 tools 触发检索。 当大模型应用于实际业务场景时,会存在知识局限性、幻觉问题、数据安全性等问题,RAG 是解决这些问题的有效方案。 它能让大模型从权威、预先确定的知识来源中检索和组织相关信息,更好地控制生成的文本输出,用户也能了解 LLM 生成最终结果的过程。 RAG 可与微调结合使用,RAG 类似于为模型提供教科书,适用于回答特定询问或解决特定信息检索任务,不适合教模型理解广泛领域或学习新的语言、格式或样式。 小模型:文中未提及小模型的相关具体内容。
2025-01-06
有没有哪个软件,可以把多张图,合成一个产品图
以下为您推荐几款可以将多张图合成一个产品图的软件和工具: 1. ICLight:这是由 ControlNet 作者张吕敏刚放出的工具。 体验链接: GitHub 地址:https://github.com/lllyasviel/ICLight 体验地址:https://huggingface.co/spaces/lllyasviel/ICLight 功能特点:可以传一张图,选择光源位置,填上提示词,生成新的有光源角度的融合背景的图。还支持选择背景图片和简单提示词,完美重新打光。 2. Comfyui 工作流: 相关资源: Lora 下载:https://huggingface.co/alivilab/InContextLoRA/tree/main 工作流下载:https://github.com/op7418/Comfyuiworkflow/blob/main/FLUX/Logo%20%E5%91%A8%E8%BE%B9%E7%94%9F%E6%88%90.json 3. 即梦: 基础操作: 打开即梦官网 https://jimeng.jianying.com/ 选择图片生成 选择导入参考图(上传一张参考图,点击智能参考) 功能案例: 模特图自由定制,如变装、换发型、换脸、换发色和调整人物姿势。 产品图随心变化,可改变产品材质、调整画面背景。 电商海报一键搞定,支持随意更改背景、元素,适应不同营销主题。 希望以上信息对您有所帮助。
2025-01-06
你有没有文生图的prompt模板
以下是一些文生图的 prompt 模板和相关指导: 1. 定主题:明确生成图片的主题、风格和要表达的信息。 2. 选择基础模型 Checkpoint:根据主题选择贴近的模型,如麦橘、墨幽的系列模型。 3. 选择 lora:寻找与生成内容重叠的 lora,以控制图片效果和质量。 4. ControlNet:可控制图片中特定的图像,如人物姿态、特定文字等,属于高阶技能。 5. 局部重绘:下篇再教。 6. 设置 VAE:无脑选择 840000 这个即可。 7. Prompt 提示词:用英文写需求,使用单词和短语组合,不用管语法,单词、短语之间用英文半角逗号隔开。 8. 负向提示词 Negative Prompt:用英文写要避免产生的内容,同样是单词和短语组合,中间用英文半角逗号隔开。 9. 采样算法:一般选 DPM++2M Karras,也可参考 checkpoint 详情页上模型作者推荐的采样器。 10. 采样次数:根据采样器特征,选 DPM++2M Karras 时,采样次数在 30 40 之间。 11. 尺寸:根据喜好和需求选择。 描述逻辑通常包括:人物及主体特征(服饰、发型发色、五官、表情、动作),场景特征(室内室外、大场景、小细节),环境光照(白天黑夜、特定时段、光、天空),画幅视角(距离、人物比例、观察视角、镜头类型),画质(高画质、高分辨率),画风(插画、二次元、写实)。 对于新手,可通过以下方式辅助写提示词: 1. 利用功能型辅助网站,如 http://www.atoolbox.net/ ,通过选项卡快速填写关键词信息。 2. 参考 https://ai.dawnmark.cn/ ,其每种参数有缩略图可参考,更直观选择提示词。 3. 去 C 站(https://civitai.com/)抄作业,复制每一张图的详细参数。 在 Stable Diffusion 中,生成方式主要分为文生图和图生图两种。文生图仅通过正反向词汇描述发送指令,图生图除文字外还可给 AI 参考图模仿。采样迭代步数通常控制在 20 40 之间,采样方法常用的有 Euler a、DPM++2S a Karras、DPM++2M Karras、DPM++SDE Karras、DDIM 等,有的模型有指定算法搭配更好。比例设置时,高宽比尽量在 512x512 数值附近,太大数值可能导致奇怪构图,若想要高清图可同时点选高清修复放大图像倍率。
2025-01-05
有没有语音翻译工具
以下为您介绍一些语音翻译工具: Eleven Labs 推出的 Dubbing:可以将视频/音频翻译成不同的语言,同时保持原始的声音。支持十一种语言的 AI 配音功能,v2 模型目前支持包括印地语、葡萄牙语、西班牙语、日语、乌克兰语、波兰语、阿拉伯语等 20 多种语言的语音翻译。还可以检测多个说话人的声音,支持背景音分离和环境音降噪。 ZipZapAI:提供沉浸式阅读和写作体验,支持多种语言的高质量翻译。能够智能识别网页上的内容,如 Twitter、Discord 等,提供鼠标悬停翻译。支持 Chrome、Edge 等主流浏览器,下载插件即可使用。具有简单易用的用户界面,操作方便,内置了 GPT 的聊天功能,可以随时提问。 此外,ChatGPT 的语音功能已向所有免费用户开放,更新下载客户端即可使用。
2025-01-02
我想问 有没有可以帮忙写 flux 或者其他图像模型 prompt 的 system prompt 模板
以下是为您整理的相关内容: 关于 FLUX 模型的安装部署: 模型选择:FLUX.1 有 dev、dev fp8、schnell 等版本,建议选择 dev 版本,显卡较好可用 fp16,显卡不够选 fp8。模型下载后放入 ComfyUI/models/unet/文件夹中。若爆显存,可在“UNET 加载器”节点中将 weight_dtype 设置为 fp8,降低显存使用量,但可能稍降质量。 clip:t5xxl_fp16.safetensors 和 clip_l.safetensors 放在 ComfyUI/models/clip/文件夹里,也可用 t5xxl_fp8_e4m3fn.safetensors 降低内存使用率,超过 32GB 内存建议用 fp16。 Vae:下载后放入 ComfyUI/models/vae 文件夹。 关于训练 Midjourney 的 prompt: 训练问题:强大的 DMs 通常消耗数百个 GPU 天,推理由于顺序评估而成本高昂。在有限的计算资源上应用 DMs 于强大的预训练自动编码器的潜在空间中训练,可在不影响质量和灵活性的情况下实现复杂度降低和细节保留的最佳点,显著提高视觉保真度。引入交叉注意力层到模型架构使扩散模型成为强大灵活的生成器,支持文本和边界框等一般条件输入,实现高分辨率卷积合成。 版本:Midjourney 定期发布新模型版本以提高效率、连贯性和质量。最新模型为默认,也可通过version 或v 参数或/settings 命令选择其他版本。V5 模型于 2023 年 3 月 15 日发布,具有更广泛的风格范围、更高的图像质量、更详细的图像等优点。 关于 ComfyUI 图片提示词反推提示词生成: 在 ComfyUI 里使用 MiniCPM 做图片提示词反推与文本提示词生成,可和 flux 模型配合生成图片,建议使用量化版本的模型(int4 结尾)节省显存。 安装方法:进入 ComfyUI 自定义节点目录,克隆相关仓库,重启 ComfyUI。 模型下载:网盘 https://pan.quark.cn/s/00b3b6fcd6ca ,下载后放入 ComfyUI 的 models 文件夹下 MiniCPM 文件夹中,没有就新建一个。
2025-01-02
有哪些作文批改类的ai工具。以及有没有ai作文批改的共学分享
以下是一些常见的作文批改类 AI 工具: 1. Wordvice AI:集校对、改写转述和翻译等功能于一体的 AI 写作助手,基于大型语言模型提供全面的英文论文润色服务。 2. ChatGPT:由 OpenAI 开发的大型语言模型,可用于学生和写作人员的多方面写作辅助。 3. Quillbot:人工智能文本摘要和改写工具,可用于快速筛选和改写文献资料。 4. HyperWrite:基于 AI 的写作助手和大纲生成器,可帮助用户在写作前进行头脑风暴和大纲规划。 5. Wordtune:AI 驱动的文本改写和润色工具,可以帮助用户优化文章的语言表达。 6. Smodin:提供 AI 驱动的论文撰写功能,可以根据输入生成符合要求的学术论文。 关于 AI 作文批改的共学分享,目前在飞书群进行问题接龙及答疑,例如: 1. 上课用什么工具,大模型工具需自行准备,推荐顺序为 chatGPT 4.0、kimichat、智谱清言 4。 2. 文本纠错方面的方法案例,如果是问工具,飞书文档带有纠错功能;如果用 prompt 纠错,文本量不能太大,直接告诉大模型:检查下列文本中的错别字、语法错误和格式错误,指出并改正,重新生成新的文本。 3. 用文心一言 APP 可以。 4. 关于国内是否有类似国外提示词支持调用其他 AI 工具的情况,如国产大模型能否文生图,一些模型可以,比如智谱和文心。 5. 把文章给大模型容易,关键是自己给自己写什么样的 prompt。 6. 如果只是用来自己学,长期学习,不一定必须需要 iPhone 手机或者对显卡有一定要求,ChatGPT 交费存在问题且没有途径。
2024-12-31
有没有可以帮我翻译万字中文文档为英文的工具
以下是一些可以帮助您翻译万字中文文档为英文的工具和方法: 1. 利用 ChatGPT:先将中文内容以流水账式记叙文写出来,然后把中文丢进 ChatGPT,并给出指令让其翻译成英文。 2. DeepL(网站): 点击页面「翻译文件」按钮,上传 PDF、Word 或 PowerPoint 文件即可。 3. 沉浸式翻译(浏览器插件): 安装插件后,点击插件底部「更多」按钮,选择「制作双语 BPUB 电子书」、「翻译本地 PDF 文件」、「翻译 THML/TXT 文件」、「翻译本地字幕文件」。 4. calibre(电子书管理应用): 下载并安装 calibre,并安装翻译插件「Ebook Translator」。 5. 谷歌翻译(网页): 使用工具把 PDF 转成 Word,再点击谷歌翻译「Document」按钮,上传 Word 文档。 6. 百度翻译(网页): 点击导航栏「文件翻译」,上传 PDF、Word、Excel、PPT、TXT 等格式的文件,支持选择领域和导出格式(不过进阶功能基本都需要付费了)。 7. 彩云小译(App):下载后点击「文档翻译」,可以直接导入 PDF、PDF、Word、Excel、PPT、TXT、epub、srt 等格式的文档并开始翻译(不过有免费次数限制且进阶功能需要付费)。 8. 微信读书(App):下载 App 后将 PDF 文档添加到书架,打开并点击页面上方「切换成电子书」,轻触屏幕唤出翻译按钮。 9. 浏览器自带的翻译功能:如果一些 PDF 太大,翻译工具不支持,除了将 PDF 压缩或者切分外,还可以转成 HTML 格式,然后使用浏览器自带的网页翻译功能。
2024-12-31
我想知道目前最新、效果最好、代码和模型开源的动作捕捉算法,也叫做人体姿态估计,是哪篇文章
目前最新、效果较好且代码和模型开源的人体姿态估计(动作捕捉算法)相关的研究有以下两篇: 1. 【SD】最强手部识别,controlnet 新预处理器 dw openpose 作者:白马少年|公众号:【白马与少年】 发布时间:20230813 20:00 原文网址:https://mp.weixin.qq.com/s/_RiKxWy9MXt4DUJIKH5w 介绍:在 controlnet 中,手部识别一直使用的是 openpose 预处理器,但复杂手势有时无法识别。新的 dw openpose 预处理器能完美解决手部识别问题,将其放入特定目录即可使用。但需说明的是,目前这个 DW Pose 只是更精确的 openpose 预处理器,未对 ControlNet 的 openpose 模型做改动。 2. YOLONAS Pose:一个开源的实时人体姿态估计模型 应用场景:基于骨骼标记为基础,适用于智慧体育等场景,可对训练过程的姿态、数据、状态等进行统计和管理。 技术类型:视频、AI 学习模型 简介:主要功能是识别图片和视频中人的姿势,能快速处理图像并实时返回姿态数据,适应不同场景和设备。 主要特点: 实时性能:旨在提供实时的姿态估计,适用于需要即时反馈的应用。 高精度:利用神经网络架构搜索(NAS)提高姿态估计的准确性。 优化的网络结构:NAS 自动测试不同网络结构,找到最优模型。
2024-12-31
那个AI产品适合写作公众号的文章
以下是一些适合用于写作公众号文章的 AI 产品及相关方法: 对于生成文章,关键在于提供清晰且具有指导性的提示词(prompt)。一个好的提示词能帮助 AI 更准确地理解需求,生成更符合预期的内容。若已有基本提示词,AI 可生成基础文章;若想提升质量,可提供更详细、具创意的提示词,如“请根据我们收集的关于 OpenAI 回应马斯克言论的资讯,创作一篇既深入又易于理解的科技资讯文章。文章应该有一个吸引人的标题,开头部分要概述事件的背景和重要性,主体部分详细分析 OpenAI 的回应内容及其可能产生的影响,结尾处提出一些引人深思的问题或观点。”这样的提示词能为 AI 设定文章结构和内容要求,生成结构完整、内容丰富、观点鲜明的文章,但最终产出的内容可能需要微调以符合预期和公众号风格。 在整理资料方面,可使用月之暗面开发的这个 AI 会话助手。它具备读取网页内容并生成一定内容的能力,读取完毕会显示绿色标点作为提示。但需注意其阅读能力有一定限制,可能无法一次性处理大量资讯或读取某些网站内容,可分批次提供资料以确保其有效读取和理解。
2024-12-27
专业英文文章润色提示词
以下是关于专业英文文章润色提示词的相关内容: 在学术场景数据处理方面: 论文总结:大模型结合良好的提示词,如 GLM4Plus ,能够帮助学生快速总结论文内容,提高梳理效率。 论文翻译:市面上的翻译软件存在字数限制,大模型可弥补不足,如 GLM 结合良好提示词能快速翻译论文内容,提高阅读效率。 论文内容扩写润色:将论文内容转化为社交媒体的科普内容,如针对小红书使用场景,调整提示词以匹配其口语化、轻松愉快的氛围。 优化和润色提示词(Prompt)的方法: 明确具体的描述,使用更具体、细节的词语和短语。 添加视觉参考,插入相关图片。 注意语气和情感,用合适的形容词、语气词等调整。 优化关键词组合,尝试不同搭配和语序。 增加约束条件,如分辨率、比例等。 分步骤构建 Prompt ,将复杂需求拆解为子 Prompt 。 参考优秀案例,借鉴写作技巧和模式。 反复试验、迭代优化,根据输出效果反馈完善。 在蓝衣剑客的四万字长文中: 文章润色任务首先要构建包含数据结构的数据库,设计包含润色风格名称、风格描述、适用文章类型和风格示例四个关键字段。 文章风格提取部分,存库的 SQL 需搭配数据库插件使用。 文章润色部分可做成 Bot 形式,若如此,风格抽取的 SQL 将被替代成自然语言。
2024-12-27
我想要学习prompt,请你推送10篇知识库相关文章给我
以下是 10 篇与 prompt 相关的知识库文章: 1. 2. 3. 4. 5. 6. 7. 8. 9. 10.
2024-12-26
在WayToAGI的直播中分享插件大全的“罗文老师”有哪些分享的文章或者视频吗
以下是 5 月 10 日罗文分享《认识插件》的相关文章或视频内容: 罗文分享如何使用插件一键生成标题 罗文分享使用插件武装智能体的方法与挑战 罗文分享 AI 插件使用方法及相关名词解释 罗文讲解单函数版本、方法论及插件配置 如何使用插件提升工作效率 如何快速了解插件的用途及使用场景 如何理解和运用插件 罗文讲解 API 使用技巧及相关提示词的作用 如何稳定调用 API 获取想要的信息 罗文分享使用插件的八步法及挑战 关于如何使用 flow 插件创建机器人的步骤讲解 关于如何在飞书上进行 API 内容报名的步骤讲解 关于国内版本使用的相关问题解答与分享 170 人同时编辑多维表格,字节同学帮忙做压测 关于多维表格插件使用的讨论 关于 AI 工具使用的分享与讨论 介绍智能体插件的使用方法 关于如何设置文档权限及使用插件的操作教程 关于如何使用代码执行器及流程化模板的讨论 关于智能体插件使用的讨论及实操演示 关于多维表格插件使用说明挑战的工作流程介绍 关于插件 API 使用的讨论 罗文分享工作流的设计与应用 罗文分享工作流程及机器人使用心得
2024-12-24
如何用ChatGPT写文章赚钱
以下是关于如何用 ChatGPT 写文章赚钱的相关信息: 1. ChatGPT 4.0 Canvas 功能助力写作,提升创作效率。它可以提供思路、润色语言、内容扩展,支持快速修改与撤回版本。对于高效网文创作有很大帮助,极大提升写作效率,成为写网文赚钱的有力工具。未来可能还会支持多人协作、数据图表生成、甚至直接生成 PPT。 2. ChatGPT 命令工具上线,提供搜索、图像、O1 推理三种命令,使普通模型也具备高级推理能力,所有模型均支持命令调用,显著提升了 ChatGPT 的整体能力。 但需要注意的是,利用 ChatGPT 写文章赚钱并非简单直接的过程,还需要您具备良好的选题能力、写作技巧和市场洞察力等。
2024-12-24