Navigate to WaytoAGI Wiki →
Home/Question List/Question Detail

如果我是一个只会使用大模型对话,不了解提示词逻辑,想要逐步学习ai相关知识的人,你推荐什么呢

Answer

以下是为您逐步学习 AI 相关知识的推荐:

  1. 关于大模型的思考与探讨:普通用户使用大模型时,语言不是关键,核心是向量空间中的游走脉络,输出时的语言翻译是次要的,且训练语料的中英文差异在于 embedding 环节。
  2. 垂类模型与大模型公式:通过合适的模型、prompt 和 test 入口表达,用大模型公式调试出好效果以替代垂类模型,但微调垂类模型可能使大模型泛化能力下降,需分场景看待。
  3. 提示词的挖掘:写提示词未挖掘出大模型的天花板,还有提升空间。
  4. 读书方法与提示词相关书籍推荐:读书最有效的是笨方法,不取巧,花时间读。并推荐了从数学、作家、代码、原理角度写大模型的四本书。
  5. 内置思维链提示词:针对小技巧类的思维链提示词有新模型能力涌现和大模型内置两个趋势,但对于某些如 COT 这类的内置可能会改变大模型的原味,对此存疑。
  6. 编写提示词的经验与思考:
    • 原汁原味与生效元素的平衡:为得到原汁原味的效果,需考虑是否反刻某些元素;生效的小技巧大模型可能会内置,如指定角色效果有变化。
    • 压缩与歧义的处理:找到凝练的核心概念(a)后,根据对象用不同方式(b)表达,核心在于找到准确的 a,而寻找 a 的方法目前主要是多读多泡在相关领域。
    • 持续学习与输出:通过阅读吸收输入,转换为自己的语言输出,与大模型交互提炼精华,多输出促进吸收输入。
  7. 调教 AI 和提示词:
    • 是否需要提示词工程,是否需要学提示词:持反对观点,像打字和写作一样。方法论不是关键,不断尝试和大模型交互,便是最佳方法。
    • 和大模型交互需要遵循规则吗:不需要。网上流传最广的提示词方法论,是“给大模型一个角色”,这是一个好的策略,但不是必须遵循的原则,甚至所有规则都不是必须遵守的。可以在提示词里面设定规则,也可以聊着聊着临时更改规则,和大模型交互时完全不需要考虑规则。要考虑的就是是否达成了目的,如果没达成,那就锲而不舍的开一个新窗口,再尝试一下。如果还是不行,换个模型。
    • 用 Markdown 格式清晰表达问题:Markdown 通过其易读性、格式化的灵活性和信息的清晰结构,使得与大模型的交流更加高效和精确。有助于模型更好地理解用户的意图。其优势包括结构清晰、格式化强调、适用性广。
  8. 小白学习指南:
Content generated by AI large model, please carefully verify (powered by aily)

References

05-如何与AI对话

[heading2]总结关于大模型的思考与探讨大模型中文表达:李继刚认为作为普通用户,语言在大模型中不是关键,核心是向量空间中的游走脉络,输出时的语言翻译是次要的,且训练语料的中英文差异在于embedding环节。垂类模型与大模型公式:Olivia提出通过合适的模型、prompt和test入口表达,用大模型公式调试出好效果以替代垂类模型,李继刚认为微调垂类模型可能使大模型泛化能力下降,需分场景看待。提示词的挖掘:李继刚认为写提示词未挖掘出大模型的天花板,还有提升空间。读书方法与提示词相关书籍推荐:李继刚认为读书最有效的是笨方法,不取巧,花时间读。并推荐了从数学、作家、代码、原理角度写大模型的四本书。内置思维链提示词:李继刚认为针对小技巧类的思维链提示词有新模型能力涌现和大模型内置两个趋势,但对于某些如COT这类的内置可能会改变大模型的原味,对此存疑。关于编写提示词的经验与思考原汁原味与生效元素的平衡:为得到原汁原味的效果,需考虑是否反刻某些元素;生效的小技巧大模型可能会内置,如指定角色效果有变化。压缩与歧义的处理:找到凝练的核心概念(a)后,根据对象用不同方式(b)表达,核心在于找到准确的a,而寻找a的方法目前主要是多读多泡在相关领域。持续学习与输出:通过阅读吸收输入,转换为自己的语言输出,与大模型交互提炼精华,多输出促进吸收输入。

如何调教 AI,提示词,就应该和打字一样简单!

“AI时代我们都翻身农奴当老板,拥有数字员工后的我们,了解这些员工的秉性,成为新时代的超级个体。”[heading1]01[heading1]—[heading1]是否需要提示词工程,是否需要学提示词?[content]我是持反对观点的,像打字和写作一样。方法论不是关键,不断尝试和大模型交互,便是最佳方法。[heading1]02[heading1]—[heading1]和大模型交互需要遵循规则吗?[content]不需要。网上流传最广的提示词方法论,是“你需要给大模型一个角色”。这确实是一个好的策略,因为小学老师,大学老师这样的角色,预设很多背景信息。这是一个非常讨巧的方式。但我并不认为这是一条必须要遵循的原则,甚至所有的规则都不是必须遵守的。你可以在提示词里面设定规则,也可以聊着聊着临时更改规则,和大模型交互时完全不需要考虑规则。要考虑的就是是否达成了你的目的,如果没达成,那就锲而不舍的开一个新窗口,再尝试一下。如果还是不行,换个模型。[heading1]03[heading1]—[heading1]用Markdown格式清晰表达问题[content]Markdown通过其易读性、格式化的灵活性和信息的清晰结构,使得与大模型的交流更加高效和精确。有助于模型更好地理解用户的意图。1.结构清晰:Markdown通过简单的标记语法提供了丰富的格式化选项,如列表、标题、加粗、斜体、链接等。这使得信息呈现出清晰的结构,有助于模型更好地理解问题的重点和结构。2.格式化强调:Markdown允许用户通过格式化来强调问题中的关键部分,如使用加粗来突出重点或使用列表来组织多个问题或信息点。强调有助于模型识别和优先考虑文本的关键部分,从而提高回答的相关性和准确性。3.适用性广:由于Markdown在技术和非技术领域的广泛应用,使用这种格式交流可以确保信息的有效传达。普适性强。[heading1]04

小七姐:Prompt 喂饭级系列教程 小白学习指南(一)

可能对于学了很久prompt的包括小七姐在内的很多星友来说,下面这些内容真的已经是老生常谈了,总觉得没有必要反复提及,但今天认真搜索和翻阅了一下关于prompt新手教程的帖子,的确发现对新手不是很友好,比较零散,不成体系。这里做一个统一的收集和整理,小七姐也努力不断调起自己初学时的同理心,尽量写的再入门一点,希望能帮助更多刚入门学习提示词的朋友。第一步:你要有一个大模型帐号,至少已经熟悉和它们对话的方式。最强性能当属ChatGPT4,当然也推荐国产平替:[Kimi.ai-帮你看更大的世界](https://kimi.moonshot.cn)[智谱清言](https://chatglm.cn)第二步:看OpenAI的官方文档:[目录:OpenAI官方指南](https://waytoagi.feishu.cn/wiki/EGU4wV4q6i6vprk5A7dckaGTne0)[OpenAI官方提示工程指南](https://waytoagi.feishu.cn/wiki/HuClwX8wai1fD7kLhyBcdxzJnJf)这是每个学习prompt的人必须看的基础课,相当于人教版教材,建议阅读学习。我和熊猫Jay也在AGI分享了中文精度版的官方Cookbook:[Cookbook:OpenAI中文精读](https://waytoagi.feishu.cn/wiki/Pu2OwhTuni6H3jkiv3FcwCuLn7c)[熊猫Jay:万字解读ChatGPT提示词最佳实践](https://waytoagi.feishu.cn/wiki/FoJJwvwBNiEJYjkx1ygccO2CnVe)

Others are asking
视频总结的AI
以下是关于视频总结的 AI 相关内容: 除聊天内容外,AI 可总结不超过 2 万字的文章。例如,将文章全选复制粘贴给 GPTs 即可总结,GPT4 能识别重点内容。 对于 B 站视频,若视频有字幕,可通过安装油猴脚本“Bilibili CC 字幕工具”获取字幕。刷新浏览器,点击字幕会出现“下载”按钮,可选择多种字幕格式。将下载的字幕文字内容全选复制发送给 GPTs 就能实现视频总结。总结完还可继续向 AI 提问或探讨。 OpenAI 开发者利用升级的 API 实现足球比赛视频的全 AI 解说。具体步骤包括提取视频帧(使用 OpenCV 初始化视频文件读取,遍历逐帧处理并编码为 base64 格式)、构建描述提示(创建结构化提示,包含视频描述请求和部分编码的 base64 视频帧)、发送 GPT 请求(定义参数如模型、提示信息、API 密钥和最大令牌限制)。 在 AI 视频运动镜头词测试中,Dream Machine 是一种可将文本和图像制作成高质量逼真视频的 AI 模型。测试目的包括掌握影视级运镜、评估精度和稳定性、检测运镜崩坏情况。测试说明包括取消勾选 Enhance prompt 等。测试总结指出纯运镜关键词效果不佳,需结合具体画面描述才有较好效果,且 luma 会根据画面合理性自行调整运镜。
2025-03-06
如何利用ai修改论文?
利用 AI 修改论文可以从以下几个方面入手: 1. 内容生成和辅助写作: Grammarly 可通过 AI 技术提供文本校对、语法修正和写作风格建议,帮助提高论文的语言质量。 Quillbot 是基于 AI 的重写和摘要工具,能帮助精简和优化论文内容。 2. 文献管理和搜索: Zotero 结合 AI 技术,能自动提取文献信息,便于管理和整理参考文献。 Semantic Scholar 作为 AI 驱动的学术搜索引擎,可提供相关文献推荐和引用分析。 3. 研究和数据分析: Google Colab 提供基于云的 Jupyter 笔记本环境,支持 AI 和机器学习研究,利于进行数据分析和可视化。 Knitro 用于数学建模和优化,有助于进行复杂的数据分析和模型构建。 4. 论文结构和格式: LaTeX 结合了自动化和模板,能高效处理论文格式和数学公式。 Overleaf 是在线 LaTeX 编辑器,有丰富模板库和协作功能,简化论文编写过程。 5. 研究伦理和抄袭检测: Turnitin 是广泛使用的抄袭检测工具,确保论文原创性。 Crossref Similarity Check 通过与已发表作品比较,检测潜在抄袭问题。 在实际修改过程中,还可以参考以下经验: 像南瓜博士那样,将原文喂给相关的 AI 工具,如 code interpreter ,让其写入到 dataframe 里,保存成文件备用。 让 AI 从情节合理与连贯性角度给出意见,并根据其修改。 对于修改细节,可反复尝试,发现效果好的 prompt ,如 Arthur 的结构化 prompt ,对于改得不好的地方进行简单纠正。 一轮修改完成后,可根据需要进行新一轮修改,调整修改的重点,如更强调字词和标点。 需要注意的是,使用这些工具时,要结合自己的写作风格和需求,选择最合适的辅助工具,同时要仔细甄别 AI 生成的内容,避免过度依赖。
2025-03-06
免费ai
以下是为您整理的关于免费 AI 的相关内容: 周鸿祎免费课 AI 系列第一讲: 周鸿祎认为在人工智能的技能和知识面前人人平等,学会人工智能是未来职业发展必备的基本能力。不懂人工智能可能会被淘汰。 免费课的关键词是免费、分享、科普、交流。 周鸿祎受李一舟启发,做免费科普课,分享 AI 知识,共同交流。课程会先从宏观开始,后面会宏观、微观结合,安排人工智能研究院的产品经理、技术专家配合讲解基本产品的使用方法等微观内容。 免费的 AI 理解论文服务: 对于计算机领域(尤其是人工智能话题),可以看看 https://www.aminer.cn/ ,该网站提供免费的 AI 理解论文服务(每篇论文只要处理一次便全站可看,成本很低)以及基础的 chat with paper 功能,多数论文都有免费的 PDF 下载链接。
2025-03-06
AI如何自动定制贴纸
以下是关于 AI 自动定制贴纸的相关信息: 扎克伯格在上周年度 Connect 会议上宣布推出集成在应用里的 AI 贴纸功能。此功能可以轻松地为聊天和故事生成自定义贴纸,使用 Llama 2 的技术和 Emu 图像生成基础模型,能够在几秒钟内将您的文本提示变成多个独特的高质量贴纸。 这项新功能将于下个月在 WhatsApp、Messenger、Instagram 和 Facebook Stories 中向部分英语用户推出。
2025-03-06
AI自动定制贴纸
以下是关于 AI 自动定制贴纸的相关信息: 扎克伯格在上周年度 Connect 会议上宣布推出集成在应用里的一系列 AI 功能,其中包括 AI 贴纸。该功能可以轻松地为聊天和故事生成自定义贴纸,使用 Llama 2 的技术和 Emu 图像生成基础模型,能够在几秒钟内将您的文本提示变成多个独特的高质量贴纸。这项新功能将于下个月在 WhatsApp、Messenger、Instagram 和 Facebook Stories 中向部分英语用户推出。
2025-03-06
什么是AI AGENT
AI Agent 是基于大型语言模型(LLM)和其他技术实现的智能实体,其核心功能在于自主理解、规划决策、执行复杂任务。 AI Agent 包括以下几个概念: 1. Chain:通常一个 AI Agent 可能由多个 Chain 组成。一个 Chain 视作是一个步骤,可以接受一些输入变量,产生一些输出变量。大部分的 Chain 是大语言模型完成的 LLM Chain。 2. Router:我们可以使用一些判定(甚至可以用 LLM 来判定),然后让 Agent 走向不同的 Chain。例如:如果这是一个图片,则 a;否则 b。 3. Tool:Agent 上可以进行的一次工具调用。例如,对互联网的一次搜索,对数据库的一次检索。 总结下来我们需要三个 Agent: 1. Responser Agent:主 agent,用于回复用户(伪多模态)。 2. Background Agent:背景 agent,用于推进角色当前状态(例如进入下一个剧本,抽检生成增长的记忆体)。 3. Daily Agent:每日 agent,用于生成剧本,配套的图片,以及每日朋友圈。 这三个 Agent 每隔一段时间运行一次(默认 3 分钟),运行时会分析期间的历史对话,变更人物关系(亲密度,了解度等),变更反感度,如果超标则拉黑用户,抽简对话内容,提取人物和用户的信息成为“增长的记忆体”,按照时间推进人物剧本,有概率主动聊天(与亲密度正相关,跳过夜间时间)。 此外,心灵社会理论认为,智能是由许多简单的 Agent(分等级、分功能的计算单元)共同工作和相互作用的结果。这些 Agent 在不同层次上执行不同的功能,通过协作实现复杂的智能行为。心灵社会将智能划分为多个层次,从低层次的感知和反应到高层次的规划和决策,每个层次由多个 Agent 负责。每个 Agent 类似于功能模块,专门处理特定类型的信息或执行特定任务,如视觉处理、语言理解、运动控制等。智能不是集中在单一的核心处理单元,而是通过多个相互关联的 Agent 共同实现。这种分布式智能能够提高系统的灵活性和鲁棒性,应对复杂和多变的环境。同时,在《心灵社会》中,还存在专家 Agent(拥有特定领域知识和技能,负责处理复杂的任务和解决特定问题)、管理 Agent(协调和控制其他 Agent 的活动,确保整体系统协调一致地运行)、学习 Agent(通过经验和交互,不断调整和优化自身行为,提高系统在不断变化环境中的适应能力)。从达特茅斯会议开始讨论人工智能(Artificial Intelligence),到马文·明斯基引入“Agent”概念,往后,我们都将其称之为 AI Agent。
2025-03-06
目前最方便的用来编程的免费AI有哪些?不能只会生成代码,还要像cursor一样有多种便利的编程功能
目前较为方便且具有多种便利编程功能的免费 AI 编程工具包括: 1. Cursor:是一个现代化的集成开发环境(IDE),具有 AI 辅助编码、代码自动补全、实时代码分析、多语言支持、集成终端、Git 集成、自定义主题、跨平台、性能优化和实时协作等特点。可通过 https://www.cursor.com/ 链接进入主页下载。 2. GitHub Copilot:由 GitHub 联合 OpenAI 和微软 Azure 团队推出,支持多种语言和 IDE,能为程序员快速提供代码建议。 3. 通义灵码:阿里巴巴团队推出,提供行级/函数级实时续写、自然语言生成代码、单元测试生成、代码注释生成、代码解释、研发智能问答、异常报错排查等能力。 4. CodeWhisperer:亚马逊 AWS 团队推出,由机器学习技术驱动,可为开发人员实时提供代码建议。 5. CodeGeeX:智谱 AI 推出的开源免费 AI 编程助手,基于 130 亿参数的预训练大模型,可快速生成代码。 6. Cody:代码搜索平台 Sourcegraph 推出的 AI 代码编写助手,借助 Sourcegraph 强大的代码语义索引和分析能力,了解开发者的整个代码库。个人使用免费。 7. CodeFuse:蚂蚁集团支付宝团队为国内开发者提供智能研发服务的免费 AI 代码助手。 8. Codeium:一个由 AI 驱动的编程助手工具,提供代码建议、重构提示和代码解释,提高编程效率和准确性。 此外,还有一些其他工具,如 Wing Python IDE Pro,专为 Python 编程设计,集成多种功能,但年度许可证起价 179 美元/月;Smol Developer 是开源的 AI 开发助手,能根据产品需求生成完整的代码库,遵循 MIT 许可证。 每个工具的功能和适用场景可能不同,您可以根据自身需求选择最适合的工具。更多辅助编程 AI 产品,还可以查看 https://www.waytoagi.com/category/65 。
2024-11-21
国内的ai软件有什么推荐的吗?我现在只会用来写文案,对它的开发实在是很贫瘠
以下是为您推荐的一些国内的 AI 软件: 1. 聊天对话类: Kimi:具有超长上下文能力,最初支持 20 万字的上下文,现已提升到 200 万字,适合处理长文本或大量信息的任务,但在文字生成和语义理解、文字生成质量方面可能不如国内其他产品,且不支持用户自定义智能体。 智谱清言:背后的技术源自清华大学研发团队的科研成果转化,模型质量出色,以 ChatGPT 为对标打造用户体验,在逻辑推理和处理复杂提示词方面有优势,是国内首批开放智能体应用的公司之一。 2. 编程辅助类: GitHub Copilot:由 GitHub 联合 OpenAI 和微软 Azure 团队推出,支持多种语言和 IDE,能快速提供代码建议。 通义灵码:阿里巴巴团队推出,提供多种编程辅助能力。 CodeWhisperer:亚马逊 AWS 团队推出,由机器学习技术驱动,实时提供代码建议。 CodeGeeX:智谱 AI 推出的开源免费编程助手,基于 130 亿参数的预训练大模型。 Cody:Sourcegraph 推出,借助强大的代码语义索引和分析能力了解开发者的整个代码库。 CodeFuse:蚂蚁集团支付宝团队推出的免费 AI 代码助手,基于自研基础大模型微调。 Codeium:由 AI 驱动,提供代码建议、重构提示和代码解释。 更多辅助编程 AI 产品,还可以查看这里:https://www.waytoagi.com/category/65 。每个工具的功能和适用场景可能不同,您可以根据自身需求选择。
2024-11-17
只会cad可以做室内设计吗
只会 CAD 可以做室内设计,但可能存在一定的局限性。 室内设计不仅需要掌握绘图工具,还需要具备以下多方面的能力和知识: 1. 创意和审美能力:能够构思出新颖、美观且实用的设计方案。 2. 空间规划能力:合理安排空间布局,满足功能需求和人体工程学。 3. 材料和装饰知识:了解各种材料的特性、价格和适用场景,以及装饰元素的搭配。 4. 客户需求理解:与客户充分沟通,准确把握其需求和偏好。 在当今的设计领域,AI 技术也为室内设计带来了新的可能性和辅助手段: 1. 利用 AI 图像生成工具,输入关键词生成多种创意设计方案,获取灵感。 2. 借助 AR/VR 等技术,将设计方案进行模拟和可视化,更好地评估和验证。 3. 使用 AI 工具对设计方案进行采光、动线、材料等方面的分析和优化。 4. 利用 AI 自动生成符合设计规范的平面图、立面图等,提高效率。 同时,也存在一些可以辅助或自动生成 CAD 图的 AI 工具和插件,例如 CADtools 12、Autodesk Fusion 360、nTopology、ParaMatters CogniCAD 等。但使用这些工具通常需要一定的 CAD 知识和技能,对于初学者,建议先学习基本的 3D 建模技巧。 例如在室内设计中使用“ControlNet”,可以先上传需要设计的房间照片,点击“启用”,选择相应的预处理器和模型,切换现实照片的大模型,输入关键词和主体后生成,这样既能保留原房屋构造,又能看到新的风格。
2024-08-10
有哪些资源可以通过excel表格或者对话生成思维导图
以下是关于通过 Excel 表格或对话生成思维导图的资源介绍: 过去,ChatGPT 无法直接生成思维导图,面对复杂代码或长篇文章,需利用 AI 提炼后再用思维导图软件转换,较为繁琐。 如今有了 GPTs,可通过 Actions 调取第三方平台(如 Gapier)提供的 API 直接获取内容对应的思维导图。 具体案例包括: 1. 在 Action 中引入 Gapier 生成代码的思维导图。 2. 在 Action 中引入 Gapier 和 Webpilot 生成在线文档的思维导图。
2025-03-06
产品经理想进入AI行业,成为AI产品经理,应该怎么准备,能够快速应付面试拿到offer?我的背景是过去3年集中在用户功能产品,有过1份AI多轮对话解决用户求职问题的AI项目经历
如果产品经理想进入 AI 行业成为 AI 产品经理并快速应付面试拿到 offer,可以从以下几个方面准备: 1. 了解 AI 市场: 鱼龙混杂,求职者要做好信息甄别。即使面试通过拿到 offer,除了看 boss 直聘的招聘评价,一定要提前收集其他信息,如在脉脉上搜一下这家公司靠不靠谱。 一些公司实际上没搞懂用 AI 能为自己企业带来什么价值,只是处于焦虑或跟风心态要做 AI,这部分企业可以聊,但要求求职者要有咨询和商业化的思维,能帮公司厘清业务增长机会。 不同公司对 AI 产品经理的定位不同,所以招聘市场上对 AI 产品经理的岗位职责和任职要求也不同,慢慢会统一标准,这也是产品经理转型的机会。 有行业沉淀和认知的产品经理转型会更有机会,类似之前的“互联网+”,目前应用层的机会在“AI+行业”,只懂 AI 或只懂行业是不够的。还有就是业务创新,找到细分的场景痛点并完成 PMF 验证,海外有很多优秀案例。 2. 掌握岗位技能: 本科及以上学历,计算机科学、人工智能、机器学习相关专业背景。 熟悉 ChatGPT、Llama、Claude 等 AI 工具的使用及原理,并具有实际应用经验。 熟练掌握 ChatGPT、Midjourney 等 AI 工具的使用及原理。 负责制定和执行 AI 项目,如 Prompt 设计平台化方法和模板化方法。 了解并熟悉 Prompt Engineering,包括常见的 Prompt 优化策略(例如 CoT、Fewshot 等)。 对数据驱动的决策有深入的理解,能够基于数据分析做出决策。 具有创新思维,能够基于业务需求提出并实践 AI first 的解决方案。 对 AI 技术与算法领域抱有强烈的好奇心,并能付诸实践。 对 AIGC 领域有深入的理解与实际工作经验,保持对 AI 技术前沿的关注。 具备一定的编程和算法研究能力,能应用新的 AI 技术和算法于对话模型生成。 具有一定的编程基础,熟练使用 Python、Git 等工具。 需要注意的是,观察上面的岗位需求,其实公司并不是需要一个 prompt 工程师,而是一个 AI 互联网产品经理。
2025-02-25
对话ai平台有哪些,各有什么特色
以下是一些常见的对话 AI 平台及其特色: 1. Replika:是最早和最著名的全栈伴侣应用程序之一,于 2017 年推出。用户可以设计理想的伴侣,关系会随时间发展,其代表能存储记忆用于未来对话,甚至发送照片。Replika 的 Subreddit 展示了其热情的用户群,用户会分享各种与代表的互动。但今年早些时候该应用程序移除了“情色角色扮演”功能,引起用户不满。 2. Character AI:基于角色的平台,可与数百个由 AI 驱动的角色对话,包括名人和受欢迎的动漫角色,还能创建自己的角色并赋予各种属性和功能,用户可训练角色、评价回答并生成新回答。 3. Chai:专门用于与机器人聊天的应用程序。 4. Janitor AI:专门用于与机器人聊天的应用程序。 5. Chub AI:专门用于与机器人聊天的应用程序。 6. Charstar:专门用于与机器人聊天的应用程序。 7. SpicyChat:专门用于与机器人聊天的应用程序。 8. Character.ai:行业扛把子,创建角色功能简洁,支持上传声音片段实现语言克隆。用户通过一问一答的多轮对话方式与角色交互,支持回复重新生成、回滚至指定位置。 9. 筑梦岛:背靠阅文,内容 IP 资源相对丰富。具有单人聊天和多人聊天模式,多人聊天为伪群聊。角色设定是核心人设属性,有梦境、小剧场等功能,创建角色需要提供各类信息。
2025-02-23
COZE对话流
以下是关于 Coze 的相关内容: 多 Agent 模式的实现机制: 图 12 中,用户输入“完成”触发执行流程,跳转到【AI 玩家发言】,调用该 Agent 的对话模型,获取所有 AI 玩家的发言。此节点跳转判断时机是“模型回复后”,在执行完工作流之后触发第三次 LLM 调用。 第三次 LLM 调用输入给跳转模型的提示词,由于对话记录变长,需用 GPT4o 这样的强力模型。模型输出“1”,选择【人类玩家投票】节点,然后调用【人类玩家投票】的对话模型,即第四次 LLM 调用。第四次调用的对话模型回复消息引导人类玩家进行投票。 用 Coze 搓乞丐版的秘塔搜索: 工作流是核心,需先梳理清楚。秘塔搜索的主要能力包括使用搜索引擎进行搜索、对搜索内容整理成答案、给出答案中的引用。 Coze 海外版多 discord 账号配置方法: 1. 在 discord 中已配置好的 cozebot 服务器上右键选“邀请其他人”,复制邀请链接备用。 2. 注册新谷歌账号或使用多余的谷歌账号。 3. 用新谷歌账号在未登录过 discord 的浏览器或谷歌无痕浏览器中注册新 discord 账号。 4. 复制邀请链接到新浏览器中,将新账号拉入 cozebot 服务器,如需多个账号则重复以上步骤,注意不要解除前边账号的登陆状态。 5. 按 F12,新账号在对话框中发言,复制新账号的“USER_AUTHORIZATION”值,多个账号依次操作。 6. 在宝塔的/data/cozediscordproxy/dockercompose.yml 文档中,粘贴多个“USER_AUTHORIZATION”值,以逗号分开,然后 dockercompose up d 重启 cdp。 7. 重新扫码后 coze 对话轮次增多。 8. 验证成功的方法:手机下载 discord 登录后打开通知,每条消息发送账号不同则成功;每轮对话会在 discord 以临时聊天框形式存在,也能看到不同账号参与。 Q&A:要保证之前账号的登陆状态,因为账号登出后“USER_AUTHORIZATION”值会变,需重新取用,很多人发现突然登不上去就是因为登出后值变化了。
2025-02-23
如何把视频的内容,包括对话的文字提取并总结成文字?
要把视频的内容包括对话文字提取并总结成文字,可以按照以下步骤进行: 1. 对于有字幕的 B 站视频,如果视频栏下面有字幕按钮,说明视频作者已上传字幕或后台适配了 AI 字幕。 2. 安装油猴脚本: 。 3. 安装之后刷新浏览器,点击字幕会出现“下载”按钮。 4. 点击下载按钮,选择多种字幕格式,如带时间或不带时间的。 5. 将下载的字幕文字内容全选复制发送给 GPTs 进行总结。 此外,还有一个集成的视频理解系统 MMVid,它由 Microsoft Azure AI 开发,结合了 GPT4V 的能力和其他视觉、音频和语音处理工具,能处理和理解长视频和复杂任务,能够自动识别和解释视频中的元素,如人物行为、情感表达、场景变化和对话内容,从而实现对视频故事线的理解,其核心功能是将视频中的多模态信息转录成详细的文本脚本,方便大语言模型理解视频内容。
2025-02-20
怎么让AI识别对话,并生成结构化数据存储到我的软件系统里
要让 AI 识别对话并生成结构化数据存储到软件系统里,可以参考以下方法: 1. 基于结构化数据来 RAG:如果原始数据本身就是结构化、标签化的,不必将这部分数据做向量化。结构化数据的特点是特征和属性明确,可用有限标签集描述,能用标准查询语言检索。以餐饮生活助手为例,流程包括用户提问、LLM 提取核心信息并形成标准查询、查询结构化数据、LLM 整合回复。 2. 利用 Coze 平台设计 AI 机器人:创建好 Bot 后,从“个人空间”入口找到机器人,进行“编排”设计。Coze 平台常用的概念和功能包括提示词(设定 Bot 身份和目标)、插件(通过 API 连接集成服务)、工作流(设计多步骤任务)、触发器(创建定时任务)、记忆库(保留对话细节,支持外部知识库)、变量(保存用户个人信息)、数据库(存储和管理结构化数据)、长期记忆(总结聊天对话内容)。设计 Bot 时要先确定目的,比如“AI 前线”Bot 的目的是作为 AI 学习助手,帮助职场专业人士提升在人工智能领域的知识和技能,并提供高效站内信息检索服务。 注:Coze 官方使用指南见链接:https://www.coze.cn/docs/guides/welcome ,遇到疑问也可查阅该指南。
2025-02-18
AI大模型本地化部署的逻辑是什么?输入的数据不会外泄吗?
AI 大模型本地化部署的逻辑主要包括以下步骤: 1. 选择合适的部署方式,如本地环境部署、云计算平台部署、分布式部署、模型压缩和量化、公共云服务商部署等,要根据自身的资源、安全和性能需求来决定。 2. 准备训练所需的数据和计算资源,确保有足够的训练数据覆盖目标应用场景,并准备足够的计算资源,如 GPU 服务器或云计算资源。 3. 选择合适的预训练模型作为基础,可以使用开源的预训练模型如 BERT、GPT 等,也可以自行训练一个基础模型。 4. 针对目标任务进行模型微调训练,根据具体应用场景对预训练模型进行微调训练,并优化模型结构和训练过程以提高性能。 5. 部署和调试模型,将训练好的模型部署到生产环境,并对部署的模型进行在线调试和性能优化。 6. 注意安全性和隐私保护,大模型涉及大量数据和隐私信息,需要重视安全性和合规性。 关于输入数据是否会外泄,这取决于本地化部署的安全性措施和配置。如果采取了严格的安全措施,如数据加密、访问控制、网络隔离等,输入的数据外泄的风险可以大大降低。但如果安全措施不到位,就存在数据外泄的可能。例如,赞成把一个训练好就不动的模型部署在端侧(如手机或家庭计算中心),记录所有知识和记忆的相关数据就不会跑到云端,能更好地保障数据安全。
2025-02-28
提示词有哪些逻辑框架
提示词常见的逻辑框架包括以下方面: 1. Vidu Prompt 基本构成: 提示词基础架构:包括主体/场景、场景描述、环境描述、艺术风格/媒介。在描述时需调整句式和语序,避免主体物过多/复杂、分散的句式,避免模糊术语,使用流畅准确的口语化措辞,避免过度文学化叙述,丰富、准确和完整的描述有助于生成特定艺术风格、满足需求的视频。 提示词与画面联想程度:通过单帧图像示例介绍关系,如基础词“玻璃桌上的咖啡杯,杯子外面写着单词 LOVE”,适度联想扩充为“花园里的透明玻璃桌上的咖啡杯,杯子外面写着单词 LOVE,周围满是盛开的鲜花,和煦的阳光洒满整个花园,Claude Monet,印象派风格”。联想关键点包括具体详实的位置描述/环境描述,可帮助构建画面基本呈现效果,以及艺术风格描述,可进一步提升效果和氛围,统一画面风格。 2. Super Prompt: 来源:在 X 上爆火,有相关链接。 原文包括 prompt、flowchart、结合提示词的思考过程解释等。 提示词结构及作用:个人感受是只给方向的逻辑框架很棒,省 Token,可沿用深化和迭代。 逐句解析包括 META_PROMPT1 的多个部分以及二进制编码部分和 META_PROMPT2 等。最后的灵感来源有参考价值,是指导 LLM 思考逻辑的索引,在有具体应用场景时可针对性引入,抽象规则是指路灯。
2025-02-28
文学性强、逻辑性差的文字描述转成图片或图表的AI工具有什么
以下是一些可以将文学性强、逻辑性差的文字描述转成图片或图表的 AI 工具: 1. AI“词生卡”:通过将抽象的文字描述转化为直观的逻辑图表和流程图,改变处理和呈现信息的方式。例如,在商业领域可根据项目描述自动生成流程图,还能用于自定义活动海报、商务名片、简历等,实现文图双输出。 2. 以下工具可用于绘制逻辑视图、功能视图和部署视图: Lucidchart:流行的在线绘图工具,支持多种图表创建,用户可通过拖放界面轻松操作。 Visual Paradigm:全面的 UML 工具,提供多种架构视图创建功能。 ArchiMate:开源建模语言,与 Archi 工具配合使用,支持逻辑视图创建。 Enterprise Architect:强大的建模、设计和生成代码工具,支持多种架构视图。 Microsoft Visio:广泛使用的图表和矢量图形应用程序,提供丰富模板。 draw.io(现称为 diagrams.net):免费在线图表软件,支持多种图表类型创建。 PlantUML:文本到 UML 转换工具,通过编写描述生成序列图等。 Gliffy:基于云的绘图工具,提供架构图创建功能。 Archi:免费开源工具,用于创建 ArchiMate 和 TOGAF 模型。 Rational Rose:IBM 的 UML 工具,支持多种视图创建。 如果您想将小说做成视频,可以参考以下工具和流程: 工具与网址: 1. Stable Diffusion(SD):AI 图像生成模型,基于文本描述生成图像。网址: 2. Midjourney(MJ):AI 图像生成工具,适用于创建小说中的场景和角色图像。网址: 3. Adobe Firefly:Adobe 的 AI 创意工具,生成图像和设计模板。网址: 4. Pika AI:文本生成视频的 AI 工具,适合动画制作。网址: 5. Clipfly:一站式 AI 视频生成和剪辑平台。网址: 6. VEED.IO:在线视频编辑工具,具有 AI 视频生成器功能。网址: 7. 极虎漫剪:结合 Stable Diffusion 技术的小说推文视频创作提效工具。网址: 8. 故事 AI 绘图:小说转视频的 AI 工具。网址: 一般流程包括文本分析、角色与场景生成、视频编辑与合成等。
2025-02-09
哪款AI软件,逻辑性最强,知识点最全面
目前市场上有多种 AI 软件在不同领域展现出较强的逻辑性和全面的知识点。以下为您列举部分示例: 医渡云病历分析系统:使用数据分析和自然语言处理技术,能够分析医疗病历,为医生提供辅助诊断建议,市场规模达数十亿美元。 讯飞听见会议总结功能:运用自然语言处理和机器学习技术,可自动总结会议发言内容,市场规模达数亿美元。 英语流利说纠错功能:借助自然语言处理和机器学习,帮助语言学习者纠正发音、语法等错误,并提供纠正建议和练习,市场规模达数十亿美元。 腾讯文档分类功能:通过数据分析和机器学习,自动分类办公文件,方便管理,市场规模达数亿美元。 美图美妆 APP:利用图像识别和数据分析,根据用户肤质提供美容护肤建议,市场规模达数亿美元。 喜马拉雅儿童版:采用自然语言处理和机器学习,为儿童生成有趣故事,激发想象力,市场规模达数亿美元。 汽车之家 APP:使用数据分析和机器学习,快速诊断汽车故障,提供维修建议,市场规模达数十亿美元。 顺丰速运 APP:凭借数据分析和机器学习,优化物流配送路径,提高物流效率,市场规模达数十亿美元。
2025-02-06
大模型搭建知识库的逻辑是什么
大模型搭建知识库的逻辑主要包括以下几个方面: 1. 理解 RAG 技术:利用大模型搭建知识库本质上是 RAG 技术的应用。在大模型训练数据有截止日期或不包含所需数据时,通过检索增强生成(RAG)来解决。RAG 可抽象为 5 个过程: 文档加载:从多种来源加载包括非结构化、结构化和代码等不同类型的文档。 文本分割:把文档切分为指定大小的块。 存储:包括将切分好的文档块嵌入转换成向量形式,并将向量数据存储到向量数据库。 检索:通过检索算法找到与输入问题相似的嵌入片。 输出:把问题及检索出来的嵌入片一起提交给大模型,生成更合理的答案。 2. 构建知识库各个流程: 从用户提出问题开始,经历用户问题的理解、路由、初步检索、重排序等环节,最终将重排序后的结果和用户的查询意图组合成上下文输入给大模型生成输出结果。需要注意重排序结果的使用限制,如设置阈值进行截断或筛选相关性分数等。 后置处理包括敏感内容检测和移除、格式化输出等。 3. 知识库的需求:大模型并非 100%准确,存在数据日期限制和无法感知公司内部私有数据等问题,知识库的出现就是为解决大模型的数据准确性问题。例如在客服系统中,公司将用户问题及答案记录在文档中以知识库形式投喂给大模型,使其能更准确回答用户自然语言询问的问题。
2025-02-03
Deepseek 使用逻辑
DeepSeek 的使用逻辑如下: 效果对比:用 Coze 做了小测试,可对比查看相关视频。 如何使用: 搜索 www.deepseek.com,点击“开始对话”。 将装有提示词的代码发给 DeepSeek。 认真阅读开场白后正式开始对话。 设计思路: 将 Agent 封装成 Prompt,将 Prompt 储存在文件,保证最低成本的人人可用,减轻调试负担。 通过提示词文件,让 DeepSeek 实现同时使用联网功能和深度思考功能。 在模型默认能力基础上优化输出质量,减轻 AI 味,增加可读性。 设计了阈值系统,可能会根据反馈修改。 用 XML 进行更为规范的设定,而非 Lisp 和 Markdown。 关于 DeepSeek 的其他信息: 1 月 26 日社区动态速览: 提示词框架包含四大模块:任务目的、计划规则、格式规则、输出说明。通过明晰的任务拆分与规则定义,让提示更具可操作性,但不可过度依赖,有示例模板可清晰展现相关内容。 Anthropic 的“计算机使用”模型,Claude 有新能力,如可识别屏幕截图,计算光标像素坐标并执行操作,结合了图像识别、推理和动作能力,能将用户指令转化为具体步骤并执行,少量软件训练后能自我纠正并迅速上手。 OpenAI Operator 工作机制,利用虚拟主机、Chrome 浏览器、CUA 实现网页实时操控,能执行复杂导航任务,结合 GPT4o 的视觉处理与强化学习,可处理屏幕截图、推理操作并发送指令,在感知—推理—动作循环中迭代,遇敏感任务则提示用户确认。 开源项目 Browser Use。 1 月 28 日社区动态速览: 华尔街分析师认为 DeepSeek 以小成本实现媲美领先 AI 产品的性能,并在全球主要市场 App Store 登顶,高盛认为其或改变科技格局,降低 AI 行业进入门槛。 DeepSeek 中文场景表现优秀,日常写作和表达习惯贴近人类,但专业论文总结略弱,数学能力不错,编程能力逊于 GPT,采用 GRPO 算法替代传统 PPO,提升语言评价灵活性与训练速度。 复旦大学 OpenMOSS 发布实时语音交互模型,中文语音体验近似 GPT4o 高级语音,响应时间低于 200 毫秒,支持打断和自然互动,可生成多情感、多风格语音,包含方言、戏剧化台词等,多语言适配,嘈杂环境下仍具备强逻辑推理能力。 阿里巴巴推出 Qwen2.51M 模型。
2025-01-30