Navigate to WaytoAGI Wiki →
Home/Question List/Question Detail

AI 数据清洗

Answer

AI 数据清洗是为 AI 模型提供高质量训练数据的重要环节,具有以下要点:

  1. 是预防 AI 幻觉的根本措施,如同给 AI 做全面“体检”。
  2. 像医生为病人清除体内毒素一样,利用各种技术手段去除错误信息、补充缺失数据、修正不一致内容,并尽可能消除数据中的偏见。
  3. 为让 AI 模型学习更全面知识,可对已有数据进行增强操作,如对图像进行旋转、缩放、裁剪等生成新样本以提高模型泛化能力。
  4. 对于准备 AI 知识库,如 RAG ,在准备数据时会进行文本预处理,包括数据清洗和去噪,目的是清理无效数据以提高检索速度,统一数据格式便于后续处理和检索,例如整理书桌时先扔掉垃圾。
  5. AI 决策能力取决于输入数据质量与多样性,“垃圾进,垃圾出”原理显著,数据常无意中强化社会偏见,如在招聘系统中可能导致性别歧视等问题,企业使用 AI 时必须对输入数据保持警觉。
Content generated by AI large model, please carefully verify (powered by aily)

References

【深度揭秘】AI 幻觉背后的技术真相与应对策略,探索人工智能的未来

正如我们在前文中提到的,低质量的训练数据是导致AI幻觉的重要原因。因此,为AI模型提供“干净”、“健康”的训练数据,就如同给AI做一次全面的“体检”,是预防AI幻觉的根本措施。数据清洗:就像医生为病人清除体内的毒素一样,数据科学家们会利用各种技术手段,对AI的训练数据进行“清洗”,去除错误信息、补充缺失数据、修正不一致的内容,并尽可能消除数据中的偏见。数据增强:为了让AI模型学习到更全面的知识,我们需要为它提供更多、更丰富的训练数据,就像给学生补充各种类型的练习题,帮助他们掌握不同的知识点和解题技巧。例如,在训练一个图像识别模型时,我们可以对已有的图像进行旋转、缩放、裁剪等操作,生成更多新的样本,从而提高模型的泛化能力。

这可能是讲 Coze 的知识库最通俗易懂的文章了

你要做AI知识库,你起码得有知识库吧,所以RAG的第一步就是准备知识库数据。当下技术下RAG的能力仍然以处理文本数据为主,例如PDF、在线云文档,EXCEL等等为了保证后续流程的质量,在文本准备时会有一个重要的环节,叫做文本的预处理。用专业的词汇叫做数据清洗和去噪。他的目的主要有两点清理无效的数据:删除无效、过时或者不相关的数据,提高后续的检索速度统一数据的格式:将不同的数据元转换成统一的格式,便于后续的处理和检索举个例子:当要整理书桌的时候,我们的第一步通常都是先将桌面上的垃圾给扔掉,然后才是整理桌面上的书本、电脑等物品。扔掉垃圾这一动作就是数据的清洗和去噪

AI决策背后的黑箱:企业如何避免陷入智能陷阱,重塑决策流程

MIT的研究表明,AI系统在处理数据时,**常常会无意中强化现有的社会偏见**。例如,当AI用于招聘系统时,它可能会根据历史招聘数据中的性别、种族等因素做出倾向性决策。**这些系统通过过去的决策模式学习,导致无意中扩大了历史上积累的偏见**。[heading3]案例:招聘系统中的性别歧视[content]某公司在招聘过程中依赖AI系统筛选简历,尽管目的是提高效率,但AI模型因训练数据中包含的历史性别歧视问题,**更倾向于选取男性候选人**。在这些案例中,AI没有能力从道德或伦理角度审视这些模式,因此产生了进一步强化的性别歧视问题。这个例子清楚地表明,AI不具备处理复杂社会问题的能力,只能基于历史数据生成决策。赫拉利对此表达了明确的警示,他认为,**企业在使用AI时必须对输入的数据保持警觉**,因为数据并不只是数字,它还承载着社会和历史的复杂背景。

Others are asking
免费生成AIPPT的站点有哪些
以下是一些免费生成 AIPPT 的站点: 1. AiPPT.cn: 技术优势:基于自然语言处理技术的语义分析,可帮助用户快速生成演示文稿。具有基于图像识别技术的 AI 插件,能实现智能化的 PPT 模板生成、字体自动化排版等功能。基于数据分析技术的个性化推荐,能根据用户需求和偏好提供量身定制的演示文稿模板和素材。通过了国家网信办 PPT 生成算法备案,同时获得 A 股上市公司视觉中国战略投资,拥有 5 亿+版权素材库和 10 万+PPT 模板,为用户提供版权无忧、图文并茂的内容创作体验。 商业模式:靠订阅工具业务赚钱,为全岗位职场人提供 10 余款 AIGC 工具,围绕企业内容工作流,满足工作中的 PPT、文案、H5、平面/视频制作、新媒体排版等高质量内容创作需求。 2. AutoAgents.ai:未来式智能是一家由创新工场投资,国内首批大语言模型技术落地和应用场景探索的公司。以自研 MultiAgent 架构为基础构建企业级 Agent“灵搭”平台,为企业提供 AI Copilot、Autopilot、Autonomous Agent 等智能体产品与服务。基于自主研发的企业级 Agent 应用构建平台,致力于解决大语言模型到场景化落地应用“最后一公里”问题。通过打破传统固化业务流,帮助企业构建高度智能化的底层通用业务流,打造人机共创的工作新范式,引领企业业务流程智能化升级,让全球 10 亿知识工作者 10 倍效工作。
2025-01-01
那个AI可以编辑微信订阅号
AI 可以编辑微信订阅号。Coze 平台是一个 AI 智能体创作平台,支持与微信订阅号的对接,使 AI 机器人能够自动回复用户的消息。 目前 Coze 平台还支持与微信服务号、微信客服的对接。不过,之前 Coze 平台不支持直接与个人微信和微信群进行功能对接,但随着 Coze 国内版正式发布 API 接口功能,直接对接个人微信甚至微信群已成为可能。 以下是一些 AI 相关产品的月度订阅榜单: 10 月订阅榜: Framer AI,市场为海外,分类为代码助手,网址为 framer.com,订阅收入 83 万美金,环比变化 0.1227,付费率 0.0124。 Pixelcut,市场为海外,分类为图片编辑,网址为 pixelcut.ai,订阅收入 80 万美金,环比变化 0.1985,付费率 0.0046。 arcads,市场为海外,分类为视频编辑,网址为 arcads.ai,订阅收入 79 万美金,环比变化 0.1188,付费率 0.1115。 CRAYO,市场为海外,分类为视频编辑,网址为 crayo.ai,订阅收入 79 万美金,环比变化 0.0124,付费率 0.0358。 Manychat,市场为海外,分类为客户支持,网址为 manychat.com,订阅收入 75 万美金,付费率 0.0069。 Gptzero me,市场为海外,分类为内容检测,网址为 gptzero.me,订阅收入 67 万美金,环比变化 0.2037,付费率 0.0032。 Landr,市场为海外,分类为音乐生成,网址为 landr.com,订阅收入 66 万美金,环比变化 0.6319,付费率 0.0203。 Faceless.video,市场为海外,分类为社媒工具,网址为 faceless.video,订阅收入 63 万美金,环比变化 0.0076,付费率 0.092。 Chatpdf,市场为海外,分类为文章摘要,网址为 chatpdf.com,订阅收入 58 万美金,环比变化 0.133,付费率 0.0047。 CopyCopter,市场为海外,分类为视频生成,网址为 copycopter.ai,订阅收入 55 万美金,环比变化 3.1975,付费率 0.097。 11 月订阅榜: Submagic,市场为海外,分类为视频编辑,网址为 submagic.co,MRR 为 101 万美金,环比变化 0.4211。 Fotor,市场为出海,分类为图片编辑,网址为 fotor.com,MRR 为 100 万美金,环比变化 0.0572。 Instantly,市场为海外,分类为销售,网址为 instantly.ai,MRR 为 88 万美金,环比变化 0.2151。 bolt,市场为海外,分类为代码助手,网址为 bolt.new,MRR 为 87 万美金,环比变化 1.0104。 TalkPal AI,市场为海外,分类为个人助理,网址为 talkpal.ai,MRR 为 86 万美金,环比变化 0.5643。 Poe,市场为海外,分类为聊天机器人,网址为 poe.com,MRR 为 83 万美金,环比变化 0.1821。 Pixelcut,市场为海外,分类为图片编辑,网址为 pixelcut.ai,MRR 为 81 万美金,环比变化 0.1985。 Framer AI,市场为海外,分类为代码助手,网址为 framer.com,MRR 为 80 万美金,环比变化 0.1227。 Gptzero me,市场为海外,分类为内容检测,网址为 gptzero.me,MRR 为 75 万美金,环比变化 0.2037。 arcads,市场为海外,分类为视频编辑,网址为 arcads.ai,MRR 为 73 万美金,环比变化 0.1188。 Landr,市场为海外,分类为音乐生成,网址为 landr.com,MRR 为 70 万美金,环比变化 0.6319。
2025-01-01
推荐学习Aigc的入门理论书籍
以下是为您推荐的学习 AIGC 的入门理论书籍和相关资料: 1. 《AIGC Weekly19》:其中包括腾讯非常系统的 Stable Diffusion 介绍文章,马丁整理的关于 AIGC 的碎片化思考,多邻国创始人 Luis von Ahn 专访,Meta AI 发布的自监督学习“烹饪书”,以及回顾大语言模型发展历程的内容。 2. 《AIGC Weekly01》:包含对 Stable Diffusion 工作原理的介绍,Emad 写的关于 SD V2 模型的笔记,Hugging Face Inference Endpoints 指南,GPT4 预测相关内容,以及关于 AI 时代工作未来的读物。 3. 【AI 学习笔记】:介绍了 AI 大模型的相关概念,如生成式 AI、相关技术名词(包括监督学习、无监督学习、强化学习、深度学习等)、技术里程碑(如 2017 年谷歌团队发表的提出 Transformer 模型的论文)等。
2025-01-01
跟股票相关的AI工具有哪些?
以下是一些与股票相关的 AI 工具: 1. 东方财富网投资分析工具:利用 AI 技术分析金融市场数据,为投资者提供投资建议和决策支持,例如根据股票的历史走势和市场趋势预测股票的未来走势。 2. 目前市场上还有一些通用的 AI 工具,如 ChatGPT 等,虽然不是专门针对股票,但可以辅助进行相关的信息收集和分析。 需要注意的是,使用这些工具时应结合自身的判断和专业知识,谨慎做出投资决策。
2025-01-01
在哪里可以看AIGC智能客服 实战项目
以下是一些可以查看 AIGC 智能客服实战项目的途径: 1. 数字人课程:卡尔的 AI 沃茨推出的数字人课程,包含 15 节视频课,持续更新并附赠课外社群辅导,课程中回顾了 2023 年数字人领域的破圈事件,还介绍了数字人的广泛应用和完整学习体系。报名方式为扫码查看课程详细内容和介绍。 2. 摊位信息:在杭州商场举办的 AI 切磋大会的摊位中,有关于“AI 数字员工”的摊位,提供抖音运营、AI 客服、智能问诊、企业定制员工、定制知识库等体验 demo。 3. 大厂 AIGC 实践:京东有众多 AIGC 相关的实践案例,如【羚珑 AI 智绘营】IPAdapter 等,相关链接可在给定的内容中查看。
2025-01-01
国内有哪些AI
以下是国内的一些 AI 产品和大模型: 图像类产品: 可灵:由快手团队开发,可生成高质量的图像和视频,最初采用内测邀请制,现向所有用户开放,价格相对较高,重度用户年费可达几千元,轻度用户有每日免费点数和较便宜的包月选项。 通义万相:国产 AI 工具,在中文理解和处理方面表现出色,可选择多种艺术和图像风格,操作界面简洁直观,用户友好度高,现免费,每天签到获取灵感值即可,但存在一些局限性,如某些类型图像因监管要求无法生成,处理非中文语言或国际化内容可能不够出色。 国内总榜 Top80 中的部分产品: Kimi 智能助手:AI ChatBots 类。 百度文心一言:AI ChatBots 类。 360AI 搜索(接 GA):搜索类。 秘塔 Metaso:搜索类。 阿里通义千问:AI ChatBots 类。 昆仑万维天工 AI 搜索:搜索类。 抖音豆包 AI:AI ChatBots 类。 火山方舟:AI 训练模型类。 ChatGLM 智谱清言:AI ChatBots 类。 讯飞星火:AI ChatBots 类。 稿定设计:设计工具类。 processon:思维导图类。 bigjpgAI 图片无损放大:图片增强类。 liblib.art:图像生成类。 沉浸式翻译:翻译类。 8 月正式上线的国内大模型: 北京企业机构:百度(文心一言)https://wenxin.baidu.com 、抖音(云雀大模型)https://www.doubao.com 、智谱 AI(GLM 大模型)https://chatglm.cn 、中科院(紫东太初大模型)https://xihe.mindspore.cn 、百川智能(百川大模型)https://www.baichuanai.com/ 上海企业机构:商汤(日日新大模型)https://www.sensetime.com/ 、MiniMax(ABAB 大模型)https://api.minimax.chat 、上海人工智能实验室(书生通用大模型)https://internai.org.cn 特色功能:智谱清言、商量 Sensechat、MiniMax 能生成 Markdown 格式;昇思能生图,MiniMax 能语音合成。 受限制使用:MiniMax 无法对生成的文本进行复制输出,且只有 15 元的预充值额度进行体验,完成企业认证后可以进行充值。 阿里通义千问、360 智脑、讯飞星火等不在首批获批名单中。广东地区获批公司分别为华为、腾讯,科大讯飞系其他地区获批产品。
2025-01-01
我想利用AI帮助我快速分析Excel数据,做好数据清洗、分析的工作
以下是一些可帮助您利用 AI 快速分析 Excel 数据、做好数据清洗和分析工作的工具和方法: 1. 工具方面: Excel Labs:这是一个 Excel 插件,新增了基于 OpenAI 技术的生成式 AI 功能,能在 Excel 中直接进行数据分析和决策支持。 Microsoft 365 Copilot:微软推出的整合了多种办公软件的 AI 工具,通过聊天形式,用户告知需求后,Copilot 会自动完成如数据分析、格式创建等任务。 Formula Bot:提供数据分析聊天机器人和公式生成器两大功能,用户可通过自然语言交互进行数据分析和生成 Excel 公式。 Numerous AI:支持 Excel 和 Google Sheets 的 AI 插件,能生成公式、相关文本内容、执行情感分析、语言翻译等任务。 2. 方法方面: 信息收集:利用 AI 搜索与权威网站结合获取关键数据,AI 可辅助提取结构化表格数据或编写抓取程序。 内容拆分:针对报告需求将内容拆分,避免 AI 单次处理任务过长。 数据处理:借助传统工具如 Excel,结合 AI 指导高效操作数据筛选与图表生成。 分析与撰写:通过整理数据,利用 AI 辅助分析后撰写报告初稿,可指定风格并校验数据与结论准确性。但要注意,AI 仅作辅助,最终内容需人工主导校验,避免误导性结论。 随着技术的不断发展,未来可能会有更多 AI 功能被集成到 Excel 中,进一步提高工作效率和数据处理的智能化水平。
2024-12-02
AI 数据清洗
以下是关于 AI 数据清洗的相关内容: 数据清洗对于预防 AI 幻觉和保证 AI 决策的准确性至关重要。 低质量的训练数据是导致 AI 幻觉的重要原因,因此为 AI 模型提供“干净”、“健康”的训练数据是根本措施。 数据清洗就像医生为病人清除体内的毒素,数据科学家会利用各种技术手段去除错误信息、补充缺失数据、修正不一致的内容,并尽可能消除数据中的偏见。 在准备 AI 知识库时,例如 RAG 流程中,文本预处理环节包含数据清洗和去噪,其目的包括清理无效的数据(删除无效、过时或者不相关的数据,提高后续的检索速度)以及统一数据的格式(将不同的数据元转换成统一的格式,便于后续的处理和检索)。 AI 的决策能力取决于输入数据的质量与多样性,“垃圾进,垃圾出”原理在 AI 决策中显著,数据中的偏见会被放大甚至造成认知扭曲。例如在招聘系统中,AI 可能因训练数据中的历史偏见更倾向于选取某一性别候选人。企业在使用 AI 时必须对输入的数据保持警觉。
2024-11-04
有没有数据清洗AI
以下是关于数据清洗 AI 的相关内容: 数据清洗对于 AI 至关重要,就如同为 AI 做全面的“体检”,是预防 AI 幻觉的根本措施。 在 AI 领域,数据清洗就像医生为病人清除体内毒素一样,数据科学家会利用各种技术手段,对训练数据进行“清洗”,去除错误信息、补充缺失数据、修正不一致内容,并尽可能消除数据中的偏见。 在文档准备与预处理环节,例如构建 RAG 知识库时,会有数据清洗和去噪这一重要步骤,其目的包括清理无效数据以提高后续检索速度,以及统一数据格式便于后续处理和检索。 在大模型训练中,高质量的数据清洗和精细整理能将粗糙的数据打磨成有价值的资源。然而,在中国的 AI 创业生态中,高质量的数据处理服务较为稀缺,中文互联网数据质量相对较低,这给大模型的训练带来了挑战。
2024-10-23
怎么学习python数据分析
以下是关于学习 Python 数据分析的一些建议: 从工具和规模以及方法的角度来看,数据分析是一门独立完整的学科。 工具方面: 1. Excel:是最熟悉和简单的工具,会写公式算进阶用法,还能写 Excel 宏,ChatGPT 能根据需求写出可用的 Excel 宏。 2. Python:有很多强大的数据分析库,如用于数据处理和分析的 Pandas、用于数值计算的 NumPy,画图的 Seaborn、plotly、matplotlib 等,机器学习相关的更多。一般数据分析代码可用 Jupyter Notebook 运行,用 Anaconda 管理安装的各种包。 3. R 语言:专门用于搞统计,但 Python 通常已够用。 在 Python 中,以下是一些关键的库和技术: 1. 数据处理与清洗: Pandas:提供高效的数据结构如 DataFrame,用于处理和分析结构化数据。 NumPy:用于数值计算,提供多维数组对象和相关操作函数。 2. 数据可视化: Matplotlib:用于生成静态、交互式和动画可视化的绘图库。 Seaborn:基于 Matplotlib 的高级数据可视化库,提供更美观易用的图表绘制方法。 Plotly:交互式图表库,支持多种图表类型,适合生成动态和交互式图表。 3. 统计分析: SciPy:提供广泛的数学算法和函数,包括线性代数、统计学、优化等。 Statsmodels:用于统计建模和数据分析,适合进行统计测试和回归分析。 4. 大数据技术: PySpark:Apache Spark 的 Python API,用于大规模数据处理。 学习路径方面,可以参考以下课程内容: 1. 学习 Python 基础语法与文本处理,包括数据类型(字符串、数字、列表、字典)、控制结构(条件判断、循环语句)、文本处理基础(字符串操作方法、文件读写操作),通过实践实验如中文文本的基本处理,掌握 Python 的基本语法和结构,能够进行简单的文本数据处理。 2. 学习利用 Python 进行自然语言处理(NLP),了解 NLP 的概念和在人文研究中的重要性,掌握 Python 中的 NLP 库,如结巴分词(Jieba)等工具,通过实践实验如中文分词与词频分析,掌握基本的 NLP 操作,理解其在语言研究和教学中的应用。
2025-01-01
python数据分析
以下是关于 Python 数据分析的相关内容: 数据分析的概念和范围: 从工具和规模上来说,写一两行 Excel 公式是数据分析,用 Hadoop、写 Spark 算大数据也是数据分析。从方法上来说,算平均数是数据分析,用各种各样的机器学习方法做回归、分类也可以叫数据分析。数据分析前有时候还要进行数据清洗、数据预处理等。这是一门独立完整的学科。 用 ChatGPT 做数据分析可利用的工具: 1. Excel:是最熟悉和简单的工具,写点公式算进阶用法,还可以写 Excel 宏,ChatGPT 能轻松根据需求和描述写出可用的 Excel 宏。 2. Python:有很多强大的数据分析库,如用于数据分析的 Pandas、Numpy 等,画图的 Seaborn、Plotly、Matplotlib 等,机器学习相关的更多。一般数据分析的代码可以用 Jupyter Notebook 运行,用 Anaconda 管理安装的各种包。 3. R 语言:专门用于搞统计,但 Python 通常已够用。 Python 在数据科学中的应用: 数据处理与清洗:Pandas 提供高效的数据结构如 DataFrame 处理结构化数据,NumPy 提供多维数组对象和相关函数。 数据可视化:Matplotlib 用于生成静态、交互式和动画可视化,Seaborn 是基于 Matplotlib 的高级库,提供更美观易用的图表绘制方法,Plotly 支持多种图表类型,适合生成动态和交互式图表。 统计分析:SciPy 提供广泛的数学算法和函数,Statsmodels 适合进行统计测试和回归分析。 大数据技术:PySpark 是 Apache Spark 的 Python API,用于大规模数据处理。
2025-01-01
GPT可以生成数据图表源文件吗
GPT 在一定条件下可以辅助生成数据图表相关的内容。例如,在数据分析流程中,通过限定用户提示(user prompt)和系统提示(system prompt),校验生成的 SQL 语句,以及对返回格式的精确设定,可以让 GPT 为生成数据图表提供支持。 ChatGPT 4.0 的 Canvas 功能未来可能支持数据图表生成。但需要注意的是,这需要遵循特定的流程和设定,并且可能存在一定的复杂性和准确性的挑战。
2025-01-01
哪些大模型对做精准的数据分析和可视化上比较好
以下是一些在精准的数据分析和可视化方面表现较好的大模型: 1. GLM4AllTools:这是智谱 AI 大模型开放平台中的模型,其代码沙盒 Code Interpreter 工具能很大程度加强数据计算能力,可处理日常数据分析,能对行业收入、利润数据进行可视化,并计算利润率并排序。 2. 谷歌的 T5:属于 encoderdecoder 架构的模型,适用于翻译和摘要等任务。 需要注意的是,不同的大模型在不同的应用场景和数据特点下可能会有不同的表现,您可以根据具体需求进行选择和测试。
2024-12-31
Excel数据分析AI
以下是一些关于 Excel 数据分析的 AI 工具和相关信息: 1. Excel Labs:这是一个 Excel 插件,基于 OpenAI 技术,新增了生成式 AI 功能,允许用户在 Excel 中直接利用 AI 进行数据分析和决策支持。 2. Microsoft 365 Copilot:微软推出的 AI 工具,整合了 Word、Excel、PowerPoint、Outlook、Teams 等办公软件,用户通过聊天形式告知需求,Copilot 自动完成如数据分析、格式创建等任务。 3. Formula Bot:提供数据分析聊天机器人和公式生成器两大功能,用户可通过自然语言交互式地进行数据分析和生成 Excel 公式。 4. Numerous AI:支持 Excel 和 Google Sheets 的 AI 插件,除公式生成外,还可根据提示生成相关文本内容、执行情感分析、语言翻译等任务。 此外,在利用 AI 撰写专业区域经济报告时,可进行信息收集(利用 AI 搜索与权威网站结合获取关键数据,AI 辅助提取结构化表格数据或编写抓取程序)、内容拆分(针对报告需求将内容拆分,避免 AI 单次处理任务过长)、数据处理(借助传统工具如 Excel,结合 AI 指导高效操作数据筛选与图表生成)、分析与撰写(整理数据,利用 AI 辅助分析后撰写报告初稿,指定风格并校验数据与结论准确性,需注意 AI 仅作辅助,最终内容需人工主导校验,避免误导性结论)。 在 ChatGPT 助力数据分析方面,流程包括 SQL 分析(用户描述想分析的内容,后台连接 DB,附带表结构信息让 AI 输出 SQL 语句,校验是 SELECT 类型的 SQL 后执行返回结果数据,再将数据传给 GPT 附带上下文,让 AI 学习并分析数据,最后输出分析结论和建议,和结果数据一起返回给前端页面渲染图表、展示分析结论,目前已实现两张表关联查询)和个性化分析(用户上传文件,如有需要简单描述数据、字段意义或作用辅助分析,前端解析用户上传的文件,再传给 GPT 分析数据,后续步骤与 SQL 分析一致)。
2024-12-31
数据分析和报告解读prompt
以下是关于数据分析和报告解读的相关内容: ChatGPT 助力数据分析: 1. 第一个用户提示:限定 SELECT SQL,要求不要用 SELECT查询全部列,仅回复一条 SELECT SQL 语句,至少查询两列(数据项、数据值),不能直接查询长类型字段(如 mediumtext/longtext),可使用 count/substring 等函数查询这些长类型列。 2. 系统提示是表结构信息,对于难以理解的字段可告知 GPT 字段的意义,若有多个表可分开描述。 3. 需校验 GPT 生成的 SQL,不通过直接返回提示“抱歉,不支持此类请求”,通过再执行 SQL 查询数据。 4. 数据分析的用户提示:提示数据分析,限定返回的 JSON 格式(conclusion、keyMap、title)。keyMap 用于数据 key 的映射,获取结果数据对应的维度、数据项、数据值的 key 值,以映射数据渲染图表。根据结果数据 tableData 的维度,用条件运算符选择对应的 prompt 传递给 GPT。 5. 结果数据 tableData 跟随接口返回到前端,已通过 SQL 查询的数据,不能让 GPT 再次生成,否则非常耗时。 小七姐:PromptAgent 论文精读翻译: 1. 为深入研究 PromptAgent 的学习过程,检查整个树规划过程中专家提示的演变,监控并可视化与树深度相关的性能变化。评估所有节点性能,在每个深度级别聚合训练(奖励)和测试性能。 2. 进行定性分析以检查 PromptAgent 探索的优化轨迹。图 5 显示了与 NCBI 任务相关的最佳奖励路径的初始四个状态和相应的三个动作状态转换,以提取疾病实体。 3. 表格 5 针对 NCBI 任务的提示比较,包括正常人类提示、APE 优化提示以及由 PromptAgent 优化的专家级提示。两个基线大部分描述了任务,而专家提示由更复杂的结构和领域特定的见解组成,实现了更出色的性能。
2024-12-30