以下是关于数据分析和报告解读的相关内容:
ChatGPT 助力数据分析:
小七姐:PromptAgent 论文精读翻译:
1.第一个user prompt:限定SELECT SQL,这里告诉它:不要用SELECT*来查询全部列,且仅回复一条SELECT SQL语句。至少查询两列:数据项、数据值,且不能直接查询如mediumtext/longtext这样的长类型字段,可以用count/substring等函数查询这些长类型列。2.system prompt是表结构信息,如有难以理解的字段可以告诉GPT字段的意义,有多个表可分开描述。3.需校验GPT生成的SQL,不通过直接返回提示:抱歉,不支持此类请求。通过再执行SQL查询数据。4.数据分析的user prompt:提示数据分析,限定返回的JSON格式:conclusion、keyMap、title。keyMap的作用:数据key的映射,获取结果数据对应的维度、数据项、数据值的key值,用于映射数据渲染图表。由于支持多维数据,单维度数据的keyMap没有维度项,就存在让GPT返回两种结构的情况。这里我采取分开定义单维度数据和多维度数据的prompt,根据结果数据tableData的维度,用条件运算符选择对应的prompt,再传递给GPT。5.结果数据tableData是跟随接口一起返回到前端,已经通过SQL查询的数据,不能让GPT又生成一次,否则非常耗时。
为了更深入地研究PromptAgent的学习过程,我们检查了整个树规划过程中专家提示的演变。具体来说,我们监控并可视化了与树深度相关的性能变化。如图4b中关于Epistemic任务所示,我们评估所有节点的性能,并在每个深度级别聚合训练(奖励)和测试性能。绘制的轨迹表示了训练(奖励)和测试的平均性能的演变,显示出一致的改进并逐渐超越所有基线方法。简洁起见,其他任务和超参数设置的收敛图,仅关注训练轨迹以减少测试集的计算开销,都提供在附录C和附录A.3中。一个经常出现的模式,类似于图4b中的模式,表明在初始迭代中存在上升趋势,这表明PromptAgent具有强大的学习动态,能够迭代地优化和增强专家提示。定性分析。为了更直接地说明PromptAgent如何逐步利用错误反馈(动作)来增强提示(状态),我们进行了定性分析以检查PromptAgent探索的优化轨迹。图5显示了与NCBI任务(Do˘gan等人,2014年)相关的最佳奖励路径的初始四个状态和相应的三个动作-状态转换,以提取疾病实体。我们在动作和状态中都用颜色突出显示了领域洞察,其中一致的着色表示相似的洞察。可观察到,从初始的由人组成的提示$$s_{0}$$开始,PromptAgent发现了各种有见地的错误反馈(动作)并有效地将它们合并到一个改进的测试性能的细化提示(状态)中。经过连续的转换,疾病实体的定义变得越来越精细,生物医学特定的细节被无缝整合。这个迭代过程的积累反映在最后的状态$$s_{3}$$中,这个状态吸收了其前面路径的累积洞察,呈现为专家级提示,从而实现了卓越的性能。
表格5:针对NCBI任务的提示比较,包括正常人类提示、APE优化提示以及由PromptAgent优化的专家级提示。两个基线大部分描述了任务,而我们的专家提示由更复杂的结构和领域特定的见解组成,实现了更出色的性能。粗体文本表示通常由领域专家手工制作的领域知识,在这里由PromptAgent自动发现。我们用不同的颜色突出显示专家提示的不同方面,包括任务描述、术语澄清、解决方案指导、异常处理、优先级和强调以及格式设置。(最好用颜色查看)|方法|优化提示|F1得分||-|-|-||Human|从句子中提取出疾病或疾况,如果有的话|0.521||APE|如果句子中提到了任何疾病或疾况,请提取出来|0.576||PromptAgent|您的任务是从给定的句子中提取疾病或疾况,请谨慎操作,避免包括任何相关元素,如遗传模式(如常染色体显性遗传)、基因或基因座(如PAH)、蛋白质或生物途径。该任务不涉及基于上下文中的其他高级生物学术语对疾病名称进行假设或推论。考虑具体的疾病和更广泛的类别,还要记住疾病和疾况也可以出现为常见的缩写或变体。以以下格式提供已识别的疾病或疾况:{实体1,实体2,...}。如果句子中没有疾病或疾况,请以以下形式输出一个空列表:{}。请注意,“locus”一词应被识别为基因组位置,而不是疾病名称。|0.645|收敛性分析。