以下是关于表格数据分析的相关内容:
大模型招投标文件关键数据提取方案
预处理模块设计:
ChatGPT 助力数据分析:实际案例与技巧
流程:
58 数据分析 161 万
示例表格数据: |名称|二级分类|三级分类|网址|2 月|3 月|4 月|5 月|6 月|7 月|8 月|9 月|10 月|11 月|迷你图|11/5 月-1| |-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-| |1|帆软数据|数据分析||https://www.fanruan.com/||||65|64|65|73|62|63|56||O2/I2-1| |2|RATH|数据分析||https://kanaries.net/|5.4|14|17|32|44|62|54|11|20|33||O3/I3-1| |3|rows.com|数据分析||https://rows.com/vision-fd1f404d||||8|92|118|80|62|34|28||O4/I4-1| |4|亚信科技数智产品|数据分析||https://www.asiainfo.com/zh_cn/digital_intelligence_product_system.html||||43|30|58|47|41|29|23||O5/I5-1| |5|神策数据|数据分析||https://www.sensorsdata.cn/||||23|18|21|22|16|17|21||O6/I6-1|
去除噪音信息:常见的噪音信息包括页眉、页脚、版权声明等,这些信息对关键数据提取无关紧要,可以在预处理时过滤掉。规范化文本:处理文本中的特殊符号、空白字符、异常换行等问题,确保输入给模型的文本格式整洁。日期格式统一:文档中可能会有多种日期表示方式,例如“2024年10月10日”、“10/10/2024”、“10-Oct-2024”。需要通过正则表达式或日期识别工具将所有的日期格式统一转换为标准的ISO格式(如“YYYY-MM-DD”)。方法:使用正则表达式匹配不同格式的日期,并将其标准化。例如:参考代码货币与金额格式化:货币和金额在招投标文件中非常常见,可能以不同的符号、单位或表示方法出现。例如:“$1,000”、“1000美元”、“壹仟元整”。需要统一这些金额表示,确保货币单位和金额数字的格式标准化。方法:通过正则表达式匹配货币符号或中文大写金额,并转换为标准形式。例如将“壹仟元”转换为“1000 CNY”,或将“$1,000”转换为“1000 USD”。特殊符号处理:招投标文件中可能有特殊符号(如版权符号、数学符号、货币符号等),这些符号如果不加处理,可能在后续的模型输入中失去原意或导致模型误解。因此,预处理模块需要对这些符号进行规范化处理。表格数据处理:表格提取工具:对于PDF或Word文档中的表格,可以使用表格解析工具(如pdfplumber或python-docx)提取表格的结构和数据。提取后的表格数据可以转化为CSV或JSON格式,方便后续处理。
1.第一个user prompt:限定SELECT SQL,这里告诉它:不要用SELECT*来查询全部列,且仅回复一条SELECT SQL语句。至少查询两列:数据项、数据值,且不能直接查询如mediumtext/longtext这样的长类型字段,可以用count/substring等函数查询这些长类型列。2.system prompt是表结构信息,如有难以理解的字段可以告诉GPT字段的意义,有多个表可分开描述。3.需校验GPT生成的SQL,不通过直接返回提示:抱歉,不支持此类请求。通过再执行SQL查询数据。4.数据分析的user prompt:提示数据分析,限定返回的JSON格式:conclusion、keyMap、title。keyMap的作用:数据key的映射,获取结果数据对应的维度、数据项、数据值的key值,用于映射数据渲染图表。由于支持多维数据,单维度数据的keyMap没有维度项,就存在让GPT返回两种结构的情况。这里我采取分开定义单维度数据和多维度数据的prompt,根据结果数据tableData的维度,用条件运算符选择对应的prompt,再传递给GPT。5.结果数据tableData是跟随接口一起返回到前端,已经通过SQL查询的数据,不能让GPT又生成一次,否则非常耗时。
||名称|二级分类|三级分类|网址|2月|3月|4月|5月|6月|7月|8月|9月|10月|11月|迷你图|11/5月-1||-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-||1|帆软数据|数据分析||https://www.fanruan.com/||||65|64|65|73|62|63|56||O2/I2-1||2|RATH|数据分析||https://kanaries.net/|5.4|14|17|32|44|62|54|11|20|33||O3/I3-1||3|rows.com|数据分析||https://rows.com/vision-fd1f404d||||8|92|118|80|62|34|28||O4/I4-1||4|亚信科技数智产品|数据分析||https://www.asiainfo.com/zh_cn/digital_intelligence_product_system.html||||43|30|58|47|41|29|23||O5/I5-1||5|神策数据|数据分析||https://www.sensorsdata.cn/||||23|18|21|22|16|17|21||O6/I6-1|