直达「 通往AGI之路 」飞书知识库 →
首页/问答列表/问答详情

国内外语言大模型评估

回答

国内外对于语言大模型(Large Language Models, LLMs)的评估通常涉及多个方面,包括但不限于模型的性能、应用效果、伦理和安全性等。以下是一些评估的维度和考虑因素:

性能评估:

  1. 准确性:模型在特定任务上的表现,如文本分类、情感分析、机器翻译等。
  2. 泛化能力:模型对于未见过的数据的处理能力。
  3. 鲁棒性:模型抵抗输入扰动和异常值的能力。
  4. 响应时间:模型处理请求的速度。

应用效果评估:

  1. 用户体验:模型在实际应用中的用户满意度和接受度。
  2. 业务影响:模型对业务流程和效率的影响。
  3. 成本效益:模型的运行成本与其带来的效益之间的比较。

伦理和安全性评估:

  1. 偏见和公平性:模型是否存在潜在的偏见,是否对所有用户群体公平。
  2. 隐私保护:模型是否符合数据保护法规,用户数据是否安全。
  3. 透明度:模型的决策过程是否透明,用户是否了解其工作原理。
  4. 可解释性:模型的输出是否可解释,用户能否理解其决策逻辑。

国内外评估实践:

  1. 学术评估:学术界通过发表研究论文来评估和比较不同模型的性能。
  2. 行业报告:市场研究机构发布报告,评估模型的市场占有率和用户反馈。
  3. 标准化测试:如MLPerf等组织提供的标准化测试,用于评估和比较不同模型的性能。
  4. 开源社区:开源社区通过共享测试数据集和基准来评估模型性能。
  5. 企业内部评估:企业内部通过实际应用场景来测试和评估模型的效果。

评估工具和平台:

  • 国际:MMLU、GSM8K等。
  • 国内:C-Eval、SuperCLUE等。

注意事项:

  • 跨文化差异:不同文化背景下的语言使用习惯可能影响模型评估。
  • 法规遵从:评估时需考虑不同国家的法律法规,如欧盟的GDPR。

进行语言大模型评估时,需要综合考虑上述多个维度,并结合具体的应用场景和业务需求。同时,随着技术的发展和市场的变化,评估标准和方法也在不断演进。

内容由 AI 大模型生成,请仔细甄别(powered by aily)

参考资料

其他人在问
怎么评估提示词的效果?
评估提示词的效果可以从以下几个方面进行: 1. 模型的准确率:观察模型生成的回答与预期结果的匹配程度。 2. 流畅度:检查生成的文本在语言表达上是否通顺、自然。 3. 相关性:判断生成的内容与提示词所表达的意图和需求的关联程度。 提示词工程师在评估提示词效果时,通常会采取以下步骤和方法: 1. 设计提示:根据用户需求和模型能力,精心考虑提示的长度、结构、措辞和信息量等因素,以清晰传达用户意图。 2. 优化提示:通过收集用户反馈、分析模型结果和实验不同的提示策略等方式,不断改进提示。 3. 实际测试:包括对基础提示词模板的测试,确保其能兼容国内外各种模型,并生成拟人化的提示词,然后将其应用于不同模型中评估实际应用效果和适应性。 此外,提示工程有几项核心原则: 1. 编写清晰的指令。 2. 将复杂任务分解为简单任务。 3. 给模型一定的时间空间思考。 4. 系统地测试性能变化。 要提高提示技巧,应多学习和实践。同时,可以参考大模型厂商的提示工程指南,以及 LangGPT 结构化提示词知识库中的相关资料,如:
2024-10-15
帮我找知识库里和「评估」相关的内容或文章
以下是知识库里与“评估”相关的内容: 提示工程: 评估程序在优化系统设计时很有用。好的评估程序需要具备以下特点: 具有代表性:能够代表真实世界的使用场景,或者至少包含多样化的测试用例。 样本量充足:拥有足够的测试用例,以保证统计结果的可靠性。 易于自动化:可以自动运行或重复执行。 评估工作可以由计算机、人类或两者协作完成。计算机可以使用客观标准以及一些主观或模糊标准自动执行评估,其中模型输出由其他模型查询评估。是一个开源软件框架,提供了创建自动评估程序的工具。 基于模型的评估在评估具有多种可能答案的问题时非常有用,模型可以根据预定义的标准对不同的答案进行评分,帮助我们选择最佳答案。可以用模型进行评估和需要人工评估之间的界限是模糊的,并且随着模型变得越来越强大而不断变化。 OpenAI 官方指南: 评估程序(或称为“Evals”)对于优化系统设计非常有用。良好的评估: 代表现实世界的使用(或至少是多样化的)。 包含许多测试用例以获得更大的统计能力。 易于自动化或重复。 输出的评估可以由计算机、人类或混合来完成。计算机可以使用客观标准以及一些主观或模糊标准来自动评估,其中模型输出由其他模型查询评估。是一个开源软件框架,提供用于创建自动评估的工具。 当存在一系列可能被认为质量相同的输出时,基于模型的评估可能很有用。使用基于模型的评估可以实际评估的内容与需要人工评估的内容之间的界限是模糊的,并且随着模型变得更强大而不断变化。 Gemini 报告: 为了评估 Gemini 模型在政策领域和其他在影响评估中确定的关键风险领域中的表现,在模型开发的整个生命周期中开展了一系列评估。 在训练和优化 Gemini 模型过程中,会进行开发评估以进行“hillclimbing”。这些评估是由 Gemini 团队设计的,或者是针对外部学术基准的评估。评估考虑诸如有用性(指令遵循和创造力)、安全性和事实性等问题。 保证评估是为了治理和审查而进行的,通常在关键里程碑或培训运行结束时由模型开发团队之外的团队进行。保证评估按照模态进行标准化,数据集严格保密。只有高层次的见解被反馈到训练过程中,以协助缓解工作。保证评估包括对 Gemini 政策的测试,并包括对潜在生物危害、说服力和网络安全等危险能力的持续测试。 外部评估由谷歌之外的合作伙伴进行,以发现盲点。外部团体对模型进行了一系列问题的压力测试,包括白宫承诺书中列出的领域,测试通过结构化评估和非结构化的红队测试进行。这些评估的设计是独立的,并且结果定期报告给 Google DeepMind 团队。
2024-09-30
如何自动化 RAG bot 的测试评估工作流?
以下是一个关于自动化 RAG bot 测试评估工作流的参考方案: 首先,对于 RAG bot 的工作流,主要包括以下关键步骤: 1. 开始节点:接收用户选择的小说人物角色名称或向小说人物角色提问的问题。 2. 知识库节点:将输入的角色名称或问题作为查询,在知识库中检索该角色的性格特点、经典台词或相关的上下文信息。 3. 大模型节点:让大模型对检索到的信息进行筛选和处理,并以特定格式(如 JSON 格式)输出结果,或者根据问题和检索到的上下文信息生成答案。 4. 代码节点:对上游输入的数据进行规整和格式化输出。 5. Text2Image 节点:引用上一步输出的用于描述人物性格和特点的特征,作为提示生成人物的角色照。 6. 结束节点:输出人物台词、角色照或答案。 要实现自动化测试评估工作流,可以考虑以下几个方面: 1. 制定明确的测试用例:包括各种类型的输入,如不同的角色名称、问题类型和复杂程度等,以全面覆盖各种可能的情况。 2. 建立监控机制:实时监测工作流中各个节点的运行状态、数据传输和处理时间等关键指标。 3. 数据验证:在每个节点的输出端,验证数据的准确性、完整性和格式的正确性。 4. 性能评估:分析工作流的整体性能,如响应时间、资源利用率等,以优化工作流的效率。 5. 错误处理和恢复测试:模拟各种可能的错误情况,测试工作流的错误处理和恢复能力。 6. 定期回归测试:确保工作流在经过修改或优化后,仍然能够正常运行并满足预期。 通过以上的步骤和方法,可以有效地实现 RAG bot 测试评估工作流的自动化,提高其可靠性和性能。
2024-09-22
大模型评估
大模型评估是当前热门领域,以下是一些常见的评估方法和相关资源: 测试问题类型: 检索和归纳。 推理性。 有日期相关历史事件等。 专业测评网站: https://lmsys.org/blog/20230503arena/ (系统自带翻译不太友好,可点进去仔细阅读)。 中文语言理解测评基准:https://www.cluebenchmarks.com/index.html ,介绍:https://mp.weixin.qq.com/s/6CDnyvMsEXtmsJ9CEUn2Vw 。 斯坦福团队的 AlpacaEval:项目链接:https://github.com/tatsulab/alpaca_eval ,排行榜链接:https://tatsulab.github.io/alpaca_eval/ 。 FlagEval(天秤)大模型评测体系及开放平台:地址:https://github.com/FlagOpen/FlagEval ,简介:旨在建立科学、公正、开放的评测基准、方法、工具集,协助研究人员全方位评估基础模型及训练算法的性能,同时探索利用 AI 方法实现对主观评测的辅助,大幅提升评测的效率和客观性。FlagEval(天秤)创新构建了“能力任务指标”三维评测框架,细粒度刻画基础模型的认知能力边界,可视化呈现评测结果。 CEval:地址:https://github.com/SJTULIT/ceval ,简介:构造了一个覆盖人文,社科,理工,其他专业四个大方向,52 个学科(微积分,线代…),从中学到大学研究生以及职业考试,一共 13948 道题目的中文知识和推理型测试集。此外还给出了当前主流中文 LLM 的评测结果。 SuperCLUElyb:地址:https://github.com/CLUEbenchmark/SuperCLUElyb ,简介:中文通用大模型匿名对战评价基准,这是一个中文通用大模型对战评价基准,它以众包的方式提供匿名、随机的对战。他们发布了初步的结果和基于 Elo 评级系统的排行榜。 对比不同大语言模型性能的方法: 自定义任务:根据特定需求设计任务,以评估模型在特定领域的表现。 人类评估:结合人类评估者的主观评价,特别是在评估文本质量和伦理问题时。 A/B 测试:在实际应用场景中,通过 A/B 测试比较不同模型的表现。 性能指标:使用包括准确率、召回率、F1 分数、BLEU 分数等在内的性能指标来量化比较。 请注意,以上内容由 AI 大模型生成,请仔细甄别。
2024-08-15
Fine-Tuning是什么,如何评估一个Fine-Tuning的大赛
FineTuning(微调)是一种迁移学习技术,常用于深度学习中。其基本思路是:先有一个在大量数据上训练过的预训练模型,该模型已学会一些基本模式和结构(如在自然语言处理中学会基本语法和单词语义),然后在特定任务数据上继续训练该模型,使其适应新任务。 以下是两个例子帮助您理解: 例子 1:情感分类。假设构建一个判断电影评论积极或消极的模型,先使用大量语料库(如维基百科)预训练模型,使其学会基本语法和单词语义,再收集标注过的电影评论(部分积极,部分消极),在这些评论上继续训练模型,使其学会判断评论情感。 例子 2:图像分类。假设构建一个识别猫和狗图片的模型,先使用大量图片(如 ImageNet 数据集)预训练模型,使其学会识别图片中的基本形状和纹理,再收集标注过的猫和狗的图片,在这些图片上继续训练模型,使其学会区分猫和狗。 对于评估一个 FineTuning 的大赛,需要注意以下几点: 1. 对于需要快速迭代新用例的场景,微调作用较小。 2. 要实现微调功能,需创建包含至少数百个优质示例的大型训练数据集,按格式要求整理数据集,并启动微调自定义 LLM 的训练任务,评估微调性能。 3. 为实现良好微调,要建立模型改进工作流程,不断监控模型性能变化,获得反馈并依据反馈改进模型。 4. 通过记录所有生成的模型,以及评分指标(隐性和显性用户的反馈,以及人类和人工智能的评估),为下一版本创建的训练数据集进行调整。 5. 许多 LLM Ops 平台能自动收集和显示最佳数据,方便进行微调。
2024-08-13
请你结合大疆服务业务的具体场景,设计两个AI的应用落地场景,请从AI在此场景中应该发挥什么作用、怎样和业务场景做耦合、怎样评估AI的落地效果等多个方面进行阐述。
以下为结合大疆服务业务设计的两个 AI 应用落地场景: 场景一:无人机故障预测与维护 AI 发挥的作用: 通过对无人机飞行数据、传感器数据和零部件使用情况的分析,预测可能出现的故障。 与业务场景的耦合: 与大疆的售后服务系统集成,实时获取无人机的运行数据。利用机器学习算法建立故障预测模型,提前通知用户进行维护保养,减少因故障导致的飞行事故和损失。 落地效果评估: 1. 降低无人机故障率,通过对比使用 AI 预测维护前后的故障发生频率来评估。 2. 提高用户满意度,通过用户反馈和满意度调查来衡量。 3. 减少维修成本,统计维修费用和零部件更换成本的变化。 场景二:个性化飞行方案推荐 AI 发挥的作用: 根据用户的飞行历史、偏好、地理环境等因素,为用户生成个性化的飞行方案。 与业务场景的耦合: 在大疆的应用程序中,用户输入相关信息后,AI 系统自动分析并推荐合适的飞行路线、拍摄角度、飞行速度等。 落地效果评估: 1. 增加用户飞行活跃度,通过统计用户的飞行次数和时长来评估。 2. 提升用户对推荐方案的采纳率,通过用户实际采用推荐方案的比例来衡量。 3. 促进产品销售,对比使用个性化推荐功能前后的产品销售数据。
2024-08-11
推荐一下国内可以通过对话微调的预训练模型
以下是为您推荐的国内可以通过对话微调的预训练模型相关信息: 为优化 Llama2 的中文能力,可使用以下数据: 网络数据:互联网上公开的网络数据,包括百科、书籍、博客、新闻、公告、小说等高质量长文本数据。 :中文 Wikipedia 的数据。 :中文悟道开源的 200G 数据。 :Clue 开放的中文预训练数据,经过清洗后的高质量中文长文本数据。 竞赛数据集:近年来中文自然语言处理多任务竞赛数据集,约 150 个。 :MNBVC 中清洗出来的部分数据集。 社区提供预训练版本 Atom7B 和基于 Atom7B 进行对话微调的模型参数供开放下载,关于模型的进展详见社区官网 https://llama.family。 另外,关于会话补全(Chat completions): gpt3.5turbo 和 textdavinci003 两个模型能力相似,但前者价格只是后者的十分之一,在大部分情况下更推荐使用 gpt3.5turbo。 gpt3.5turbo 模型不支持微调。从 2023 年 3 月 1 日起,只能对基于 GPT3.5 的模型进行微调。有关如何使用微调模型的更多细节,请参阅微调指南。 从 2023 年 3 月 1 日起,OpenAI 会将您通过 API 发送的数据保留 30 天但不会使用这些数据来提升模型。 关于安仔:Coze 全方位入门剖析 免费打造自己的 AI Agent(国内版): 目前国内版暂时只支持使用“云雀大模型”作为对话引擎,其携带上下文轮数默认为 3 轮,可修改区间是 0 到 30,具体轮数可根据业务需求决定。 在 Bot 编排页面的“技能”区域,可为 Bot 配置所需技能。不懂插件时,可选择区域右上角的“优化”按钮让 AI Bot 根据提示词自动选择插件。也可自定义添加所需插件,点击插件区域的“+”号选择加入具体插件。 在 Bot 编排页面的“预览与调试”区域,可测试 Bot 是否按预期工作,可清除对话记录以开始新的测试,确保 Bot 能理解用户输入并给出正确回应。
2024-10-18
推荐一下个人可以使用的通过对话微调的模型
以下是一些个人可以使用的通过对话微调的模型相关信息: 会话补全(Chat completions): GPT3.5 系列中,gpt3.5turbo 和 textdavinci003 有相似能力,但 gpt3.5turbo 价格仅为 textdavinci003 的十分之一,在多数情况下更推荐使用 gpt3.5turbo。不过,gpt3.5turbo 不支持微调,从 2023 年 3 月 1 日起,只能对基于 GPT3.5 的模型进行微调。 微调(Finetuning): 案例研究: 客户支持聊天机器人:通常包含相关上下文、对话摘要及最近消息,可能需要几千个示例处理不同请求和客户问题,建议审查对话样本确保代理消息质量,可使用单独文本转换微调模型生成摘要。 基于技术属性列表的产品描述:将输入数据转换为自然语言很重要,确保完成基于所提供描述,若常查阅外部内容,自动添加此类内容可提高性能,若描述基于图像,提取图像文本描述可能有帮助。 模型(Models): GPT3.5 模型可理解和生成自然语言或代码,其中功能最强大、最具成本效益且针对聊天优化的型号是 gpt3.5turbo,建议使用它而非其他 GPT3.5 模型,因其成本更低。 gpt3.5turbo:功能强大,针对聊天优化,成本低,会使用最新模型迭代更新,最大 Token 数 4096,训练数据截至 2021 年 9 月。 gpt3.5turbo0301:2023 年 3 月 1 日的快照,不会更新,仅在 2023 年 6 月 1 日结束的三个月内提供支持,最大 Token 数 4096,训练数据截至 2021 年 9 月。 textdavinci003:能完成任何语言任务,支持文本中插入补全,最大 Token 数 4097,训练数据截至 2021 年 6 月。 textdavinci002:与 textdavinci003 类似,使用监督微调而非强化学习训练,最大 Token 数 4097,训练数据截至 2021 年 6 月。 codedavinci002:针对代码完成任务优化,最大 Token 数 8001,训练数据截至 2021 年 6 月。 请注意,OpenAI 模型具有不确定性,相同输入可能产生不同输出,将温度设置为 0 可使输出大部分具有确定性,但可能仍有少量可变性。
2024-10-18
个人使用可以通过对话微调的大模型
大模型是指输入大量语料,使计算机获得类似人类的“思考”能力,能够进行文本生成、推理问答、对话、文档摘要等工作。可以用“上学参加工作”来类比大模型的训练和使用过程: 1. 找学校:训练大模型需要大量计算,GPU 更合适,只有购买得起大量 GPU 的才有资本训练。 2. 确定教材:大模型需要的数据量特别多,几千亿序列(Token)的输入基本是标配。 3. 找老师:用合适的算法让大模型更好理解 Token 之间的关系。 4. 就业指导:为让大模型更好胜任某一行业,需要进行微调(fine tuning)指导。 5. 搬砖:完成就业指导后,进行如翻译、问答等工作,在大模型里称为推导(infer)。 在 LLM 中,Token 被视为模型处理和生成的文本单位,能代表单个字符、单词、子单词等,具体取决于分词方法。将输入分词时会数字化形成词汇表。 个人动手实验方面: macOS 系统可采用 GGML 量化后的模型。有名的项目如 ggerganov/llama.cpp:Port of Facebook's LLaMA model in C/C++ ,首先编译,利用 Metal 的 GPU 用相应命令编译,然后去下载模型,还提供了 WebUI,启动 server 后默认监听 8080 端口,打开浏览器可对话。 Whisper 与 llama 类似,用 make 命令编译,去指定地址下载量化好的模型,转换音频,目前只接受 wav 格式,可用 ffmpeg 转化。 张梦飞的教程《用聊天记录克隆自己的 AI 分身》全程本地操作,目标是把微信聊天记录导出,用其微调模型,最终接入微信替你回复消息。
2024-10-18
国内能通过对话微调的语言大模型
以下是国内一些能通过对话微调的语言大模型: 教育领域:桃李(Taoli) 地址: 简介:在国际中文教育领域数据上进行了额外训练的模型,基于国际中文教育教材等构建资源库和问答数据集,并利用数据进行指令微调,让模型习得将知识应用到具体场景中的能力。 数学领域:chatglmmaths 地址: 简介:基于 chatglm6b 微调/LORA/PPO/推理的数学题解题大模型,样本为自动生成的整数/小数加减乘除运算,可 gpu/cpu 部署,开源了训练数据集等。 文化领域:Firefly 地址: 简介:中文对话式大语言模型,构造了许多与中华文化相关的数据,如对联、作诗、文言文翻译、散文、金庸小说等,以提升模型在这方面的表现。 金融领域: Cornucopia(聚宝盆) 地址: 简介:开源了经过中文金融知识指令精调/指令微调的 LLaMA7B 模型。通过中文金融公开数据+爬取的金融数据构建指令数据集,并在此基础上对 LLaMA 进行了指令微调,提高了 LLaMA 在金融领域的问答效果。基于相同的数据,后期还会利用 GPT3.5 API 构建高质量的数据集,另在中文知识图谱金融上进一步扩充高质量的指令数据集。 BBTFinCUGEApplications 地址: 简介:开源了中文金融领域开源语料库 BBTFinCorpus,中文金融领域知识增强型预训练语言模型 BBTFinT5 及中文金融领域自然语言处理评测基准 CFLEB。 XuanYuan(轩辕) 地址: 简介:国内首个开源的千亿级中文对话大模型,同时也是首个针对中文金融领域优化的千亿级开源对话大模型。在 BLOOM176B 的基础上针对中文通用领域和金融领域进行了针对性的预训练与微调,不仅可以应对通用领域的问题,也可以解答金融相关的各类问题,为用户提供准确、全面的金融信息和建议。
2024-10-18
我的app应用想要对接大语言模型,结合APP用户自身的数据,实现更精准的对话,是否有行业比较成功的案例可以借鉴
以下是一些在 APP 应用对接大语言模型方面比较成功的案例,可供您借鉴: 1. Poe: 由 Quora 开发,有 APP 版本,支持跨端使用。 集成了 Chat GPT、GPT4、Claude+、Claude、Dragonfly 等模型,同时支持用户自建 Chatbot。 不同语言模型回复效果有差异,适合需要调用多种大语言模型的用户。 Dragonfly 擅长给出较短的回答,并擅长在输入中给出示例时遵循指示。 Claude 更擅长创造性回复,配合 Poe 中的提问引导,非常适合在查阅资料时使用。 支持分享用户和模型的对话内容,但 GPT4、Claude+产品需要付费订阅使用。 访问地址: Poe 中的提问引导真的能够启发到用户,midjourney prompt 扩写 Chatbot 能力很惊人。 2. Perplexity.ai: 本质是个可联网的搜索引擎,完全免费,支持网页版、APP(目前支持 iOS,安卓即将推出)、Chrome 插件。 网页版能力全面,能够根据提问从互联网上搜寻信息并给出总结后的答案。 很多 Chat GPT 中调用插件才能解决的事情(联网查询、旅行、住宿、商品推荐)靠 Perplexity 就可以解决。 能给出信息来源网址,并根据搜索内容给出继续对话的问题建议。 最新推出的 Copilot 能力支持根据搜索内容进行信息补充,每 4h 内使用 5 次,调用 GPT4。 支持分享聊天内容到多渠道。 首页推荐当下流行的新闻、搜索内容。 支持筛选 Academic(包含不同领域的学术研究论文)、Wolfram|Alpha(包含数学、科学、经济学、语言学、工程学、社会科学、文化等领域的知识库)、Wikipedia(维基百科)、Youtube、Reddit(娱乐、社交和新闻网站)、News 进行搜索。 Chrome 插件可针对当前页面给出即时摘要。 访问地址:
2024-10-18
大模型合规
大模型的安全问题包括以下方面: 1. 对齐保障:通过对齐(指令调优),如 ChatGPT 从 GPT3 经过对齐而来,使其更好地理解人类意图,增加安全保障,确保不输出有害内容。对齐任务可拆解为监督微调及获取奖励模型和进行强化学习来调整输出分布。例如 LLAMA2 使用安全有监督微调确保安全,强化学习能让模型根据人类反馈更细粒度思考答案的安全性,面对训练分布外数据也能拒绝不当回答。 2. 数据过滤:在预训练阶段对数据进行过滤,如 baichuan2 采用此技术减少有害输出,但因数据关联性,仅靠此方法可能不够,模型仍可能从关联中学到有害内容,且面对不良信息时可能因缺少知识而处理不当。 3. 越狱问题:用户可能通过越狱(Jailbreak)使模型的对齐失效,重新回答各种问题。 大模型的特点包括: 1. 架构:分为 encoderonly、encoderdecoder、decoderonly 三类,目前熟知的 AI 助手多为 decoderonly 架构,由 transformer 衍生而来。 2. 规模:预训练数据量大,来自互联网的多种来源,且参数众多,如 GPT3 已达 170B 的参数。 GPT3 与 ChatGPT 相比,除形式不同外,安全性也有差别。
2024-10-18
AI在科研领域中的应用有哪些,以及国内外情况对比
AI 在科研领域中的应用广泛,特别是在医疗健康方面: 抗癌方面:AI 能够提前诊断胰腺癌,如相关研究表明其有可能提前三年做出诊断。 抗衰老方面:通过筛查大量化合物,发现高效的药物候选物,其药理学性质优于已知的抗衰老物质。 早期疾病防治方面:例如在帕金森病的研究中,利用神经网络分析患者体液中的生物标志物,可在症状出现前几年发现疾病。 发现新靶基因:两名高中生与医疗技术公司合作,借助 AI 发现了与胶质母细胞瘤相关的三个新靶基因。 寻找治疗方法:如亚利桑那大学与哈佛大学共同利用人工智能对健康神经元在疾病进展过程中的分子变化进行研究,以识别阿尔茨海默病的原因和潜在药物靶点。 国内外情况对比: 在医疗 AI 领域,中美存在较大差异。美国医疗支出占 GDP 比重约 17%,中国约 7%。美国医生独立行医,有独立决策权,议价能力和意愿较强;中国政府和医院集采议价能力强,采购流程复杂。此外,由于存在“灰色收入”“医患不信任”“考核评比”等问题,中国医院、医生对于可能记录、审查自己言行的应用普遍持抵触态度。在中国的落地场景中,“AI 协助医生”不如“AI 独立诊断”,机械套用美国的 AI 医疗应用模式在中国基本行不通。
2024-10-18
国内外好用的图生视频模型
以下是一些国内外好用的图生视频模型: 可灵(国内,免费) 网址:https://klingai.kuaishou.com/ 支持文生视频、图生视频。 支持图生视频首尾帧功能。 提示词可使用中文。 文生视频支持正向提示词、反向提示词、运镜控制、时长选择(5s、10s),支持 16:9、9:16、1:1 尺寸。 图生视频除了不可运镜控制以外,其他跟文生视频基本相同。 默认生成 5s 的视频。 ETNA(国内) 网址:https://etna.7volcanoes.com/ 由七火山科技开发的文生视频 AI 模型。 可以根据用户简短的文本描述生成相应的视频内容。 生成的视频长度在 8 15 秒,画质可达到 4K,最高 38402160,画面细腻逼真,帧率 60fps。 文生视频,支持中文,时空理解。 关于可灵的文生视频效果,测试者 Austin 周安鑫进行了以下测试: 1. 场景识别:包括室内和室外,如客厅的沙发、液晶电视、漂亮的波斯猫、超现实主义的蜿蜒河流、茂密森林、灿烂花海、碧绿草坪等。 2. 物体识别:涵盖静态和动态物体,如水晶球、跳动的火焰、翱翔的飞鸟、闪烁的流星、飞溅的水珠等。 3. 人物识别:包括面部和姿态,如一个人笑容灿烂、一个人惊恐愤怒,一位芭蕾舞女孩在冰面上跳舞等。 4. 动作识别:包含基本和复杂动作,如短跑运动员快速奔跑、赛车手驾驶跑车激烈漂移等。 5. 事件检测:有简单和复杂事件,如一位帅哥在喝水、外星文明和地球进行星际大战等。 6. 环境变化:涉及光线和天气,如奇幻的极光舞动变幻、城市写字楼灯光忽明忽暗、闪电交加、乌云密布、台风、大雨等。 7. 多对象场景:包括单一和多对象场景,如 1 个飞行员驾驶战斗机翱翔太空、海军指挥航母战斗群展开激烈战斗等。 8. 特殊场景:有遮挡和非标准场景,如城市大雾遮挡摩天大楼、一边是神秘海底世界,一边是梦幻糖果屋。 9. 细节检测:包含小物体和微表情,如崭新的苹果电脑屏幕上播放电影、瞳孔收缩、脸颊泛红、嘴唇微微颤抖。
2024-09-19
关于大模型技术体系、国内外应用研究希望有一段内容总结给我
以下是关于大模型技术体系、国内外应用研究的总结: 大模型技术体系: Embedding(嵌入):是一个浮点数的向量,用于度量相关性,有词、句子、文档、图像等分类。在大模型中有重要价值,可从数据集中获取结果并保存为 csv 文件。 模型架构:多模态大模型架构分为模态编码器、输入投影器、语言模型骨干、输出投影器和模态生成器等部分,不同架构有不同的应用和实现选择。 训练流程:包括多模态预训练和多模态指令微调两个阶段。 架构分类:如 encoderonly 适用于自然语言理解任务,encoderdecoder 用于理解和生成内容,decoderonly 擅长自然语言生成任务。 大模型的特点: 预训练数据量大,来自互联网上的多种来源,如论文、代码、公开网页等,通常以 TB 级别计。 参数众多,如 GPT3 已达 170B 的参数。 国内外应用研究: 企业级应用开发涉及利用开源的 Embedding 模型、向量数据库做检索增强生成(RAG),以及购买 GPU 服务器搭建企业级大模型项目。 对多模态大模型从模型架构、训练数据集规模等多维度进行对比,总结提升模型效果的重要训练方法,并探讨未来发展的 5 大方向,包括构建更强大的模型、设计更具挑战性的评估集、移动端/轻量级部署、具备实体性的智能和持续性指令调整。
2024-09-13
有去了解哪些国内外的Agent产品?详细讲讲其中一个
国内外有多个 Agent 产品,以下为您详细介绍其中一些: 1. 扣子(coze.cn):是国内的新一代一站式 AI Bot 开发平台,适用于构建基于 AI 模型的各类问答 Bot,集成了丰富的插件工具,可拓展 Bot 的能力边界。 2. Coze(coze.com):海外版的 Agent 平台。 3. 百度 AppBuilder:百度推出的相关平台。 4. 阿里通义千问:具有一定特色和功能。 5. 智谱 AI:在 AI 领域有一定影响力。 此外,还有以下一些 Agent 构建平台: 1. Microsoft 的 Copilot Studio:主要功能包括外挂数据、定义流程、调用 API 和操作,以及将 Copilot 部署到各种渠道。 2. 文心智能体:百度推出的基于文心大模型的智能体平台,支持开发者根据自身需求打造产品能力。 3. MindOS 的 Agent 平台:允许用户定义 Agent 的个性、动机、知识,以及访问第三方数据和服务或执行设计良好的工作流。 4. 斑头雁:2B 基于企业知识库构建专属 AI Agent 的平台,适用于客服、营销、销售等多种场景,提供多种成熟模板,功能强大且开箱即用。 5. 钉钉 AI 超级助理:依托于钉钉强大的场景和数据优势,提供更深入的环境感知和记忆功能,在处理高频工作场景如销售、客服、行程安排等方面表现出色。 在 ToC 领域,目前成体系的主要有以下几类产品: 1. 主打 AI 角色扮演赛道的产品,例如“猫箱”“剧本戏”“名人朋友圈”这类,在 LLM 基础上,在 prompt 上加了些特定角色定义。 2. 主打 AI 陪伴类的产品,例如“星野”“Talkie”“BubblePal”等,这类产品在 LLM 基础上,在 prompt 上加了些特定角色定义,且会在长短记忆上做出处理,以突出陪伴意义。随着陪伴时间越久,知识库沉淀的个性化记录越丰富,AI 也会越懂您。 3. 做 AI 搜索工具的产品,例如“秘塔”“360 搜索”等,这类产品多为 RAG,也有会在搜索内容基础上,把内容结构化,整出一个图谱或者脑图。 4. 单纯的做 AIGC 的产品,例如“可灵”“ai 写作手”“即梦”“md”等,借助 AI 的生成能力做出。 5. Agent 产品,目前只有头部的厂商在做,比如字节的扣子,支付宝的智能助理,百度的文心智能体,腾讯的元宝。
2024-09-04
国内外的智能体平台都有哪些?尽可能罗列出来
国内外的智能体平台有: 国内:Dify.AI、字节扣子、腾讯元器。 需要注意的是,个人比较常用的国内智能体平台是字节扣子,相关文章主要对比了字节扣子和腾讯元器。智能体相当于个人的数字员工,可以不断提效,帮助实现制定的目标,这和现实中老板给员工下达任务有相似之处。
2024-08-31
你好:目前国内外哪款绘画AI工具最好?
目前国内外有很多热门的 AI 绘画工具,其中 Midjourney 是一款备受关注的工具。 Midjourney 具有以下特点: 1. 容易上手,对于完全不懂 AI 绘图的新手来说是不错的入门选择。 2. 现阶段的 AI 能辅助进行设计,视觉效果相当吸睛。 3. 模型强大,能生成高质量的图像,且支持用户充分的个性化设置。 然而,Midjourney 也存在一些不足: 1. 使用过程不够便捷,需要通过 Discord 应用加入 Midjourney 的频道,或者创建自己的频道并邀请 Midjourney 机器人,才能开始生成图片。 2. 在用户体验和易用性方面还有待改进,没有帮助用户解决“最后一公里”的问题,学习曲线较陡峭。
2024-08-19
我该如何利用文心一言、kimi等已有的大语言模型去作个性化训练?
已有的大语言模型如文心一言、kimi 等通常不支持个人进行个性化训练。 大语言模型的相关知识包括: 国内大模型有通用模型如文心一言、讯飞星火等,处理自然语言;还有垂直模型,专注特定领域。 大语言模型工作原理包括训练数据、算力、模型参数,在训练数据一致情况下,模型参数越大能力越强。 Transformer 是大语言模型训练架构,具备自我注意力机制能理解上下文和文本关联。 大模型可能因错误数据导致给出错误答案,优质数据集对其很重要。 Prompt 分为 system prompt、user prompt 和 assistant prompt,写好 prompt 的法则包括清晰说明、指定角色、使用分隔符、提供样本等。 Fine tuning 是基于通用大模型,针对特定领域任务提供数据进行学习和调整,以适应特定领域的需求。 学习大型语言模型(LLM)的开发是一个系统性的过程,需要涵盖多个方面的知识和技能: 掌握深度学习和自然语言处理基础,包括机器学习、深度学习、神经网络等基础理论,以及自然语言处理基础,如词向量、序列模型、注意力机制等。 理解 Transformer 和 BERT 等模型原理,掌握相关论文。 学习 LLM 模型训练和微调,包括大规模文本语料预处理,使用预训练框架,以及微调 LLM 模型进行特定任务迁移。 掌握 LLM 模型优化和部署,包括模型压缩、蒸馏、并行等优化技术,模型评估和可解释性,以及模型服务化、在线推理、多语言支持等。 进行 LLM 工程实践和案例学习,结合行业场景,进行个性化的 LLM 训练,分析和优化具体 LLM 工程案例,研究 LLM 新模型、新方法的最新进展。 持续跟踪前沿发展动态。 机器学习是人工智能的一个子领域,深度学习是机器学习的一个子领域,大语言模型是深度学习在自然语言处理领域的应用之一,具有生成式 AI 的特点。
2024-10-18
请推荐一些国内免费可以调教的语言大模型
以下是一些国内免费可以调教的语言大模型: 1. Aquila:由智源研究院发布,在技术上继承了 GPT3、LLaMA 等的架构设计优点,替换了一批更高效的底层算子实现、重新设计实现了中英双语的 tokenizer,升级了 BMTrain 并行训练方法,是在中英文高质量语料基础上从 0 开始训练的,通过数据质量的控制、多种训练的优化方法,实现在更小的数据集、更短的训练时间,获得比其它开源模型更优的性能。也是首个支持中英双语知识、支持商用许可协议、符合国内数据合规需要的大规模开源语言模型。地址: 2. baichuan7B:由百川智能开发的一个开源可商用的大规模预训练语言模型。基于 Transformer 结构,在大约 1.2 万亿 tokens 上训练的 70 亿参数模型,支持中英双语,上下文窗口长度为 4096。在标准的中文和英文权威 benchmark(CEVAL/MMLU)上均取得同尺寸最好的效果。地址: 3. Anima:由艾写科技开发的一个开源的基于 QLoRA 的 33B 中文大语言模型,该模型基于 QLoRA 的 Guanaco 33B 模型使用 ChineseVicuna 项目开放的训练数据集 guanaco_belle_merge_v1.0 进行 finetune 训练了 10000 个 step,基于 Elo rating tournament 评估效果较好。地址:
2024-10-16
大语言模型发展历程
大语言模型的发展历程如下: 2017 年,发布了《Attention Is All You Need》论文,为后续发展奠定基础。 2018 年,Google 提出 BERT(Bidirectional Encoder Representations from Transformers),其创新性地采用双向预训练并行获取上下文语义信息,以及掩码语言建模(MLM)以更好地推断语义信息,参数规模在 110M 到 340M 之间。 2018 年,OpenAI 提出 GPT(Generative Pretrained Transformer),开创了仅使用自回归语言建模作为预训练目标而无需额外监督信号的方式,展示了强大的语言生成能力,参数规模达 1750 亿。 2021 年,Meta 提出 Large LAnguage Model Approach(LLAMA),这是首个开源模型,为构建更大规模、更通用的语言模型提供了方法与工具,参数规模在十亿到千亿之间。 此外,OpenAI 的 GPT3.5 是其大语言模型 GPT 系列中多年来最完善的一次迭代,并通过 ChatGPT 成功推向大众,在短时间内实现了用户的快速增长。 在语言模型的发展中,20 世纪 80 年代发明了递归神经网络(RNN)处理单词序列,但存在训练速度慢和遗忘问题。1997 年发明的长短期记忆(LSTM)网络解决了部分问题,但语言能力有限。 2020 年中期,Lewis 等人提出检索增强生成(RAG),它将外部数据检索整合到生成过程中,提高了模型提供准确和相关回答的能力。RAG 的演进轨迹在四个不同阶段展开,2017 年的创始阶段主要重点是通过预训练模型(PTM)来吸收额外的知识以增强语言模型。
2024-10-15
我是一个大学生,大语言模型帮我能做什么
大语言模型对大学生有以下帮助: 1. 模拟故事情景代入角色:通过心智理论推理出每个角色的知识和信念,得出可能的回答,有助于小说家写出更丰富的人物心理和精彩对话,设计更灵活逼真的情节细节。 2. 理解模型中的 Encoder:Encoder 是模型的编码器部分,负责对输入的文本序列进行编码,获取其对应的语义表示。具有词嵌入、位置编码、注意力机制、层叠编码、上下文建模等关键作用,是大型语言模型的核心部件,对于提取和建模输入序列的语义信息至关重要。 3. 转换类应用:擅长将输入转换为不同格式,如语言翻译、拼写和语法矫正、格式转换等,使转换过程更简单高效,提供更好的文本相关应用体验。例如可以将英文文本翻译成西班牙语,识别文本所属语言等。
2024-10-11