直达「 通往AGI之路 」飞书知识库 →
首页/问答列表/问答详情

近期的大模型进展

回答

近期大模型的进展主要包括以下方面:

  • 多模态大模型:
    • 现状:随着数据集和模型规模扩大,传统多模态模型计算量大,研究重点在于各模态的连接,利用现成训练好的单模态基础模型可减少训练费用和提升效率。通过多模态预训练和指令微调实现模态对齐及模型输出与人类意图对齐是核心挑战。
    • 发展历程:最初集中在多模态内容理解和文本生成,如 Flamingo、BLIP-2 等;同时实现多模态输入和输出工作,如 MM-LMM;将 LLM 和外部工具继承进来,实现“any-to-any”的多模态理解和生成,如 visual-chatgpt 等;还有为减少级联过程中传播误差的工作。
  • 大型视觉模型 Sora:符合视觉模型的规模化定律,展示了新兴能力,包括遵循指令、视觉提示工程和视频理解等,是第一个展示确认新兴能力的视觉模型,标志着计算机视觉领域的重要里程碑。
  • OpenAI 的新模型 o1-preview/mini:复杂问题思考过程长,相对简单问题也需 5 - 10 秒,使用条数少,冷却时间长,但推理模型准确率不断攀升,为行业注入了强心剂。
内容由 AI 大模型生成,请仔细甄别(powered by aily)

参考资料

多模态大模型入门指南-长文慎入【持续更新】

最近,多模态大模型取得重大进展。随着数据集和模型的规模不断扩大,传统的MM模型带来了巨大的计算量,尤其是从头开始训练的话。研究人员意识到MM的研究重点工作在各个模态的连接上,所以一个合理的方法是利用好现成的训练好的单模态基础模型,尤其是LLM。这样可以减少多模态训练的费用,提升训练效率。MM-LLM利用LLM为各种MM任务提供认知能力。LLM具有良好的语言生成,zero-shot和ICL的能力。其他模态的基础模型则提供了高质量的表征。考虑到不同模态的模型是分开训练的,如何将不同模态连接起来,实现协同推理,是核心挑战。这里面的主要工作便是通过多模态预训练和多模态的指令微调,来实现模态之间的对齐,以及模型输出与人类意图的对齐。[heading3]1.2多模态的发展历程:[content]关于多模态的发展主要有:最初的发展集中在多模态的内容理解和文本的生成:Flamingo,BLIP-2,Kosmos-1,LLaVA/LLaVA-1.5/LLaVA-1.6,MiniGPT-4,MultiModal-GPT,Video-Chat,VIdeo-LLaMA,IDEFICS,Fuyu-8B,Qwen-Audio同时实现多模态的输入和输出工作MM-LMM,探索特定模态的生成,例如Kosmos-2,Mini-GPT5,以及语音生成的SpeechGPT将LLM和外部工具继承进来,实现“any-to-any”的多模态理解和生成。visual-chatgpt,ViperGPT,MM-React,HuggingGPT,AudioGPT同样,有为了减少级联过程中传播误差的工作,有NExT-GPT和CoDI-2,来开发任意模式的多模态模型

Sora:大型视觉模型的背景、技术、局限性和机遇综述 【官方论文】

视觉模型的规模化定律。有了LLMs的规模化定律,自然会问视觉模型的发展是否遵循类似的规模化定律。最近,Zhai等人[24]展示了,有足够训练数据的ViT模型的性能-计算前沿大致遵循(饱和)幂律。继他们之后,谷歌研究[25]提出了一种高效稳定训练22B参数ViT的方法。结果显示,使用冻结模型产生嵌入,然后在顶部训练薄层可以实现出色的性能。Sora作为一个大型视觉模型(LVM),符合这些规模化原则,揭示了文本到视频生成中的几种新兴能力。这一重大进展强调了LVMs实现类似LLMs所见进步的潜力。新兴能力。LLMs中的新兴能力是在某些规模上——通常与模型参数的大小有关——表现出的复杂行为或功能,这些行为或功能并未被开发者明确编程或预期。这些能力被称为“新兴”,因为它们源于模型在多样化数据集上的全面训练,以及其庞大的参数数量。这种组合使模型能够形成联系并做出超越简单模式识别或死记硬背的推断。通常,这些能力的出现不能通过从小规模模型的性能外推来直接预测。虽然许多LLMs,如ChatGPT和GPT-4,展示了新兴能力,但直到Sora的出现,展示类似能力的视觉模型还很少。根据Sora的技术报告,它是第一个展示确认新兴能力的视觉模型,标志着计算机视觉领域的一个重要里程碑。除了其新兴能力,Sora还展示了其他显著能力,包括遵循指令、视觉提示工程和视频理解。Sora的这些功能方面代表了视觉领域的重大进步,并将在后续部分进行探讨和讨论。

OpenAI:我憋了个新大招儿,它叫o1-preview/mini

[title]OpenAI:我憋了个新大招儿,它叫o1-preview/mini其次,今天凌晨第一批吃螃蟹的用户已经体验过了,从各群、各微、各推的反馈来看,复杂问题的思考过程长达30s,而相对简单的问题则要5-10s之间。就连OpenAI给出的模型速度示例中,o1-preview的速度也是偏慢的。最后,让人有点郁闷的是,新模型(o1-preview/mini)的使用条数太少了,而且冷却时间相当长,按照少数AI先锋(@陈财猫)的测试,o1-preview的冷却时间长达7天。这一周几十条的用量也顶多算是打打牙祭...最后,我想分享一些个人的思考和感悟。随着这两年来对模型发展的观察,我看到了一个明显的趋势:仅仅依靠生成式应用的场景是相当有限的。尤其是toB领域,我们遇到的更多是对准确性要求极高的场景,甚至需要100%准确的情况,比如安全领域和金融领域,这些都是差之毫厘谬之千里的业务。而大模型的局限性也是常常在于此(幻觉)。但推理模型的准确率不断攀升、甚至达到完全可信的地步确实是一件非常惊喜又恐怖的事情。之前让模型干创意的活儿,现在又能干精确的活儿,这属于全场景覆盖!这意味着AI技术可以渗透到更多行业、更多高精尖业务中去!同时,我回想起老师曾经对我说过的一句话:"不管现在的大模型处理速度多慢,操作多么繁琐,只要能保证最终结果的正确性,它就拥有无限的可能性。"我觉得老师的话不无道理,不要看现在新模型的推理速度慢,但这些都可以通过增配新硬件去解决,只要钱到位,这都不是问题。况且,这也可能是慢思考系统的一种呢?你说对吧!再者,在今年上半年,甚至是上个月,很多人还在担忧大模型的前景。但OpenAI推出的新模型无疑给这个行业注入了一剂强心剂,为整个领域带来了新的活力和希望。这是令人赞叹和振奋的。

其他人在问
我要在自己的应用中接入AI大模型能力,请问有什么工具或lib可以简化这个过程
以下是一些可以简化在应用中接入 AI 大模型能力的工具和库: 1. 您可以搭建 ,用于汇聚整合多种大模型接口,方便后续更换使用各种大模型。 2. 搭建 ,这是一个知识库问答系统,您可以将知识文件放入,并接入大模型作为分析知识库的大脑,它也有问答界面。 3. 搭建 ,其中的 cow 插件能进行文件总结、MJ 绘画等。 另外,基于 LangChain 平台提供的 LLM 基础模型,也能完成任意模型接口的封装。LLM(语言逻辑模型)是 LangChain 平台与各种大模型进行交互的核心模型,是一个抽象概念,可理解为处理语言输入和输出的黑盒。其输入是字符串表示的用户请求或问题,输出也是字符串表示的模型回答或结果。LLM 能根据不同输入调用不同大模型完成不同语言任务,具有无需关心大模型细节和复杂性、灵活选择切换大模型、可自行封装实现语言逻辑和功能等优势。 在基础通识课中,还提到了一些相关内容,如流式训练方式提升训练速度和质量,多种 AI 生成工具(如 so no 音频生成工具、能创建个人 AI 智能体的豆包、输入文本可生成播客的 Notebook LN),端侧大模型的特点,AI 工程平台(如 define、coach 等),模型社区(如魔搭社区)等。
2024-10-23
大模型评测标准
大模型的评测标准通常包括以下方面: 1. 多维度、多视角的综合性测评方案: 如中文大模型基准测评 2023 年度报告中,采用了由多轮开放问题 SuperCLUEOPEN 和三大能力客观题 SuperCLUEOPT 组成的评测集,共 4273 题,包括 1060 道多轮简答题(OPEN)和 3213 道客观选择题(OPT)。 在确定的评估标准指导下,OPEN 基准使用超级模型作为评判官,对比待评估模型与基准模型,计算胜和率作为 OPEN 得分,最终 SuperCLUE 总分由 0.7OPEN 分+0.3OPT 分计算得出,且经过人工校验。 OPT 主要测评选择题,包括基础能力、中文特性、专业与学术能力,构造统一 prompt 供模型使用,要求选取唯一选项。多轮简答题 OPEN 更能反映模型真实能力,故权重设置较高。 2. 特定的评测体系及开放平台: FlagEval(天秤)大模型评测体系及开放平台,旨在建立科学、公正、开放的评测基准、方法、工具集,创新构建了“能力任务指标”三维评测框架,细粒度刻画基础模型的认知能力边界,可视化呈现评测结果。 CEval 构造了一个覆盖多个方向和学科,共 13948 道题目的中文知识和推理型测试集,并给出了当前主流中文 LLM 的评测结果。 SuperCLUElyb 是中文通用大模型匿名对战评价基准,以众包方式提供匿名、随机的对战,并发布了初步结果和基于 Elo 评级系统的排行榜。 3. 基于业务目标和特定场景的测评: 例如在开发基于 LangChain Chatchat 框架的产品时,基于业务目标和政策咨询场景,对回答的内容生成质量进行测评,主要包括是否理解问题、是否匹配正确政策原文、基于政策原文的回答是否准确全面、是否生成政策原文以外的内容、回答是否可靠以及不同轮次回答是否差异大、是否支持追问等方面。
2024-10-23
Florence节点和模型下载方法
Florence 节点和模型的下载方法如下: 节点下载: 方法一:从节点管理器中安装(注意结尾是 V2.6int4 的那个)。 方法二:在秋叶包中安装(注意结尾是 V2.6int4 的那个)。 方法三:直接下载下面文件解压,复制 ComfyUI_MiniCPMV2_6int4 文件夹到您的“\\ComfyUI\\custom_nodes”目录下。注意 ComfyUI_MiniCPMV2_6int4 文件夹里面直接就是多个文件不能再包文件夹了。 夸克网盘:链接:https://pan.quark.cn/s/bc35e6c7e8a6 百度网盘:链接:https://pan.baidu.com/s/1sq9e2dcZsLGMDNNpmuYp6Q?pwd=jdei 提取码:jdei 模型下载: 模型下载地址(解压后大小 5.55G,压缩包大小 4.85G): 夸克网盘:链接:https://pan.quark.cn/s/98c953d1ec8b 百度网盘:链接:https://pan.baidu.com/s/1y4wYyLn511al4LDEkIGEsA?pwd=bred 提取码:bred 此外,Joy_caption 相关模型下载: 从 https://huggingface.co/unsloth/MetaLlama3.18Bbnb4bit 下载并放到 Models/LLM/MetaLlama3.18Bbnb4bit 文件夹内。 必须手动下载: https://huggingface.co/spaces/fancyfeast/joycaptionprealpha/tree/main/wpkklhc6 ,存放文件夹:models/Joy_caption 。 MiniCPMv2_6 提示生成器 + CogFlorence: https://huggingface.co/pzc163/MiniCPMv2_6promptgenerator https://huggingface.co/thwri/CogFlorence2.2Large TheMisto.ai 的 MistoLine 版相关: 节点: MistoControlNetFluxdev ,在您的 \\ComfyUI\\custom_nodes 文件夹里面右键终端命令行,复制相关代码即可下载,或者通过以下网盘下载: 夸克网盘:链接:https://pan.quark.cn/s/ad43dd5152a6 百度网盘:链接:https://pan.baidu.com/s/1NcOdG4AV68xTup8FvphsYA?pwd=lpvc 提取码:lpvc 模型: 夸克网盘:链接:https://pan.quark.cn/s/5551e813db21 百度网盘:链接:https://pan.baidu.com/s/1Ntf4MbTCGJ5TYDv6mgvqNQ?pwd=zhfq 提取码:zhfq 处理:将模型放到您的 ComfyUI\\models\\TheMisto_model 文件夹中,并导入官方工作流 。
2024-10-22
Lora模型训练数据集
以下是关于 Lora 模型训练数据集的相关内容: 创建数据集: 1. 进入厚德云模型训练数据集(https://portal.houdeyun.cn/sd/dataset)。 2. 在数据集一栏中,点击右上角创建数据集,输入数据集名称。 3. 可以上传包含图片+标签 txt 的 zip 文件,也可以只有图片(之后可在 c 站使用自动打标功能),还可以一张一张单独上传照片,但建议提前把图片和标签打包成 zip 上传。 4. Zip 文件里图片名称与标签文件应当匹配,例如:图片名“1.png”,对应的达标文件就叫“1.txt”。 5. 上传 zip 以后等待一段时间,确认创建数据集。返回到上一个页面,等待一段时间后上传成功,可以点击详情检查,能预览到数据集的图片以及对应的标签。 Lora 训练: 1. 点击 Flux,基础模型会默认是 FLUX 1.0D 版本。 2. 选择数据集,点击右侧箭头,会跳出所有上传过的数据集。 3. 触发词可有可无,取决于数据集是否有触发词。模型效果预览提示词则随机抽取一个数据集中的标签填入即可。 4. 训练参数这里可以调节重复次数与训练轮数,厚德云会自动计算训练步数。如果不知道如何设置,可以默认 20 重复次数和 10 轮训练轮数。 5. 可以按需求选择是否加速,点击开始训练,会显示所需要消耗的算力。然后等待训练,会显示预览时间和进度条。训练完成会显示每一轮的预览图。鼠标悬浮到想要的轮次模型,中间会有个生图,点击会自动跳转到使用此 lora 生图的界面。点击下方的下载按钮则会自动下载到本地。 用 SD 训练一套贴纸 LoRA 模型的工作流: 1. 原始形象:MJ 初步产出符合设计想法的贴纸原始形象。 2. 二次加工:完成贴纸的白色边线等细节加工。 3. 处理素材:给训练集图片打 tag,修改 tag。 4. 训练模型:将上述处理好的数据集做成训练集,进行训练。 用 SD 训练一套贴纸 LoRA 模型的原始形象:MJ 关键词: A drawing for a rabbit stickers,in the style of hallyu,screenshot,mori kei,duckcore plush doll art exaggerated poses,cry/happy/sad/...ar 3:4 niji 5 style cute s 180 。会得到不同风格的贴图,我们可以先看看自己喜欢哪一种。出图过程可以有意识地总结这一类贴图的特征,比如都是可爱的兔子,有不同的衣服和头饰,都有一双大大的卡通眼睛,会有不同的面部表情。 注意事项: 1. 关键词中限制了颜色,因此 MJ 生成的图片会一种情绪对应一种颜色,所以同一种情绪最好多生成几张不同色系的,可以减少后续训练中模型把情绪和颜色做挂钩(如果需要这样的话,也可以反其道而行之)。 2. 数据集中正面情绪与负面情绪最好比例差不多,如果都是正面积极的,在出一些负面情时(sad,cry)的时候,可能会出现奇怪的问题(如我们训练的是兔子形象,但 ai 认知的 sad 可能是人的形象,可能会出现人物特征)。 3. 如果训练 256266 大小的表情包,这样的素材就已经够用了。如果要训练更高像素的图片,则需要进一步使用 MJ 垫图和高清扩展功能。 高清化: 左(256)→右(1024),输入左图,加入内容描述,加入风格描述,挑选合适的,选出新 30 张图片(卡通二次元类型的 lora 训练集 30 张差不多,真人 60100 张)。
2024-10-22
Lora模型训练
以下是关于 Lora 模型训练的相关内容: 一、用 SD 训练一套贴纸 LoRA 模型的要点 1. 训练数据集准备:包括训练素材处理、图像预处理、打标优化。 2. 训练环境参数配置:选择本地或云端训练环境,进行训练环境配置和训练参数配置。 3. 模型训练:基于 kohyass 训练模型。 4. 模型测试:通过 XYZ plot 测试模型。 二、郑敏轩:Flux 的 Lora 模型训练 1. 所需模型下载:t5xxl_fp16.safetensors、clip_l.safetensors、ae.safetensors、flux1dev.safetensors。 注意事项: 不使用时,模型放置位置不限,只要知道路径即可。 训练时,建议使用 flux1dev.safetensors 版本的模型和 t5xxl_fp16.safetensors 版本的编码器。 2. 下载脚本: 夸克网盘链接:https://pan.quark.cn/s/ddf85bb2ac59 百度网盘链接:https://pan.baidu.com/s/1pBHPYpQxgTCcbsKYgBi_MQ?pwd=pfsq 提取码:pfsq 三、100 基础训练大模型 1. 步骤一·创建数据集 进入厚德云模型训练数据集:https://portal.houdeyun.cn/sd/dataset 在数据集一栏中,点击右上角创建数据集,输入数据集名称。 可以上传包含图片+标签 txt 的 zip 文件,也可以只有图片(之后可在 c 站使用自动打标功能),或者一张一张单独上传照片。 Zip 文件里图片名称与标签文件应当匹配,例如:图片名"1.png",对应的达标文件就叫"1.txt"。 上传 zip 以后等待一段时间,确认创建数据集,返回到上一个页面,等待一段时间后上传成功,可点击详情检查,预览数据集的图片以及对应的标签。 2. 步骤二·Lora 训练 点击 Flux,基础模型会默认是 FLUX 1.0D 版本。 选择数据集,点击右侧箭头,选择上传过的数据集。 触发词可有可无,取决于数据集是否有触发词。 模型效果预览提示词则随机抽取一个数据集中的标签填入即可。 训练参数可调节重复次数与训练轮数,厚德云会自动计算训练步数,若不知如何设置,可默认 20 重复次数和 10 轮训练轮数。 可按需求选择是否加速,点击开始训练,会显示所需要消耗的算力,然后等待训练,会显示预览时间和进度条。 训练完成后会显示每一轮的预览图,鼠标悬浮到想要的轮次模型,中间会有个生图,点击会自动跳转到使用此 lora 生图的界面。点击下方的下载按钮则会自动下载到本地。
2024-10-22
你是基于什么大模型做的知识库
以下是关于大模型和知识库的相关知识: 1. RAG(检索增强生成)技术:利用大模型搭建知识库是 RAG 技术的应用。大模型训练数据有截止日期,当需要依靠不在训练集中的数据时,可通过 RAG 实现。RAG 包括文档加载、文本分割、存储(包括嵌入和向量数据存储到向量数据库)、检索、输出(把问题及检索出的嵌入片提交给 LLM 生成答案)等 5 个过程。文档加载可从多种来源加载不同类型的文档,文本分割将文档切分为指定大小的块。 2. 硬件配置要求:运行大模型需要较高的机器配置。生成文字大模型最低配置为 8G RAM + 4G VRAM,建议配置为 16G RAM + 8G VRAM,理想配置为 32G RAM + 24G VRAM(跑 GPT3.5 差不多性能的大模型);生成图片大模型最低配置为 16G RAM + 4G VRAM,建议配置为 32G RAM + 12G VRAM;生成音频大模型最低配置为 8G VRAM,建议配置为 24G VRAM。 3. 实例:在一个设定中,使用阿里千问模型,设定角色为“美嘉”,知识库为《爱情公寓》全季剧情,实现问答。
2024-10-22
9月份AI技术有哪些进展
以下是 9 月份 AI 技术的一些进展: 1. 9 月 AI 圈内发生了多起趣事和事件,包括 Cursor 编程软件的爆红、Runway 删除开源的 Stable Diffusion v1.5、国产 AI Bot 类产品留存率不足 1%等。 2. 众多新模型和功能接连发布,如 DeepSeek、OpenAI 和 Meta 有新的进展,以及 AI 编程工具不断竞争。 3. 行业关注度持续上升,尤其是 Cursor 的成功引发广泛讨论,显示 AI 编程工具仍在快速发展。 4. 吴恩达深入探讨了 AI 技术的最新发展和未来方向,重点关注 Agentic Workflow、模型架构、推理速度和基础设施。他介绍了 Agentic Workflow 的优势,强调 AI 能够自主回顾和修复错误,提高系统稳定性。以斯坦福大学的演示为例,AI Agent 在网络搜索失败时自动切换到维基百科,展示了其适应性。 5. 关于模型架构,吴恩达认为现有的 Transformer 模型已经表现良好,虽然新架构值得研究,但不是必需的。他强调提高快速推理和生成控制能力更为关键。 6. 推理速度被视为当前 AI 应用的主要瓶颈。吴恩达指出,显著提高推理速度(如从 25 分钟缩短到 2 分钟)将极大改善用户体验,推动 AI 应用发展。 7. 在讨论 AI 基础设施时,吴恩达认同增加训练投资可能提高模型效率的观点。他提到一些公司正在开发高效的 token 生成技术,并提出了训练和推理基础设施是否应分离的问题,暗示这可能需要新的架构支持。
2024-10-04
谈一下2024年aigc技术领域的进展
以下是 2024 年 AIGC 技术领域的一些进展: 飒姐团队希望 2024 年版报告能更详细展现 AIGC 在国内外的盛况,并期待更具想象力和突破性的发展。同时指出,AI 将改变人们生活的方方面面,很多生产关系会改变,法律也将受到“拷问”。 2024 年 1 月第四周,扎克伯格宣布 Meta 致力于实现 AGI,将两大 AI 研究团队合并,并投入超 90 亿美元采购英伟达显卡。Meta 正在开发 Llama 3 大语言模型,推动开源的通用人工智能开发方式。 2024 年 7 月第二周,快手发布可灵网页版及大量模型更新,阶跃星辰发布多款模型,商汤打造类似 GPT4o 的实时语音演示,微软开源新型 RAG 架构 GraphRAG。 2024 年 7 月第三周,Anthropic 新增分享和后台功能,出现 LLM 分布式训练框架 OpenDiLoCo,Odysseyml 重构 AI 视频生成技术。 2024 年 7 月第四周,AIGC 领域的重要动态包括 Open AI 发布 GPT4omini、Mistral 发布三个小模型等。
2024-09-23
人工智能2024进展综述
以下是关于人工智能 2024 进展的综述: 一、技术与应用方面的进展 1. 图片超短视频的精细操控:包括表情、细致动作、视频文字匹配。 2. 生成式短视频:风格化、动漫风最先成熟,真人稍晚。 3. AI 音频能力:带感情的 AI 配音基本成熟。 4. “全真 AI 颜值网红”:可以稳定输出视频并直播带货。 5. 游戏 AI NPC:有里程碑式进展,出现新的游戏生产方式。 6. AI 男/女朋友聊天:记忆上有明显突破,能较好模拟人的感情,产品加入视频音频,粘性提升并开始出圈。 7. 实时生成的内容:开始在社交媒体内容、广告中出现。 8. AI Agent:有明确进展,办公场景“AI 助手”开始有良好使用体验。 二、商业模式与硬件方面 1. AI 的商业模式:开始有明确用例,如数据合成、工程平台、模型安全等。 2. 可穿戴全天候 AI 硬件:层出不穷,虽然大多数不会成功。 三、国内外发展情况 1. 中国 AI:达到或超过 GPT4 水平。 2. 美国:出现 GPT5。 3. 世界:开始现“主权 AI”。 4. 华为昇腾生态:开始形成,国内推理芯片开始国产替代(训练替代要稍晚)。 四、相关问题与挑战 1. AI 造成的 DeepFake、诈骗、网络攻击等开始进入公众视野,并引发担忧。 2. AI 立法、伦理讨论仍然大规模落后于技术进展。 五、其他相关内容 1. 精选英文报告中添加了《》,135 页文档非常全面概述人工智能生成的内容,涵盖其基础、前沿、应用和社会影响。 2. 更新了 E2B 的。 3. 《》详细介绍了 108 种助于理解复杂概念、改善决策过程和提升问题解决技能的思维模型。 此外,红杉资本的观点认为: 1. AI 产品越来越契合市场的需要,如人工智能驱动的客户服务平台 Klarnas 实现了大量客户服务查询的自动化。 2. 生成式人工智能正在经历快速增长,第一年收入约 30 亿美元。 3. 存在 AI 的$200B 问题,即投资与回报的不平衡。 4. 预测 2024 年将是真正的 AI 应用从 Copilots 转变为人类 Agents 的一年,未来人工智能将更有能力完成更高层次的认知任务,计算平衡从预训练转向推理。
2024-09-12
Ai最新进展
AI 技术的发展历程如下: 1. 早期阶段(1950s 1960s):包括专家系统、博弈论、机器学习初步理论。 2. 知识驱动时期(1970s 1980s):有专家系统、知识表示、自动推理。 3. 统计学习时期(1990s 2000s):出现了机器学习算法,如决策树、支持向量机、贝叶斯方法等。 4. 深度学习时期(2010s 至今):深度神经网络、卷积神经网络、循环神经网络等得到广泛应用。 当前 AI 的前沿技术点包括: 1. 大模型,如 GPT、PaLM 等。 2. 多模态 AI,例如视觉 语言模型(CLIP、Stable Diffusion)、多模态融合。 3. 自监督学习,包含自监督预训练、对比学习、掩码语言模型等。 4. 小样本学习,如元学习、一次学习、提示学习等。 5. 可解释 AI,涉及模型可解释性、因果推理、符号推理等。 6. 机器人学,包括强化学习、运动规划、人机交互等。 7. 量子 AI,有量子机器学习、量子神经网络等。 8. AI 芯片和硬件加速。 此外,绿洲资本张津剑认为 AI 技术正在加速发展,并且没有看到任何减缓的迹象。尽管媒体报道可能有所减少,但 AI 的实际进展非常迅速。
2024-09-03
国内医疗行业的大模型有哪些,关于慢性病领域的有和进展
在国内医疗行业,大模型的应用主要涵盖疾病的诊断与预测、药物研发以及个性化医疗等方向。目前很多医疗研究机构都在进行医疗大模型的开发研究。 在慢性病领域,AI 随访/答疑助手方面有一定进展。例如腾讯健康智能随访、讯飞家庭医生随访系统等随访系统,目前主要起到数据库的作用,记录患者信息等,主要的随访和答疑工作仍由医护人员完成,但随着就诊人数增长,工作量超负荷。大模型为这类产品提供了基础,预计短期内能够实现 AI 提供大部分建议,医生护士做少量修改即可发送,不过仍需要按照科室进行精调,如骨科关注康复进度、疼痛发炎情况,肿瘤关注用药指导、药品之间的相互作用等。
2024-08-28
LLM写ABAP代码的最新进展
大型语言模型(LLM)在编写ABAP代码方面的能力正在不断提升。ABAP(高级业务应用编程)是SAP系统的编程语言,专门用于开发企业资源规划(ERP)软件。以下是一些LLM编写ABAP代码的最新进展: 1. 代码生成:LLM可以基于自然语言描述生成ABAP代码片段,帮助开发者快速实现特定功能。 2. 代码补全:通过机器学习技术,LLM能够预测并补全ABAP代码,提高开发效率。 3. 代码审查:LLM可以分析ABAP代码,识别潜在的错误和不规范的编程实践。 4. 文档生成:LLM能够根据ABAP代码自动生成文档,包括函数描述、参数说明等。 5. 模式识别:LLM可以识别ABAP编程中的常见模式和最佳实践,并在代码生成时应用这些模式。 6. 交互式学习:一些LLM提供交互式学习环境,帮助开发者通过实例学习ABAP编程。 7. 集成开发环境(IDE)插件:LLM技术被集成到ABAP开发工具中,提供智能代码提示和错误检测。 8. 自动化测试:LLM可以生成测试用例,帮助自动化ABAP代码的测试过程。 9. 性能优化:LLM可以分析ABAP代码的性能瓶颈,并提出优化建议。 10. 跨语言能力:一些LLM能够理解多种编程语言的概念,并将其应用于ABAP代码的编写。 然而,尽管LLM在编写ABAP代码方面取得了进展,但它们仍然面临一些挑战,例如: 领域特定知识:ABAP是一种领域特定的语言,需要对SAP系统有深入的理解。 复杂逻辑处理:企业级应用的逻辑可能非常复杂,LLM需要能够处理这些复杂性。 代码维护性:自动生成的代码需要易于理解和维护。 随着技术的发展,LLM在ABAP编程领域的应用将越来越广泛,但它们可能仍然需要与人类开发者合作,以确保生成的代码既高效又可靠。
2024-08-05
近期数字人比较成熟的应用有哪些
数字人目前有以下较为成熟的应用: 1. 影视行业:真人驱动的数字人通过动捕设备或视觉算法还原真人动作表情,用于影视制作。 2. 直播带货:真人驱动的数字人在直播带货领域发挥作用。 3. 家庭:未来可能会有数字人管家,全面接管智能家居或其他设备。 4. 学校:未来可能会有数字人老师,为学生答疑解惑。 5. 商场:未来可能会有数字人导购,为顾客提供指路、托管个人物品等服务。 数字人的构建方式包括: 1. 2D 引擎:风格偏向二次元,亲和力强,定制化成本低,代表如 Live2D Cubism。 2. 3D 引擎:风格偏向超写实的人物建模,拟真程度高,定制化成本高,代表如 UE、Unity、虚幻引擎 MetaHuman 等。 3. AIGC:虽然省去建模流程,但在数字人 ID 一致性和帧连贯性上存在弊端,不过算法发展迅速,未来可能会有改善。AIGC 还有直接生成 2D/3D 引擎模型的探索方向。
2024-10-16
Way to AGI 近期更新
以下是 Way to AGI 的近期更新: Runway 官方镜头提示词相关: 官方镜头指南:https://help.runwayml.com/hc/enus/ 相关文章:articles/30586818553107Gen3AlphaPromptingGuide 生图官网:https://app.runwayml.com/videotools/teams/aimwisetonix/aitools/generativevideo 互动:最下面有个小互动,一起生文字“WaytoAGI”回头剪辑到一起 适合参加本期 video battle:https://waytoagi.feishu.cn/wiki/CufGwGyeXiomZnkiLTwcIgd3nnb 官方效果: https://waytoagi.feishu.cn/wiki/Eun9wqDgii1Q7GkoUvCczYjln7r Gen3 Alpha 上线,具有无限潜力,创建传达场景的强烈提示是生成与概念一致视频的关键,涵盖不同示例结构、关键字和提示。 观点方面: 作者 Allen 认为热爱与行动是通往 AGI 之路。 更新日志:补充对共创模式的思考,删减部分内容。 端午假期实践了三篇教程,难度从低到高排序为: 1. https://waytoagi.feishu.cn/wiki/QWQ0w1QOZiNZz9kreQecY4hYn4c (入门级网速好的话,一个小时能搞定) 2. https://waytoagi.feishu.cn/wiki/XnvIwd8NkiDefHkmbobcCfsBnKg 3. https://waytoagi.feishu.cn/wiki/YeBiwZx2TiyNLMk8pdjcmdQfnjd 关于加强写作能力的训练,准备调整工作流,先把初稿发在飞书上(可能是原来 2 篇或 3 篇的集合,有一些不方便说的也先发在初稿,后续再删),获取大家反馈后再拆分细化。 自我介绍:Allen,一个小镇青年,是 WaytoAGI 共创者。
2024-10-12
近期更新的虚拟陪伴产品
以下是近期更新的一些虚拟陪伴产品: 1. Character.ai:这是一个 AI 虚拟陪伴平台,用户可与数百个 AI 驱动的角色交流,包括名人、动漫角色等,还能创建自己的角色并赋予其描述、图像、个性等特性。 2. Replika:一款 AI 虚拟陪伴应用,用户能设计理想伴侣,其会存储记忆并在未来对话中参考,甚至可发送照片。 3. Talkie:主打情感路线的 AI 虚拟陪伴应用,设计有大量 npc,游戏和休闲娱乐体验感更强,每个 npc 带有自己的剧情体系,交流中会触发抽取卡牌机会。 享受型虚拟陪伴方面:享受是人不用付出就能得到想要的。过去 20 年,互联网产品在让用户享受上有成熟方法论,如交互简便、流程便利、连接畅通、内容无限。但用这些标准衡量 AI 产品,尤其是虚拟陪伴产品时,能经受审视的不多。当前虚拟陪伴产品本质上是角色扮演对话工具,用户核心体验是和 AI 扮演的虚拟角色通过文字消息、图片消息、语音消息、语音通话、视频通话等方式聊天。 此外,主流虚拟陪伴产品以一问一答的多轮对话作为基础交互方式,通过更产品化的信息收集方式降低高质量 Prompt 获得的门槛。但仍有人表示不会使用此类产品。推荐大家收听如等播客。 以上内容由 AI 大模型生成,请仔细甄别。
2024-09-10
近期有哪些新的AI产品
近期有以下新的 AI 产品: 1. 4 月下半月有 78 个 AI 新产品,包括 15 个初创企业的新产品(从开源和闭源角度划分)、39 个有用的和 10 个好玩的新产品(有用的部分从通用场景及垂直场景划分,并单列了模型训练、AI 安全、代码学习和 AI 代理等关注度较高的类别)、14 个大公司的新产品(如微软、谷歌、英伟达、苹果、Palantir 等)。 2. Google 在 I/O 大会上推出的新产品,如新一代 LLM PaLM2(在常识推理、数学和逻辑方面有所改进,编程能力好于 ChatGPT)、多模态大模型 Gemini、基于 PaLM2 运行的 Bard(向所有用户全面放开,并将逐步增加适配语言,具备多种功能)、Duet AI(Office Copilot 的竞品)。 3. 3 月底有 23 个 AI 新产品,包括 5 个来自大公司和成熟创业公司的新产品、9 个有用的、4 个有趣的和 5 个华人开发者所搭建的小产品。
2024-09-07
Way to AGI 近期更新
WaytoAGI 近期有以下更新活动: 1. 8 月 1 日更新: 【线下⬇️】Founder Park,WaytoAGI 专属优惠为全票种八折(优惠码:WH87),Workshop 七折(优惠码:YP9X)。 【线上⬆️】,8 月 6 日截止,在即梦创作剧场,图片和视频片段作品都可投稿,获奖作品将获得 600 积分,活动链接:https://jimeng.jianying.com/aitool/activity?weekly_act_key=2024015dreaminaweeklychallenge 。 2. 8 月 15 日更新:,2024 年 7 月 26 日 9 月下旬,由中国科学技术馆和网易新闻发起,WaytoAGI 作为特别支持社区,即日起向全球征集 AI 音乐歌曲作品,通过专业评审评选出 10 首歌曲,将在 9 月下旬进行线下汇演,活动链接:https://waytoagi.feishu.cn/wiki/YEmhwULvUiRyp8k9noQchrJGnEh 。
2024-08-21
近期有哪些有趣的大模型应用
大模型因其强大的语言理解和生成能力,在以下领域有比较火的应用场景: 1. 文本生成和内容创作:能够生成连贯、有逻辑的文本,用于撰写文章、新闻报道、诗歌和故事等。 2. 聊天机器人和虚拟助手:凭借自然语言处理能力,实现与人类自然对话,提供客户服务、日常任务提醒和信息咨询等。 3. 编程和代码辅助:可进行代码自动补全、bug 修复和代码解释,提升开发者编程效率。 4. 翻译和跨语言通信:理解和翻译多种语言,便于不同语言背景用户的沟通和信息共享。 5. 情感分析和意见挖掘:分析社交媒体、评论和反馈中的文本,识别用户情感和观点,为市场研究和产品改进提供支持。 6. 教育和学习辅助:创建个性化学习材料、自动回答学生问题和提供语言学习支持。 7. 图像和视频生成:如 DALLE 等模型能根据文本描述生成相应图像,未来可能拓展到视频内容生成。 此外,根据当前市场状况和分析,在企业中真正实施的模型解决方案主要集中在应用层面,利用模型强大功能发展出多种“模型应用”。尽管大型模型是一个综合体,但人们习惯从逻辑上分类和定义,寻找应用场景实际是为其能力寻找适当逻辑划分,明确在特定领域或范围的具体应用方向,并针对特定需求设定功能进行有目标的开发。基于大模型的产品(确切说是大型语言模型),都是“简约但不简单”。
2024-08-21