Navigate to WaytoAGI Wiki →
Home/Question List/Question Detail

大模型训练师

Answer

以下是关于大模型训练师的相关信息:

招聘信息: 中国移动设计院正在招聘大模型开发工程师,办公地点在北京海淀中关村。

  • 数量:1 名
  • 学历:本科及以上
  • 资历:5 年及以上
  • 岗位要求:
    • 参与大模型技术研究、大模型微调、大模型智能体研发、基于大模型的应用研发等工作。
    • 大模型相关的数据工程,包括预训练数据、微调数据、行业数据挖掘等。
    • 大模型相关的落地实现:如推理优化、部署、AI-Agent、工具学习、领域大模型等。
  • 技能要求:
    • 了解大模型基本原理,包括不限于模型架构、模型预训练及微调、模型部署及推理。
    • 熟悉 LLM 相关技术,如 transformer,prompt tuning,RLHF,langchain,Agent,MOE,RAG 等。
    • 熟悉算法和数据结构,熟悉常用的编程语言,有较好的 Python 开发经验,编程基础扎实。
    • 了解或掌握机器学习、深度学习基本算法原理,熟悉 AI 建模流程,在 NLP 领域有开发经验优先。
    • 了解熟悉大模型常用训练框架、推理架构;了解分布式计算、并行计算。

联络方式:飞书与@史鹏飞联系

大模型入门指南: 通俗来讲,大模型就是输入大量语料,来让计算机获得类似人类的“思考”能力,使之能够理解自然语言,能够进行『文本生成』、『推理问答』、『对话』、『文档摘要』等工作。可以用『上学参加工作』这件事来类比大模型的训练、使用过程:

  1. 找学校:训练 LLM 需要大量的计算,因此 GPU 更合适,只有购买得起大量 GPU 的贵族学校才有资本训练自己的大模型。
  2. 确定教材:大模型顾名思义就是大,需要的数据量特别多,几千亿序列(Token)的输入基本是标配。
  3. 找老师:即用什么样的算法讲述“书本”中的内容,让大模型能够更好理解 Token 之间的关系。
  4. 就业指导:学完书本中的知识后,为了让大模型能够更好胜任某一行业,需要进行微调(fine tuning)指导。
  5. 搬砖:就业指导完成后,下面就要正式干活了,比如进行一次翻译、问答等,在大模型里称之为推导(infer)。

在 LLM 中,Token 被视为模型处理和生成的文本单位。它们可以代表单个字符、单词、子单词,甚至更大的语言单位,具体取决于所使用的分词方法(Tokenization)。Token 是原始文本数据与 LLM 可以使用的数字表示之间的桥梁。在将输入进行分词时,会对其进行数字化,形成一个词汇表。

2024 年人工智能现状: More Money,More Problems: 预计明年会有团队花费超过 10 亿美元训练单个大规模模型。GenAI 的热潮不会消退,只是会变得更加昂贵。 Compute Squeeze: 政府和大型科技公司都将继续感受到计算需求的压力,其增长速度超过了电网的支持能力。这就像一个健美运动员增长得太快,健身房都快承受不住了——在某个时候,天花板可能会坍塌。 AI Enters Elections: 预期的 AI 对选举和就业的影响尚未显现,但这并不意味着我们可以放松警惕。记住,AI 的影响就像闪光粉:一旦出现,多年来你会在各处发现它。 人工智能仍然是令人兴奋的突破、未解决的伦理问题和无数万亿美元赌注的混合体。随着 OpenAI 在某些领域领先,Meta 在其他领域崛起,以及中国实验室不受制裁影响而上升,2024 年的 AI 舞台感觉更像是一个拥挤的拳击台,而不是一个和平的会议室。所以准备好爆米花,准备好 GPU——我们将迎来又一年的 AI 突破边界、测试极限,并可能改写一些定义。

Content generated by AI large model, please carefully verify (powered by aily)

References

最近招聘信息-持续更新中

中国移动设计院招聘需求(代招):办公地点:北京海淀中关村需求一AI算法工程师:数量:1名学历:本科及以上资历:5年及以上要求:1、对系统全局调优和预测性维护有一定建模基础2、具有机器学习、深度学习相关项目实践经验,熟悉至少一种算法3、熟悉相关深度学习框架如Tensorflow,能够快速实现研究及设想4、负责AI在智能数据中心、智能网络领域应用研发移动设计院招聘需求需求二大模型开发工程师数量:1名学历:本科及以上资历:5年及以上岗位要求:1、参与大模型技术研究、大模型微调、大模型智能体研发、基于大模型的应用研发等工作;2、大模型相关的数据工程,包括预训练数据、微调数据、行业数据挖掘等;3、大模型相关的落地实现:如推理优化、部署、AI-Agent、工具学习、领域大模型等;技能要求:1、了解大模型基本原理,包括不限于模型架构、模型预训练及微调、模型部署及推理;2、熟悉LLM相关技术,如transformer,prompt tuning,RLHF,langchain,Agent,MOE,RAG等;3、熟悉算法和数据结构,熟悉常用的编程语言,有较好的Python开发经验,编程基础扎实;4、了解或掌握机器学习、深度学习基本算法原理,熟悉AI建模流程,在NLP领域有开发经验优先;5、了解熟悉大模型常用训练框架、推理架构;了解分布式计算、并行计算。[heading4]联络方式:[content]飞书与@史鹏飞联系

大模型入门指南

通俗来讲,大模型就是输入大量语料,来让计算机获得类似人类的“思考”能力,使之能够理解自然语言,能够进行『文本生成』、『推理问答』、『对话』、『文档摘要』等工作。既然是学习,那我们就可以用『上学参加工作』这件事来类比大模型的训练、使用过程:1.找学校::训练LLM需要大量的计算,因此GPU更合适,因此只有购买得起大量GPU的贵族学校才有资本训练自己的大模型2.确定教材::大模型顾名思义就是大,需要的数据量特别多,几千亿序列(Token)的输入基本是标配3.找老师::即用什么样的算法讲述“书本”中的内容,让大模型能够更好理解Token之间的关系4.就业指导::学完书本中的知识后,为了让大模型能够更好胜任某一行业,需要进行微调(fine tuning)指导5.搬砖::就业指导完成后,下面就要正式干活了,比如进行一次翻译、问答等,在大模型里称之为推导(infer)在LLM中,Token([2])被视为模型处理和生成的文本单位。它们可以代表单个字符、单词、子单词,甚至更大的语言单位,具体取决于所使用的分词方法(Tokenization)。Token是原始文本数据与LLM可以使用的数字表示之间的桥梁。在将输入进行分词时,会对其进行数字化,形成一个词汇表(Vocabulary),比如:The cat sat on the mat,会被分割成“The”、“cat”、“sat”等的同时,会生成下面的词汇表:|Token|ID||-|-||The|345||cat|1256||sat|1726||…|…|

2024 年人工智能现状:辉煌、戏谑和“牛市”

More Money,More Problems:Expect a group to spend over$1 billion training a single large-scale model next year.The GenAI craze isn’t going anywhere;it’s just getting a pricier wardrobe.Compute Squeeze:Governments and Big Tech alike will continue to feel the crunch of compute requirements,which are outgrowing the power grid’s ability to support them.It’s like a bodybuilder bulking up faster than their gym can handle—at some point,the ceiling might just collapse.AI Enters Elections:Anticipated AI effects on elections and employment haven’t materialized yet,but that doesn’t mean we’re in the clear.Remember,AI’s influence is like glitter:once it’s out,you’ll be finding it in everything for years to come.Artificial intelligence continues to be a mixed bag of thrilling breakthroughs,unanswered ethical questions,and oh-so-many trillion-dollar bets.With OpenAI leading in some areas,Meta in others,and Chinese labs rising undeterred by sanctions,the stage for AI in 2024 feels more like a tightly packed boxing ring than a peaceful conference room.So grab your popcorn and keep those GPUs handy—we’re in for another year of AI pushing boundaries,testing limits,and possibly rewriting a few definitions along the way.

Others are asking
罗列具体的AI模型产品和具体的AI技术创新点,并总结AI技术的发展趋势,并说明这些发展趋势为用户的交互体验带来了什么样的改变?按照时间线将以上内容梳理出来
以下是按照您的需求梳理的内容: 时间线 早期: 从图灵测试、早期的图灵机器人和 ELISA 开始,到 IBM 的语音控制打印机、完全由人工智能创作的小说、微软的同声传译系统。 近年来: OpenAI 发布 ChatGPT 模型,引发用户习惯从简单触控操作转向更复杂的长文本输入,未来可能延伸至长语音交互。 大模型创新方面,架构优化加速涌现,融合迭代成为趋势。Scaling Law 泛化,推理能力成为关键,倒逼计算和数据变革。AGI 探索中,视频生成点燃世界模型,空间智能统一虚拟和现实。 在应用方面,AI 在文科白领的个人助理、呼叫中心、文本处理和教育等领域表现出色,能完成 80%到 90%的工作;对于工科白领,特别是程序员,能简化代码检索和调整;在蓝领领域,自动驾驶取得显著进展。但在复杂任务方面仍有改进空间。 第一轮洗牌结束,聚焦 20 赛道 5 大场景,多领域竞速中运营大于技术,AI 助手成为竞争重点。AI+X 赋能类产品发展迅速,原生 AI 爆款难求。多模态上马,Agent 席卷一切,高度个性化呼之欲出。 人工智能发展经历了萌芽、积累沉淀到如今大模型和多模态模型百花齐放的阶段。大模型由数据、算法、算力构成,算法有技术架构的迭代,如英伟达的显卡辅助模型训练,数据质量对生成理想的大模型至关重要。 未来: 李沐预测技术发展可能催生出革命性的应用形态,但 AI 离真正变革世界还有一段距离。 预计 AI 在蓝领工作的初步应用至少需要 5 年时间。 AI 技术创新点: 大模型创新:架构优化加速涌现,融合迭代大势所趋。 Scaling Law 泛化:推理能力成皇冠明珠,倒逼计算和数据变革。 AGI 探索:视频生成点燃世界模型,空间智能统⼀虚拟和现实。 AI 技术的发展趋势: 模型架构不断优化和融合。 更加注重推理能力的提升。 探索 AGI 领域,实现虚拟和现实的统一。 应用格局不断洗牌,聚焦特定赛道和场景。 多模态和 Agent 技术的广泛应用。 对用户交互体验的改变: 用户习惯从简单触控操作转向更复杂的长文本输入,未来可能延伸至长语音交互。 AI 应用为用户提供辅助,在多个领域帮助完成任务。
2025-03-31
AI技术发展时间线,罗列具体的AI模型产品和具体的AI技术创新点,并总结AI技术的发展趋势,并说明这些发展趋势为用户的交互体验带来了什么样的改变?
以下是关于 AI 技术发展的相关内容: AI 技术发展时间线: 从图灵测试、早期的图灵机器人和 ELISA,到 IBM 的语音控制打印机、完全由人工智能创作的小说、微软的同声传译系统,再到 OpenAI 发布 ChatGPT 模型,经历了萌芽、积累沉淀到如今大模型和多模态模型百花齐放的阶段。 具体的 AI 模型产品: ChatGPT 改变了用户习惯,从简单触控操作转向更复杂的长文本输入,未来可能延伸至长语音交互。 具体的 AI 技术创新点: 大模型创新方面,架构优化加速涌现,融合迭代成为趋势。 Scaling Law 泛化,推理能力成为皇冠明珠,倒逼计算和数据变革。 AGI 探索中,视频生成点燃世界模型,空间智能统一虚拟和现实。 AI 技术的发展趋势: 大模型创新:架构优化加速涌现,融合迭代大势所趋。 应用格局:第一轮洗牌结束,聚焦 20 赛道 5 大场景。 应用竞争:多领域竞速运营大于技术,AI 助手兵家必争。 应用增长:AI+X 赋能类产品大干快上,原生 AI 爆款难求。 产品趋势:多模态上马,Agent 席卷一切,高度个性化呼之欲出。 智变千行百业:左手变革生产力,右手重塑行业生态。 行业渗透率:数据基础决定初速度,用户需求成为加速度。 创投:投融资马太效应明显,国家队出手频率提升。 对用户交互体验的改变: ChatGPT 使用户从简单触控操作转向更复杂的长文本输入,未来可能延伸至长语音交互。 在文科白领方面,AI 能完成 80%到 90%的工作,如个人助理、呼叫中心、文本处理和教育等领域。 对于工科白领,特别是程序员,AI 能简化代码检索和调整。 在蓝领领域,AI 在自动驾驶方面取得显著进展。
2025-03-31
3d模型
以下是关于 3D 模型生成的相关信息: Tripo AI: 文生 3D 模型: 在「Create」界面底部输入框输入提示词(不支持中文),不会写提示词可点击输入框左侧的</>按钮随机生成并自动填入。 填写好提示词后,点击右侧的「Create」生成 3D 模型,每次会生成 4 个基础模型,不满意可点击最下方白色的「Retry」按钮重新生成。 若有满意模型,点击单个模型下方黄色的「Refine」精修,在「My Models」中可查看精修进度,一般 5 分钟左右完成。 图生 3D 模型: 点击输入框右侧的图标上传图片生成 3D 模型,一次生成一个基础模型,支持Retry 重生成和 Refine 精修。 Rodin Gen 1: 输入文本后文生图,不满意可重复生成图片,图片满意后点击GENERATING 生成 3D。 很快获得一个快速生成的粗模,右上可选择是否对称、是锋利边缘还是光滑边缘、是否简单几何模式。 选择后查看模型是否满意,不满意可 redo,满意后选择 confirm 进行下一步,可先选择产出的面数(开始扣积分)。 下一步生成材质,可选材质的复杂度以及参考图片的影响,生成后在左边查看,满意点击 confirm。 左侧预览区可以选择多种形式查看,模型基本完成后可选择对应的格式规格下载,压缩包里会有 obj 格式和 PBR 材质,也可以发布到 sketchfab。 工具汇总: 从文本生成 3D: MakeACharacter:一键生成 3D 数字人,可自定义面部特征,生成逼真 3D 角色,基于真实人类扫描数据,使用 Unreal Engine 渲染,支持中英文提示,兼容多个行业应用。链接:https://x.com/xiaohuggg/status/1743986486780076279?s=20 Rodin Gen1:拥有 1.5B 参数,可实现 3Dto3D 生成,生成 3D 模型及物理基础渲染材质,支持 3D LoRA 技术,类似于 Stable Diffusion。链接:https://x.com/xiaohuggg/status/1743638052097184102?s=20 Skybox AI 0.9 版本更新:可以从文本提示或草图生成 360 度 3D 世界,使用 NeRF 技术,增强图像的空间深度和真实感,提供不同分辨率的 3D 网格下载。链接:https://x.com/xiaohuggg/status/1739926702158225859?s=20 扫描物体生成 3D 模型:使用 APP 扫描物体,完成 3D 全貌捕获,创建 AR QR 码,展示物体于任何地点,苹果新品官网展示中应用此技术。链接:https://x.com/xiaohuggg/status/1739259052448944139?s=20
2025-03-31
本地部署大模型硬件配置
本地部署大模型的硬件配置如下: 生成文字大模型: 最低配置:8G RAM + 4G VRAM 建议配置:16G RAM + 8G VRAM 理想配置:32G RAM + 24G VRAM(如果要跑 GPT3.5 差不多性能的大模型) 生成图片大模型(比如跑 SD): 最低配置:16G RAM + 4G VRAM 建议配置:32G RAM + 12G VRAM 生成音频大模型: 最低配置:8G VRAM 建议配置:24G VRAM 需要注意的是,最低配置可能运行速度非常慢。对于 SDXL 大模型的本地部署,其分为两个部分,base + refiner 是必须下载的,还有一个配套的 VAE 模型用于调节图片效果和色彩。要在 webUI 中使用 SDXL 的大模型,需在秋叶启动器中将 webUI 的版本升级到 1.5 以上,然后将模型放入对应的文件夹中。对于通义千问的 Qwen2.5 1M 模型的本地部署,使用以下命令启动服务时要根据硬件配置进行设置,如设置 GPU 数量、最大输入序列长度、Chunked Prefill 的块大小、限制并发处理的序列数量等。如果遇到问题,可参考相关的 Troubleshooting 内容。与模型交互可以使用 Curl 或 Python 等方法,对于更高级的使用方式,可以探索如 Qwen Agent 之类的框架。
2025-03-31
如何部署本地大模型
以下是本地部署大模型的一般步骤: 1. 部署大语言模型: 下载并安装 Ollama:根据您的电脑系统,从 https://ollama.com/download 下载。下载完成后,双击打开,点击“Install”。安装完成后,将 http://127.0.0.1:11434/ 复制进浏览器中,若出现相关字样则表示安装完成。 下载 qwen2:0.5b 模型(若设备充足可下载更大模型): Windows 电脑:点击 win+R,输入 cmd 点击回车。 Mac 电脑:按下 Command(⌘)+Space 键打开 Spotlight 搜索,输入“Terminal”或“终端”,然后从搜索结果中选择“终端”应用程序。 复制相关命令行并粘贴回车,等待自动下载完成。 2. 部署 SDXL 大模型: SDXL 的大模型分为 base+refiner(必须下载)和配套的 VAE 模型。 关注公众号【白马与少年】,回复【SDXL】获取下载链接。 在秋叶启动器中将 webUI 的版本升级到 1.5 以上。 将模型放入对应的文件夹:base 和 refiner 放在“……\\sdwebuiakiv4.2\\models\\Stablediffusion”路径下;vae 放在“……\\sdwebuiakiv4.2\\models\\VAE”路径下。 3. ComfyUI ollama 本地大模型部署: 先下载 ollama 安装,安装完成后可在电脑桌面右下角或隐藏图标里找到。 下载对应的模型,选择模型并复制对应的命令。 打开命令行界面,输入对应的模型获取命令,等待下载完成。 设置目录,下载的模型会保存到 D:\\ollama\\blobs。 进行 docker 安装,安装会下载一些文件,安装后更改目录,不要放在 C 盘。 进行 Open webui 安装,输入相关命令,安装成功后回到 docker,点击会自动打开网页,第一次使用需注册账号,选择下载好的模型即可开始使用。 4. 错误解决:端口占用问题,在 Windows 上可能出现,运行下面两条命令可以解决。 5. 相关链接: comfyuiollama:https://github.com/stavsap/comfyuiollama?tab=readmeovfile Ollama:https://ollama.com/ docker:https://www.docker.com/ Open webui:https://openwebui.com/
2025-03-31
大语言模型能力排行榜
以下是一些大语言模型能力排行榜的相关信息: Open LLM Leaderboard: 地址: 简介:由HuggingFace组织的一个LLM评测榜单,目前已评估了较多主流的开源LLM模型。评估主要包括AI2 Reasoning Challenge、HellaSwag、MMLU、TruthfulQA四个数据集上的表现,主要以英文为主。 chinesellmbenchmark: 地址: 简介:中文大模型能力评测榜单,覆盖百度文心一言、chatgpt、阿里通义千问、讯飞星火、belle/chatglm6b等开源大模型,多维度能力评测。不仅提供能力评分排行榜,也提供所有模型的原始输出结果。 聊天机器人竞技场:由伯克利的一个团队管理,根据ELO评级对不同的语言模型进行排名,计算ELO的方式与国际象棋中的计算方式非常相似。 智源评测:豆包模型在其中表现出色,荣获大语言模型第一,视觉理解第二、文生图第二、文生视频第二,在匿名投票竞技场中排名第二,仅次于OpenAI。 地址:
2025-03-31
Lora训练
以下是关于 Lora 训练的详细步骤: 创建数据集: 1. 进入厚德云模型训练数据集(https://portal.houdeyun.cn/sd/dataset)。 2. 在数据集一栏中,点击右上角创建数据集。 3. 输入数据集名称。 4. 可以上传包含图片+标签 txt 的 zip 文件,也可以只有图片没有打标文件(之后可在 C 站使用自动打标功能),或者一张一张单独上传照片,但建议提前把图片和标签打包成 zip 上传。 5. Zip 文件里图片名称与标签文件应当匹配,例如:图片名“1.png”,对应的达标文件就叫“1.txt”。 6. 上传 zip 以后等待一段时间。 7. 确认创建数据集。 8. 返回到上一个页面,等待一段时间后上传成功,可以点击详情检查,预览到数据集的图片以及对应的标签。 Lora 训练: 1. 点击 Flux,基础模型会默认是 FLUX 1.0D 版本。 2. 选择数据集,点击右侧箭头,会跳出所有上传过的数据集。 3. 触发词可有可无,取决于数据集是否有触发词。模型效果预览提示词则随机抽取一个数据集中的标签填入即可。 4. 训练参数这里可以调节重复次数与训练轮数,厚德云会自动计算训练步数。如果不知道如何设置,可以默认 20 重复次数和 10 轮训练轮数。 5. 可以按需求选择是否加速,点击开始训练,会显示所需要消耗的算力。 6. 然后等待训练,会显示预览时间和进度条。 7. 训练完成的会显示出每一轮的预览图。 8. 鼠标悬浮到想要的轮次模型,中间会有个生图,点击会自动跳转到使用此 lora 生图的界面。点击下方的下载按钮则会自动下载到本地。 此外,还有一些相关的补充内容: Flux 的 Lora 训练准备: 需要下载几个模型:t5xxl_fp16.safetensors、clip_l.safetensors、ae.safetensors、flux1dev.safetensors。 注意: 1. 不使用的话它们放到哪里都可以,甚至放一起一个文件夹,只要知道“路径”,后面要引用到“路径”。 2. 因为是训练,不是跑图,训练的话,模型就用 flux1dev.safetensors 这个版本,编码器也用 t5xxl_fp16.safetensors 这个版本最好。 下载脚本和安装虚拟环境: 1. 下载脚本: 夸克网盘链接:https://pan.quark.cn/s/ddf85bb2ac59 百度网盘链接:https://pan.baidu.com/s/1pBHPYpQxgTCcbsKYgBi_MQ?pwd=pfsq 提取码:pfsq 2. 下载完解压,在文件中找到 installcnqinglong.ps1 这个文件,右键选择“使用 PowerShell 运行”,新手的话这里就点击“Y”,然后等待 1 2 小时的漫长下载过程,下好了之后最后会提示是否下载 hunyuan 模型,选择 n 不用下载。 SD 训练一套贴纸 LoRA 模型: 1. 在 lora 训练器的根目录下,点击【A 强制更新国内加速】,跑完即可关闭窗口。 2. 双击【A 启动脚本】,请保持终端一直运行,不要关闭。出现下列代码即为启动成功。 3. 滚动至最下点击【LoRA 训练】或者直接点击左侧菜单【LoRA 训练】。
2025-03-30
大模型公司的数据训练成本目前大概是多少
目前,AI 大模型的训练成本较高。在数据、算力、算法三要素中,算力是基础也是大模型竞争力,但国产芯片在软件适配度、稳定性方面存在不足。大部分采用智能计算中心、自费买英伟达 A800/H800 显卡组成服务器运行、或者用价格更为实惠的服务器云来训练,成本最高的部分是前期的模型训练。 千亿参数模型的报价高达数十万元,由于训练成本高、数据筛选难度大,高昂的售价让很多客户望而却步。在预训练阶段,从互联网上获取大量文本并处理,需要 GPU 集群,通常需要数百万美元的成本。 开源模型可以由任何人托管,包括不承担大模型训练成本(高达数千万或数亿美元)的外部公司。闭源模型能否长久保持优势还是未知数。
2025-03-28
AI训练范式革命
以下是关于 AI 训练范式革命的相关信息: Prime Intellect: Intellect1 是业界首个采用去中心化训练方式的大规模语言模型,模型规模达到 10B 参数量级,采用跨地域分布式训练架构,横跨 3 大洲 5 国,整合 112 台 H100 GPU 算力,训练过程实现 83%的算力利用率,验证了去中心化训练在大模型构建中的技术可行性。该公司为美国初创公司 Prime Intellect,专注去中心化 AI 技术的研发与创新。产品入口完全开源,开放基础模型、检查点、微调模型、训练数据及 PRIME 训练框架等全套技术资源。 GPT4.5: 通过扩展无监督学习和思维链推理两种范式来提升 AI 能力。扩展思维链推理可让模型在回应前思考,从而处理复杂的 STEM 或逻辑问题;扩展无监督学习能提高世界模型的准确性、降低幻觉率并改善联想思维。GPT4.5 是在扩展无监督学习范式上的新进展。 开发了新的可扩展对齐技术,能训练更大更强的模型,并使用来自较小模型的数据,提高了 GPT4.5 的可操纵性、对细微差别的理解和自然对话能力。 GPT4.5 在多样化的数据集上进行了预训练和后训练,包括公开数据、来自数据合作的专有数据和内部开发的自定义数据集。数据处理流程包括严格过滤以保证数据质量和降低潜在风险。 内部测试人员称 GPT4.5 热情、直观和自然,在处理情感类查询时表现出色,在创意写作和设计方面有较强能力。 医疗 AI 领域: 图像理解在医疗领域率先实现商业化,科技巨头深耕医疗 AI 研发,学术界取得突破性进展,行业权威对医疗 AI 持积极态度。 多模态识别能力提升使 AI 在专业领域的理解和分析应用成为可能,医疗 AI 的成功得益于其深度对接专业场景,以解决实际临床需求为导向的发展路径。 规模化训练是通过扩大模型参数、数据规模和算力投入,在量变中实现质变的训练范式。视频生成相比图像生成难度提升百倍,视频生成技术发展出自回归与扩散两大路线,Sora 引领 DiT 架构成为主流方向,规模化训练是实现高质量视频生成的关键。
2025-03-27
Gemini是用什么训练的
Gemini 是在 Google 的 TPU AI 加速器上训练的,似乎没有使用英伟达的 GPU。Google 还推出了全新的 Cloud TPU v5p 和 AI Hypercomputer 超级计算机,将加速 Gemini 的开发,使 AI 模型的训练更快。 Cloud TPU v5p 是目前 Google 最强大、可扩展和灵活的 AI 加速器。它在 TPU v4 的基础上提供了超过 2 倍的 FLOPS(浮点运算次数/秒)和 3 倍的高带宽内存(HBM)。TPU v5p 可以比前一代 TPU v4 更快地训练大型语言模型(LLM),对于嵌入密集型模型,其训练速度比 TPU v42 快 1.9 倍。TPU v5p 的可扩展性是 TPU v4 的 4 倍。 AI Hypercomputer 是一个突破性的超级计算机架构,它采用了集成的系统,包括性能优化的硬件、开放软件、领先的机器学习框架,以及灵活的消费模型。通过系统级协同设计来提高 AI 训练、调优和服务的效率和生产力。具有性能优化的计算、存储和网络硬件,建立在超大规模数据中心基础设施之上,利用高密度占地面积、液体冷却和 Jupiter 数据中心网络技术。通过开放软件使开发者能够调整、管理和动态编排 AI 训练和推理工作负载。提供了一系列灵活和动态的消费选择,包括传统的承诺使用折扣(CUD)、按需定价和现货定价,以及为 AI 工作负载量身定制的消费模型。 Gemini 模型是在一个既包含多模态又包含多语言的数据集上进行训练的。预训练数据集使用来自网络文档、书籍和代码的数据,并包括图像、音频和视频数据。使用 SentencePiece 分词器,发现在整个训练语料库的大样本上训练分词器可以改善推断的词汇,并进而提高模型性能。对所有数据集进行过滤,使用启发式规则和基于模型的分类器,还进行安全过滤以删除有害内容。从训练语料库中筛选出评估集。在训练过程中进行分阶段训练,通过增加领域相关数据的权重来改变混合组合,直到训练结束。
2025-03-26
如何训练AI智能体
以下是关于训练 AI 智能体的一些信息: 1. 可以将一些创新的 prompt 融入工作流中,以更高效地训练智能体。这种方法不仅能改进现有的大语言模型,还能探索新的应用领域,实现低成本、高效能和模型效益最大化,突破单纯依赖算法的方式。 2. 采用流式训练方式提升训练速度和质量,例如将孔明灯换成泡泡,基于 Transformer 模型进行流匹配,这种方式优于扩大模型。 3. 利用多种 AI 生成工具,如输入简单提示词就能创作音乐的 so no 音频生成工具,能创建个人 AI 智能体的豆包,输入文本可生成播客的 Notebook LN。 4. 了解 AI 工程平台,如 define 等,涉及数据清洗管道、数据存储和检索、编辑生成平台、构建 prompt 技巧、智能体概念、插件调用、运维平台、模型层和缓存机制等,还能接入多家大模型。以 coach 平台为例,新版本有很多模板,有众多插件工具,包括必应搜索、链接读取、代码执行器等,还有工作流,可创建应用 APP,有新手教程和文档,可创建智能体,通过工作流节点调用和 prompt 构建提示词,还能调用插件、图像流、知识库等,商城中有各种智能体和插件模板,知识库可添加多种格式内容。 5. 了解一些为大模型提供数据、企业模型和算力服务的平台,如魔搭社区等,有按任务划分的模型库、数据集和在线应用供体验。
2025-03-25
AI模型训练师要学习那些知识?
AI 模型训练师需要学习以下知识: 1. 数据收集:了解如何从互联网上收集各种文本数据,如文章、书籍、维基百科条目、社交媒体帖子等。 2. 数据预处理:掌握清理和组织数据的方法,包括删除垃圾信息、纠正拼写错误、将文本分割成易于处理的片段等。 3. 模型架构设计:熟悉如 Transformer 等适合处理序列数据(如文本)的神经网络架构,虽然复杂但需有一定了解。 4. 训练原理:明白模型通过反复阅读数据、尝试预测句子中的下一个词来逐渐学会理解和生成人类语言。 5. 领域专业知识:以医疗保健领域为例,AI 模型训练师应了解该领域的专业知识,如生物学、化学等基础学科,以及如何培养处理涉及细微差别决策的直觉。 6. 了解大模型的底层原理:以 GPT3 为例,要知道其预训练阶段所学习的内容和数据量,以及 Transformer 模型的相关概念。
2025-03-24