直达「 通往AGI之路 」飞书知识库 →
首页/问答列表/问答详情

图像转3D模型目前有相关的技术和已经落地的产品嘛。可以借鉴哪些网站

回答

有,例如:

  • Spline推出 AI 3D Generation 工具,可以将 2D 图像转成 3D 图像,混合素材生成 3D 变体。生成的 3D 内容可集成到网站和应用中。
  • ComfyUI 3D Pack 引入了 3D 图像处理,可以快速将图片转换为 3D 模型,并支持多角度查看,使用 3D 高斯扩散技术提升模型质量,支持多种格式导出。
  • Move AI 推出了 Move API,可以从 2D 视频生成 3D 运动数据,支持多种 3D 文件格式导出,为 AR 应用、游戏开发等提供高质量 3D 运动数据。
内容由 AI 大模型生成,请仔细甄别(powered by aily)

参考资料

其他人在问
我有一份PPT,我想对这个PPT进行图像设计等美观化处理,怎么来做?使用哪个工具好?
以下为您介绍一些可用于对 PPT 进行图像设计等美观化处理的工具及相关信息: 1. Gamma:这是一个在线 PPT 制作网站,允许用户通过输入文本和想法提示快速生成幻灯片。它支持嵌入多媒体格式,如 GIF 和视频,以增强演示文稿的吸引力。网址:https://gamma.app/ 2. 美图 AI PPT:由知名图像编辑软件“美图秀秀”的开发团队推出。用户通过输入简单的文本描述来生成专业的 PPT 设计,包含丰富的模板库和设计元素,可根据需求选择不同风格和主题的模板,适用于多种场合。网址:https://www.xdesign.com/ppt/ 3. Mindshow:一款 AI 驱动的 PPT 辅助工具,提供一系列智能设计功能,如自动布局、图像选择和文本优化等,还可能包括互动元素和动画效果。网址:https://www.mindshow.fun/ 4. 讯飞智文:由科大讯飞推出的 AI 辅助文档编辑工具,利用科大讯飞在语音识别和自然语言处理领域的技术优势,提供智能文本生成、语音输入、文档格式化等功能。网址:https://zhiwen.xfyun.cn/ 在对 PPT 进行排版时,工具的选择可根据个人顺手程度决定,对于打工人来说,PPT 是较为熟练的选择。关于尺寸问题,如果想要打印,4:3 的比例比较适合童书绘本的比例,出图时可按此比例,文字可直接排版到画面上;若出图为 16:9 横板,排版时 4:3 可把文字放在图片下面。若要发小红书或者小绿书,竖版更合适,比例选 3:4,出图也选竖版。制作 H5 时,出图选竖版,比例选 9:16。所有排版尺寸在 PPT 里都可以选。另外,PPT 里的删除背景功能对于基础抠图很有用。用 PPT 另存为图片时,直接选 jpg 或 png 格式会降低图片清晰度,可先另存为“增强型 Windows 源文件”格式,再用画图软件打开另存为 JPG 以得到高清图。
2024-11-12
我想生成有具体建筑的图像设计,如夫子庙,而不是古风建筑,怎么表述,让AI理解
要让 AI 准确理解您想要生成具有特定建筑(如夫子庙)的图像设计,而非一般的古风建筑,您可以这样表述:“生成一幅清晰、逼真的夫子庙图像设计,展现其独特的建筑风格和细节,包括庙宇的屋顶结构、墙壁装饰、门窗样式等,要突出夫子庙的特色元素,如特定的牌匾、雕刻、飞檐等,背景可以是适当的自然景观或周边的街道场景。”
2024-11-11
用Coze创建AI,打造自己的图像生成AI机器人
以下是使用 Coze 创建自己的图像生成 AI 机器人的步骤: 1. 注册 Coze 账号: 访问 Coze 官网,可选择中文版(https://www.coze.cn/,支持大模型:kimi、云雀)或英文版(https://coze.com/,支持大模型:chatgpt4)进行快速注册。 产品定位为新一代 AI 原生应用开发服务平台。 2. 创建机器人: 登录 Coze,可使用抖音或手机号登陆,登陆后选择“创建 Bot”,起一个响亮的名字。 工作空间选“个人空间”。 小技巧:“图标”AI 可以自动生成,先在“Bot 名称”用文字描述想要的图标,满意后再把“Bot 名称”改为简洁版名称。 3. 具体创建 AI Bot: 首先打开扣子的首页(https://www.coze.cn/home),直接点击左上角的创建 AI Bot 按钮。 直接在弹窗输入 Bot 的相关信息,完成创建后细化其功能。 设计人设与回复逻辑,根据功能需求设计提示词。 调整模型设置,比如基于聊天为主的需求,将对话轮数记录改为 20 轮。 选择插件,如英文名言警句(get_one_eng_word & get_many_eng_words)随机获取英语名言,Simple OCR(ocr)识别图片中的文字。 设置开场白和预置问题,预置问题有参考价值。 最后设置语音,若为英语陪练 AI Bot,选择亲切的英语音色。
2024-11-09
用 Coze 免费打造自己的图像生成 AI 机器人
以下是用 Coze 免费打造自己的图像生成 AI 机器人的步骤: 1. 注册 Coze 账号 访问 Coze 官网,快速注册,开启智能之旅。 Coze 中文名扣子,字节跳动出品。 中文版:https://www.coze.cn/(支持大模型:kimi、云雀)——本次教程使用中文版 Coze。 英文版:https://coze.com/(支持大模型:chatgpt4) 产品定位:新一代 AI 原生应用开发服务平台,Nextgeneration AI chatbot building platform。 2. 创建你的机器人 登录 Coze,可使用抖音或手机号登陆,登陆后选择“创建 Bot”,然后起一个响亮的名字。 登录页面、首页、创建 Bot 时,工作空间选“个人空间”即可。 小技巧:“图标”AI 可以自动生成,先在“Bot 名称”那里用文字描述你想要的图标,图标生成满意后,再把“Bot 名称”改为简洁版名称。 此外,在实际体验中: 测试 AI Bot 时,可能会出现回答不完整的情况,如部分信息未给出,这是因为 Coze 国内版刚发布不久,有些官方和第三方插件的 API 调用和返回结果不太稳定。但官方会尽快解决。 成功的回答是根据提示词和插件+工作流的组合,结果非常详细。若加上自己的知识库甚至定制化使用数据库功能,AI Bot 的使用场景会更丰富。 国外版有免费的 GPT4 大模型使用,插件和工作流功能更丰富稳定,还有更多自定义插件和工作流功能,能更灵活定制 AI Bot。 作者演示上述步骤后发布的 AI Bot,其 ID 是:7333630516673167394,有兴趣可在 Coze 平台上搜索这个 ID 来体验。
2024-11-09
有没有对监控图像清晰度处理较好的模型
以下为一些对监控图像清晰度处理较好的模型及相关方法: 1. 【SD】超清无损放大器 StableSR: 需要使用 StabilityAI 官方的 Stable Diffusion V2.1 512 EMA 模型,放入 stablediffusionwebui/models/StableDiffusion/文件夹中。 StableSR 模块(约 400M 大小)放入 stablediffusionwebui/extensions/sdwebuistablesr/models/文件夹中。 还有一个 VQVAE(约 750MB 大小)放在 stablediffusionwebui/models/VAE 中。 测试表明,StableSR 的放大效果在处理一些图像时,能够较好地保留人物细节,如眼神更锐利等。 2. 【SD】最强控制插件 ControlNet 的 tile 模型: 可用于高清修复小图,如将分辨率不高的食物图片进行高清化处理。 能修复和增加图像细节,如处理细节不足或结构错误的小屋图像。 3. 图像高清修复放大流程: 整个流程分为输入原始图像、修复图像、放大并重绘图像三部分。 图像输入时不建议上传大分辨率图片,以免处理时间过长。 图像高清修复时,Checkpoint 大模型使用 Iceclear/StableSR,并搭配 Stable SR Upscaler 模型,提示词应包含想要达到的目的内容。 图像高清放大时,用 realisticVision 底膜,使用提示词反推 node 提取画面提示词,搭配 tile ControlNet 提升画面细节感,然后用合适的高清放大模型进行二次放大。
2024-11-04
ai将二维线稿生成三维图像
以下是关于将二维线稿生成三维图像的相关知识: 关键词和主题描述: 为生成想要的图像,可将图片内容分为二维插画和三维立体两种形式。 主题描述时,可描述场景、故事、元素、物体或人物细节等。比如一个动物园,里面有老虎、狮子等;一个女孩在森林里搭帐篷,要注意对场景中的人物进行独立描述,拆分元素,避免一长串文字,否则 AI 可能识别不到。 设计风格: 设计师较难直接表达设计风格,可找风格类关键词参考或垫图/喂图,让 AI 结合主题描述生成相应风格的图片。 研究某些材质如玻璃、透明塑料等的关键词时,会发现其中门道很多,需针对某一种风格单独进行“咒语测试”。 生成三维图像的相关公司和技术: 往创建 3D 模型方向发展的初创公司包括 Kaedim、Mirage 和 Hypothetic 等,大公司如 Nvidia 的 Get3D 和 Autodesk 的 ClipForge 也在关注。 Kaedim 公司总部在伦敦,主要通过 2D 图像生成 3 维模型。 像 BariumAI、Ponzu 和 ArmorLab 等公司在三维纹理生成领域努力。 线稿相关的 AI 应用: 可以用 Midjourney 生成线稿,PS 修正错误,再用 ControlNet 控制,Stable Diffusion 上色,多套 AI 组合提高出图质量和效率。
2024-11-02
AI 在教育行业的落地场景有哪些?
AI 在教育行业的落地场景主要包括以下方面: 1. 个性化学习:通过集成算法和大数据分析,如 Knewton 平台,实时跟踪学生学习进度,诊断学习难点,提供个性化学习建议和资源。 2. 自动评估:利用自然语言处理技术(NLP)自动批改学生的作文和开放性答案题,如 Pearson 的 Intelligent Essay Assessor,减轻教师批改负担,提高评估效率和一致性。 3. 智能辅助教学:例如 Google 的 AI 教育工具 AutoML 用于创建定制学习内容,通过有趣方式加深学生对学科概念的理解。 4. 虚拟现实(VR)和增强现实(AR):学生可通过 VR 头盔进入虚拟实验室进行实验操作并获得 AI 系统反馈,如 Labster 的虚拟实验室平台。 5. 协助评估学生学习情况,为职业规划提供建议。 6. 针对学生情况和兴趣定制学习内容。 7. 论文初稿搭建及论文审核。 8. 帮助低收入国家/家庭获得平等教育资源。
2024-11-12
我记得你有发布过google人工智能落地的案例
以下是为您整合的相关内容: Google 最近发布了 185 个全球企业生成式 AI 应用案例,涵盖客户服务、员工管理、代码开发、数据分析、安全管理和创意领域。案例展示了 AI 如何优化客户体验、提升员工效率、加速代码处理、改善数据分析、增强安全性及简化创意生产。详情可参考:《》 Coze 汽车售后服务知识库 Bot 旨在提升服务顾问和维修技师的专业水平和维修效率。该 Bot 通过提供标准化解决方案,辅助车辆故障分析和检查,弥补专业知识不足和技术支持文档标准化问题。主要目标是提升服务质量,减少对技师经验的依赖,为汽车售后服务提供智能化支持。详情可参考:《》
2024-11-06
请帮我总结AI AGENT的总体架构,帮助我更快学习相关的知识,尽快进行具体场景的商业落地
AI Agent 是一个融合了多学科精髓的综合实体,不仅有实体形态,还有丰富的概念形态,并具备许多人类特有的属性。其总体架构包括以下方面: 1. 大模型 LLM 扮演“大脑”。 2. 规划:包括子目标分解、反思与改进。子目标分解将大型任务分解为较小可管理的子目标以处理复杂任务;反思和改进可对过去的行动进行自我批评和反思,从错误中学习并改进未来步骤,提高最终结果质量。 3. 记忆。 此外,AI Agent 还具有以下特点和应用: 1. 能够自行规划任务执行的工作流路径,面向简单或线性流程的运行。 2. 可以实现多 Agent 协作,例如让大语言模型扮演不同角色,相互协作共同开发应用或复杂程序。
2024-11-04
具身智能在制造行业的落地方向有哪些?
具身智能在制造行业的落地方向主要包括以下几个方面: 1. 预测性维护:利用具身智能技术预测机器故障,帮助工厂避免停机,提高生产效率。 2. 质量控制:检测产品缺陷,提升产品质量。 3. 供应链管理:优化供应链,实现效率提升和成本降低。 4. 机器人自动化:控制工业机器人,进一步提高生产效率。 具身智能是人工智能领域的一个子领域,强调智能体通过与物理世界或虚拟环境的直接交互来发展和展现智能。它的核心在于智能体的“身体”或“形态”,这些身体可以是物理形态,也可以是虚拟形态。具身智能的研究涉及多个学科,包括机器人学、认知科学、神经科学和计算机视觉等。在机器人学中,关注如何设计能自主行动和适应环境的机器人;在认知科学和神经科学中,探索大脑处理与身体相关信息的机制及应用于人造智能系统;在计算机视觉中,致力于开发算法使智能体理解和解释视觉信息,进行有效的空间导航和物体识别。 作为一个系统性的工程,具身智能涉及算法层、不同技术流派、数据、模拟器、传感器、视觉方案、力学结构等多个维度,并整体向着更鲁棒性、各层级之间过渡更加平滑的方向发展。但也存在一些问题,比如力矩控制、电流控制做到哪一步才算端到端,机器人的 foundation model 或者 GPT 时刻会是什么样,触觉等感知信号以什么样的形式进入模型当中等。
2024-10-26
AI在办公提效方面的落地场景
以下是 AI 在办公提效方面的一些落地场景: 1. 辅助创作与学习: AI 智能写作助手帮助用户快速生成高质量文本。 AI 语言学习助手、诗歌创作助手、书法字体生成器、漫画生成器等为用户的学习和创作提供支持。 2. 推荐与规划: AI 图像识别商品推荐、美食推荐平台、旅游行程规划器、时尚穿搭建议平台、智能投资顾问等,根据用户的需求和偏好为其推荐合适的产品、服务或制定个性化的计划。 3. 监控与预警: AI 宠物健康监测设备、家居安全监控系统、天气预报预警系统、医疗诊断辅助系统等,实时监测各种情况并提供预警。 4. 优化与管理: 办公自动化工具,如 WPS Office 中的智能排版、语法检查等功能,利用 AI 技术帮助用户快速完成文档处理工作,提高办公效率。 物流路径优化工具、家居清洁机器人调度系统、金融风险评估工具等,提高工作效率和管理水平。 此外,还有一些具体的应用案例,如: 1. 豆果美食 APP:根据用户口味和现有食材生成个性化菜谱。 2. 沪江开心词场:通过 AI 分析用户的学习进度和薄弱环节,为用户推荐合适的单词和学习内容。 3. 爱奇艺智能推荐:利用 AI 算法分析用户的观看历史、评分等数据,为用户推荐符合其口味的电影。
2024-10-24
生成式AI商业落地白皮书
以下是关于生成式 AI 商业落地的相关信息: 2024 年 7 月 29 日,《》由火山引擎、RollingAI 和 InfoQ 研究中心联合发布,为 CXO 提供 AI 转型战术指南。该白皮书分析了生成式 AI 在各行业的应用现状和挑战,并提供了企业 AI 转型的趋势展望和最佳实践。书中通过 240 个应用场景地图,展示了 AI 在消费零售、金融、汽车等行业的落地案例,探讨了 AI 基础设施构建、项目落地准备和快速补齐能力差距等关键问题,并提出了八步实施大模型接入的方法论。 其它相关报告: 《》 《》 《》 《》 《》 2024 年 8 月 17 日,最近上传的一些报告: 爱分析发布的《》聚焦于 AI Agent 开发管理平台市场,特别评估了火山引擎的 HiAgent 平台。报告指出,AI Agent 作为大模型应用的主流形态,正重塑科技和商业领域。 《》白皮书由 Denodo Technologies 发布,强调了生成式人工智能(Gen AI)在商业和财务价值实现中的潜力。书中指出,Gen AI 应用的可靠性依赖于数据质量,而数据管理是实施 AI 的关键挑战。 《》 《》 此外,关于游戏中的生成式 AI 革命:生成式 AI 是一种机器学习类别,计算机可以根据用户的提示生成原始的新内容。目前,文本和图像是这项技术的最成熟应用,但几乎在每一个创意领域都有工作在进行,从动画、音效、音乐,甚至到创造具有完整性格的虚拟角色。AI 在游戏中并不是新鲜事,早期游戏中的虚拟敌人只是简单脚本程序,不能学习,能力取决于程序员。现在由于更快的微处理器和云技术,有了更多计算能力,可以构建大型神经网络,在高度复杂领域识别模式和表示。这篇博文分为两部分,第一部分包括对游戏领域生成式 AI 的观察和预测,第二部分是对该领域的市场地图,概述各个细分市场并确定每个市场的关键公司。
2024-10-23
如何借鉴“决战拜年之巅”:这是一款基于 GLM 大模型开发的微信小程序游戏,玩家在 10 个 AI 角色组成的家人群里,面对“七大姑八大姨”的连环拷问,自由对话打出属于自己的结局。实现一个工作场合的游戏
以下是借鉴“决战拜年之巅”实现一个工作场合游戏的相关要点: 1. 开发背景:“决战拜年之巅”是参加 Globalgamejam 游戏比赛时,在 48 小时内开发的,主题源于“make me laugh”,产品负责人谐音想到江浙沪孝子排行榜的“孝”,结合春节想到做类似拜年的东西。 2. 火爆情况:在参赛群发布半成品后,在 QQ、微信迅速火爆,两天内有 200 万用户,最高峰同时在线 6 万人,服务器一度支持不了,凌晨才做好调整,后续有厂商赞助服务器,上线约一周。 3. 游戏特点:基于 GLM 大模型开发,又称过年模拟器,玩家在 10 个 AI 角色组成的家人群里,面对“七大姑八大姨”的连环拷问自由对话打出结局。 4. 借鉴要点: 明确创新主题和玩法,结合特定场景和需求。 注重用户体验,及时应对服务器等技术支持问题。 利用 AI 技术实现角色互动和自由对话。 需要注意的是,“决战拜年之巅”被认为可能是一个 chatbot 而非严格意义上的游戏。在设计工作场合的游戏时,要明确以下三个点:(具体要点未在提供的内容中明确)
2024-11-02
我的app应用想要对接大语言模型,结合APP用户自身的数据,实现更精准的对话,是否有行业比较成功的案例可以借鉴
以下是一些在 APP 应用对接大语言模型方面比较成功的案例,可供您借鉴: 1. Poe: 由 Quora 开发,有 APP 版本,支持跨端使用。 集成了 Chat GPT、GPT4、Claude+、Claude、Dragonfly 等模型,同时支持用户自建 Chatbot。 不同语言模型回复效果有差异,适合需要调用多种大语言模型的用户。 Dragonfly 擅长给出较短的回答,并擅长在输入中给出示例时遵循指示。 Claude 更擅长创造性回复,配合 Poe 中的提问引导,非常适合在查阅资料时使用。 支持分享用户和模型的对话内容,但 GPT4、Claude+产品需要付费订阅使用。 访问地址: Poe 中的提问引导真的能够启发到用户,midjourney prompt 扩写 Chatbot 能力很惊人。 2. Perplexity.ai: 本质是个可联网的搜索引擎,完全免费,支持网页版、APP(目前支持 iOS,安卓即将推出)、Chrome 插件。 网页版能力全面,能够根据提问从互联网上搜寻信息并给出总结后的答案。 很多 Chat GPT 中调用插件才能解决的事情(联网查询、旅行、住宿、商品推荐)靠 Perplexity 就可以解决。 能给出信息来源网址,并根据搜索内容给出继续对话的问题建议。 最新推出的 Copilot 能力支持根据搜索内容进行信息补充,每 4h 内使用 5 次,调用 GPT4。 支持分享聊天内容到多渠道。 首页推荐当下流行的新闻、搜索内容。 支持筛选 Academic(包含不同领域的学术研究论文)、Wolfram|Alpha(包含数学、科学、经济学、语言学、工程学、社会科学、文化等领域的知识库)、Wikipedia(维基百科)、Youtube、Reddit(娱乐、社交和新闻网站)、News 进行搜索。 Chrome 插件可针对当前页面给出即时摘要。 访问地址:
2024-10-18
AI生成的图片是原创吗 有没有借鉴
在全国首例 AI 生成图片著作权案例中: 法官承认依靠使用者的输出设计生成的图片属于美术作品,具有独创性和智力投入,受著作权保护,能鼓励创作,为艺术创作提供支持和新思路,节省创作成本。 根据相关法律规定,我国著作权作者仅限于自然人、法人或非法人组织,人工智能软件本身不能成为作者。 Stable Diffusion 模型根据文本指令生成图片,不是调用现成图片或排列组合预设要素,生成的图片取决于使用者输入的提示词,难以出现完全相同的两张输出图片,类似于画笔,图画构造取决于使用者设计。 人工智能不具备自由意志,使用者根据自己的审美个性,通过增删提示词、修改参数得出不同图片并选定,体现使用者的智力和独创思想,如同使用相机拍摄时的调节。 软件设计者对模型设计投入智力成果,但后续生成内容与设计者关系不大。图片由创作者根据个人意愿得出,应成为作者并享有著作权。 尽管 AI 是工具,法院强调著作权仍属于人类创作者,保护人类在知识产权领域的权益,鼓励利用 AI 技术创作艺术作品。 在未显示作者身份信息的情况下使用图片构成侵权。
2024-09-18
图生文模型
以下是关于图生文模型的相关信息: Kolors 是一款强大的开源文生图模型,具有更强的中文文本编码器、机造的高质量文本描述、人标的高质量图片、强大的中文渲染能力,以及巧妙的 noise schedule 解决高分辨率图加噪不彻底的问题。实测效果很不错,展现了快手的技术实力。 Tripo AI 中,文生 3D 模型是用一段文字生成 3D 模型,在「Create」界面底部输入框输入提示词(不支持中文),不会写提示词可点击输入框左侧的</>按钮随机生成并自动填入。填写好提示词后点击右侧「Create」生成 3D 模型,每次生成 4 个基础模型,不满意可点击「Retry」重新生成。有满意的模型点击单个模型下方黄色的「Refine」精修,精修进度在「My Models」中查看,一般 5 分钟左右完成。图生 3D 模型是用一张图片生成 3D 模型,点击输入框右侧的图标上传图片即可生成,一次生成一个基础模型,同样支持重生成和精修。 Tusiart 文生图操作流程包括:定主题,确定生成图片的主题、风格和信息;选择基础模型 Checkpoint,找内容贴近的模型;选择 lora,寻找内容重叠的 lora 控制图片效果及质量;ControlNet 用于控制图片中特定图像;设置 VAE 无脑选择 840000;Prompt 提示词用英文写需求,单词和短语用英文半角逗号隔开;负向提示词 Negative Prompt 用英文写避免产生的内容,单词和短语组合并用英文半角逗号隔开;采样算法一般选 DPM++ 2M Karras,也可参考模型作者推荐的采样器;采样次数根据采样器特征,选 DPM++ 2M Karras 时一般在 30 40 之间;尺寸根据个人喜好和需求选择。
2024-11-13
大小模型协同有哪些设计,具体应用有哪些呢?
大小模型协同的设计主要包括以下方面: 1. 大型模型方面: 大型语言模型:专注于处理和生成文本信息,通过分析大量的文本数据来理解和生成自然语言。 大型多模态模型:能够处理包括文本、图片、音频等多种类型的信息,在更多样化的任务中应用。 2. 小型模型方面:通常是被设计来完成特定任务的。 其具体应用包括: 1. 人机协同模式: 模式一:以人为主导,大模型提供建议(copilot 阶段),如同副驾驶,开车时提供建议,决定权在人手中。 模式二:人和大模型协同工作,合作完成同一个工作(embedding 阶段),在实际工作场景中,一些小环节由大模型完成,提高效率。 模式三:人指挥大模型工作(数字员工阶段),但此阶段目前少见,大模型还不能完全独立完成具体工作,可能是工程或大模型能力欠缺导致。 当下努力方向应是从简单使用大模型得到建议,转变为让大模型深度融入工作流,形成有高价值的一套 agent。数字员工阶段尚不成熟,可由其他大厂和学界先多尝试。
2024-11-13
大小模型协同有哪些数据
大小模型协同的数据来源广泛且多样,主要包括以下方面: 大模型方面: 预训练数据非常大,往往来自于互联网,涵盖论文、代码以及可爬取的公开网页等,通常采用 TB 级别的数据进行预训练。 像 GPT3 这样的大模型参数众多。 例如 Gemini 模型,其预训练数据集使用来自网络文档、书籍、代码的数据,并包括图像、音频和视频数据。 小模型方面: 针对特定任务进行训练,数据主要由与任务相关的内容组成,如专门识别猫或狗的模型,其训练数据主要是猫猫狗狗的照片。 大模型具有更广泛的应用范围和更多的通识知识,能处理多种不同任务;小模型在特定任务上表现出色。但大模型的知识来源于有限的训练数据,并非无限,且知识库不会自动更新,在某些特定或专业领域的知识可能不够全面。
2024-11-13
大模型排名以及排名的评测标准维度是什么
以下是一些常见的大模型排名及评测标准维度: FlagEval(天秤)大模型评测体系及开放平台: 地址: 简介:旨在建立科学、公正、开放的评测基准、方法、工具集,协助研究人员全方位评估基础模型及训练算法的性能,同时探索利用 AI 方法实现对主观评测的辅助,大幅提升评测的效率和客观性。创新构建了“能力任务指标”三维评测框架,细粒度刻画基础模型的认知能力边界,可视化呈现评测结果。 CEval: 地址: 简介:构造了一个覆盖人文,社科,理工,其他专业四个大方向,52 个学科(微积分,线代…),从中学到大学研究生以及职业考试,一共 13948 道题目的中文知识和推理型测试集。此外还给出了当前主流中文 LLM 的评测结果。 SuperCLUElyb: 地址: 简介:中文通用大模型匿名对战评价基准,这是一个中文通用大模型对战评价基准,它以众包的方式提供匿名、随机的对战。他们发布了初步的结果和基于 Elo 评级系统的排行榜。 斯坦福发布的大模型排行榜 AlpacaEval: 项目链接:https://github.com/tatsulab/alpaca_eval 排行榜链接:https://tatsulab.github.io/alpaca_eval/ 该研究团队选择了目前在开源社区很火的开源模型,还有 GPT4、PaLM 2 等众多「闭源」模型,甚至还开设了一个「准中文」排行榜。 AlpacaEval 分为以 GPT4 和 Claude 为元标注器的两个子榜单。 在斯坦福的这个 GPT4 评估榜单中: GPT4 稳居第一,胜率超过了 95%;胜率都在 80%以上的 Claude 和 ChatGPT 分别排名第二和第三,其中 Claude 以不到 3%的优势超越 ChatGPT。 值得关注的是,获得第四名的是一位排位赛新人——微软华人团队发布的 WizardLM。在所有开源模型中,WizardLM 以仅 130 亿的参数版本排名第一,击败了 650 亿参数量的 Guanaco。 而在开源模型中的佼佼者 Vicuna 发挥依然稳定,凭借着超过 70%的胜率排在第六,胜率紧追 Guanaco 65B。 最近大火的 Falcon Instruct 40B 表现不佳,仅位居 12 名,略高于 Alpaca Farm 7B。 AlpacaEval 的技术细节: 人类一致性:标注者与交叉标注集中人类多数票之间的一致性。 价格:每 1000 个标注的平均价格。 时间:计算 1000 个标注所需的平均时间。相对于人工标注,全自动化的 AlpacaEval 仅需花费约 1/22 的经济成本和 1/25 的时间成本。 AlpacaEval 评估模型的方式: alpaca_eval:直接根据目标模型输出的响应来评估模型。 alpaca_eval evaluate_from_model:根据 HuggingFace 已注册模型或这 API 提供商来端到端评测模型。 评测过程分为以下 3 步: 1. 选择一个评估集,并计算指定为 model_outputs 的输出。默认情况下,使用来自 AlpacaEval 的 805 个示例。 2. 计算 golden 输出 reference_outputs。默认情况下,在 AlpacaEval 上使用 textdavinci003 的输出。 3. 通过 annotators_config 选择指定的自动标注器,它将根据 model_outputs 和 reference_outputs 计算胜率。这里建议使用 alpaca_eval_gpt4 或 claude。根据不同的标注器,使用者还需要在环境配置中设定 API_KEY。
2024-11-12
从0到1学习大模型知识
以下是从 0 到 1 学习大模型知识的相关内容: 什么是大模型: 通俗来讲,大模型是输入大量语料,让计算机获得类似人类的“思考”能力,能进行文本生成、推理问答、对话、文档摘要等工作。可以用“上学参加工作”来类比大模型的训练和使用过程: 1. 找学校:训练大模型需要大量计算,GPU 更合适,只有购买得起大量 GPU 的才有资本训练自己的大模型。 2. 确定教材:大模型需要大量数据,几千亿序列(Token)的输入基本是标配。 3. 找老师:用合适算法让大模型更好理解 Token 之间的关系。 4. 就业指导:为让大模型更好胜任某一行业,需要进行微调(fine tuning)指导。 5. 搬砖:就业指导完成后,正式干活,比如进行翻译、问答等,在大模型里称之为推导(infer)。在 LLM 中,Token 被视为模型处理和生成的文本单位,会对输入进行数字化形成词汇表。 大模型如何运作: 打个比方,“我今天吃了狮子头和蔬菜”这句话,在 transformer 中,会由 attention 层对其加入更多信息补充,如“狮子头是一道菜”“今天是星期六”等,这些补充信息会作为输入给到下一个 attention 层,最终哪些信息补充、保留、传递由模型自主学习。层与层之间就像人阅读文章时的连贯性注意力过程,大模型以词向量和 transformer 模型学习海量知识,把知识作为向量空间中的关系网存储,接受输入时通过向量空间中的匹配进行输出。这个过程像人脑阅读学习,记忆的不是逐字逐句,而是按相关性、重要程度结合历史经验,比如看到红色会觉得代表温暖、强烈。 大模型的整体架构: 从整体分层角度,大模型架构可分为以下几层: 1. 基础层:为大模型提供硬件支撑、数据支持,如 A100、数据服务器等。 2. 数据层:分为静态的知识库和动态的三方数据集,不是用于基层模型训练的数据基集,而是企业根据自身特性维护的垂域数据。 3. 模型层:包括 LLm(largelanguagemodel,如 GPT,一般使用 transformer 算法实现)或多模态模型(如文生图、图生图等,训练数据与 llm 不同,用图文或声音等多模态数据集)。 4. 平台层:如大模型的评测体系或 langchain 平台等,提供模型与应用间的组成部分。 5. 表现层:即应用层,是用户实际看到的地方。
2024-11-12
在comyui中,使用flux1-dev模型24g显存够吗
在 ComfyUI 中使用 Flux1dev 模型,24G 显存是可以的,但建议内存尽量高于 32G 以避免意外情况的发生。如果您的显卡是 24G 或更高,右键 24G 那个 train_flux_24GLora 的文件。修改脚本路径和参数时,要注意底模路径、VAE 路径、数据集路径,还有下面的 clip 路径和 T5xxl 路径的正确填写。ae.safetensors 和 flux1dev.safetensors 的下载地址为:https://huggingface.co/blackforestlabs/FLUX.1dev/tree/main 。flux 相关模型(体积较大)的夸克网盘链接:https://pan.quark.cn/s/b5e01255608b ,百度网盘链接:https://pan.baidu.com/s/1mCucHrsfRo5SttW03ei0g?pwd=ub9h 提取码:ub9h 。如果 GPU 性能不足、显存不够,底模可以使用 fp8 的量化版模型,下载地址:https://huggingface.co/Kijai/fluxfp8/tree/main 。最后下载 dev 的工作流: ,或者使用官方原版的图片链接 https://comfyanonymous.github.io/ComfyUI_examples/flux/flux_dev_example.png ,打开 ComfyUI 把工作流或图片拖拽到其中即可。
2024-11-12