直达「 通往AGI之路 」飞书知识库 →
首页/问答列表/问答详情

大模型赛道盘点

回答

以下是对大模型赛道的盘点:

  1. Compass Arena 是由上海人工智能实验室和魔搭社区联合推出的大模型测评平台,集齐了国内主流的 20 多款大模型,包括阿里通义千问、百度文心一言、腾讯混元、讯飞星火、字节跳动豆包、智谱 AI、百川智能、零一万物、月之暗面等,用户可在平台选择大模型两两“对战”,实名或匿名对战皆可。在 Qwen 系列中,Qwen2 性能优越,所有尺寸的模型都使用了 GQA 以带来推理加速和显存占用降低的优势,针对小模型使用了 tie embedding 的方法让输入和输出层共享参数。所有预训练模型在 32K tokens 数据上训练,在 128K tokens 时仍有不错表现,指令微调模型还需进行长序列理解实验。
  2. 伯克利的团队管理着聊天机器人竞技场,根据 ELO 评级对不同语言模型进行排名,计算方式与国际象棋相似。顶部是专有封闭模型,如 OpenAI 的 GPT 系列和 Anthropic 的 Claude 系列,下方是开放权重的模型,如 Meta 的 Llama2 系列,底部有 Zephyr 7b Beta 等。
  3. 有观点认为大模型应用是除内容、电商、o2o、工具之外的第五条赛道,但当前其是否够资格有待商榷。许多产品同学未真正意识到大模型带来的变革,思路和视角仍停留在传统互联网商业模式上。
内容由 AI 大模型生成,请仔细甄别(powered by aily)

参考资料

Qwen 2开源了 模型性能超越目前所有开源模型和国内闭源模型

Compass Arena是由上海人工智能实验室和魔搭社区联合推出的大模型测评平台,集齐了国内主流的20多款大模型,包括阿里通义千问、百度文心一言、腾讯混元、讯飞星火、字节跳动豆包、智谱AI、百川智能、零一万物、月之暗面等等,用户可在平台选择大模型的两两“对战”,实名或匿名对战皆可。三、Qwen2为什么能有如此优越的性能?通义千问技术博客披露,在Qwen1.5系列中,只有32B和110B的模型使用了GQA。这一次,所有尺寸的模型都使用了GQA,以便让用户体验到GQA带来的推理加速和显存占用降低的优势。针对小模型,由于embedding参数量较大,研发团队使用了tie embedding的方法让输入和输出层共享参数,增加非embedding参数的占比。上下文长度方面,所有的预训练模型均在32K tokens的数据上进行训练,研发团队发现其在128K tokens时依然能在PPL评测中取得不错的表现。然而,对指令微调模型而言,除PPL评测之外还需要进行[大海捞针](https://github.com/gkamradt/LLMTest_NeedleInAHaystack)等长序列理解实验。在使用YARN这类方法时,Qwen2-7B-Instruct和Qwen2-72B-Instruct均实现了长达128K tokens上下文长度的支持。

文章:Andrej Karpathy 亲授:大语言模型入门

好的,最后,我想向你展示当前领先的大型语言模型的排行榜。例如,这就是聊天机器人竞技场。它由伯克利的一个团队管理。他们在这里所做的是根据ELO评级对不同的语言模型进行排名。计算ELO的方式与国际象棋中的计算方式非常相似。所以不同的棋手互相对弈。根据彼此的胜率,你可以计算他们的ELO分数。你可以使用语言模型做完全相同的事情。所以你可以访问这个网站,输入一些问题,你会得到两个模型的响应,你不知道它们是由什么模型生成的,然后你选择获胜者。然后根据谁赢谁输,你就可以计算出ELO分数。所以越高越好。所以你在这里看到的是,拥挤在顶部的是专有模型。这些是封闭模型,你无法访问权重,它们通常位于网络界面后面。这是OpenAI的GPT系列,以及Anthropic的Claude系列。还有其他公司的一些其他系列。所以这些是目前表现最好的模型。然后就在其下方,你将开始看到一些开放权重的模型。因此,这些权重是可用的,人们对它们有更多了解,通常有相关论文可用。例如,Meta的Llama2系列就是这种情况。或者在底部,你可以看到Zephyr 7b Beta,它基于法国另一家初创公司的Mistral系列。

Ranger:【AI 大模型】非技术背景,一文读懂大模型(长文)

变革归变革,那么作为产品人,我们该怎么去把ai这个能力用起来呢?我认为转变自己的“传统”产品设计思路和视角,是最关键的一步。其实我前段时间我在一个仅面向产品经理的公众号中,读到一篇对大模型发展未来表达看法的文章。文章的开篇,就表达了认为大模型应用是在内容、电商、o2o、工具之外的第五条赛道,且当前是否够资格成为“第五条赛道”都有待商榷。在该文章的评论区下,我建议作者先去了解下大模型的基础原理以及当前的技术发展状况。当时之所以这样说,只是因为我觉得许多产品同学实际上并未真正意识到这次大模型所带来的变革,所以他们的思路和视角,依然停留在传统互联网商业模式上,仍然认为此次的变革只是在传统的基础之上做更新。但上面我们也说了,这次的ai变革是从互联网最底层的if-else逻辑开始的,而那些传统互联网的商业模式,只是基于传统的互联网技术架构和用户需求综合出来的产物。

其他人在问
runway具体属于哪种赛道,怎么描述它
Runway 属于 AI 视频领域。它是一款最先推出模型的 AI 视频产品,目前仍维持着领先地位,并在不断快速迭代。 其产品定位更偏向影视、艺术表达,具有以下特点和优势: 1. 擅长真实系、风景、空间视频生成,对二次元场景支持不佳。 2. 支持绿幕场景生成、视频绿幕抠像等,方便影视制作和后期处理。 3. 7 月更新的 Gen3 支持 Alpha Turbo(更快速)和 Alpha(更强表现力)两种模式,增强了对复杂提示词描述的理解和对图像运动元素的识别,能够实现富有想象力的过渡和场景中元素的精确关键帧。还支持设置图片作为动画首帧/尾帧,但目前不支持笔刷等高级调节能力。单次生成视频时长最长可达 10 秒,可延长到 40 秒。 4. Gen3 Alpha Turbo 支持竖屏尺寸视频生成、加大力度发力视频到视频(风格转绘)能力,并表示即将推出更多控制能力。 Runway 由一家总部位于旧金山的 AI 创业公司制作,年初在互联网爆火。2023 年初推出的 Gen2 代表了当前 AI 视频领域最前沿的模型,能够通过文字、图片等方式生成 4 秒左右的视频。致力于专业视频剪辑领域的 AI 体验,同时也在扩展图片 AI 领域的能力。目前支持在网页、iOS 访问,网页端有 125 积分的免费试用额度(可生成约 105 秒视频),iOS 有 200 多,两端额度不同步。 相关链接: 1. 查看 Runway 目前支持的场景和视频案例:https://runwayml.com/product/usecases 2. Gen1 能力介绍:https://research.runwayml.com/gen1 3. Gen1 参数设置:https://help.runwayml.com/hc/enus/articles/15161225169171 4. 学习 Gen1 详细设置方式的视频:https://youtu.be/I4OeYcYf0Sc 5. 官方网站:https://runwayml.com/
2024-10-12
ai+赛道盘点
以下是一些 AI 相关的赛道盘点: AI 与宠物结合:这是一个充满想象空间的新兴赛道,可基于 AI 技术和宠物行业需求开发各种有趣有用的应用。 Agent 相关比赛赛道: 图文创作赛道:包括 AI 自动编写文章并选择或生成相应图片、图像标注、图文匹配等。 实用工具赛道:涵盖数据可视化、设计辅助(如生成 LOGO、海报设计)、自动化排版、图文识别等。 互动创意赛道:例如新闻和社交媒体方面,AI 对大量信息进行自动编辑和汇总生成有趣的图文摘要;艺术创作领域,辅助绘画、音乐创作、文学创作等,鼓励探索 AI 与艺术结合的新模式。
2024-08-26
AI+宠物赛道的一些例子和学习map
根据提供的搜索结果,我总结了以下关于 AI+宠物赛道的一些例子和学习路径: 1. AI 宠物助手 基于自然语言处理和计算机视觉的 AI 宠物助手,可以帮助主人更好地照顾宠物 例如自动识别宠物情绪、提供饮食建议、监测宠物健康状况等 2. AI 宠物互动玩具 利用 AI 技术开发的智能互动玩具,可以增强宠物的娱乐体验 例如会自主移动并引起宠物注意的智能玩具、会发出声音和互动的智能宠物玩具等 3. AI 宠物图像生成 使用生成式 AI 模型,可以根据文字描述生成各种宠物形象的图像 这可以帮助宠物主人定制个性化的宠物形象 4. AI 宠物医疗诊断 利用计算机视觉和机器学习技术,可以开发 AI 辅助的宠物医疗诊断系统 通过分析宠物的症状图像和病历数据,提供初步诊断建议 5. AI 宠物行为分析 基于传感器数据和计算机视觉,可以利用 AI 技术分析宠物的行为模式 帮助主人更好地了解宠物的需求和习性 学习路径建议: 1. 掌握基础的机器学习、计算机视觉、自然语言处理等 AI 技术 2. 了解宠物行为学、宠物医疗等相关领域知识 3. 关注业内先进的 AI+宠物应用案例,学习其技术实现 4. 尝试开发简单的 AI 宠物应用原型,并不断迭代优化 总的来说,AI+宠物是一个充满想象空间的新兴赛道,结合 AI 技术和宠物行业需求,可以开发出各种有趣有用的应用。
2024-04-23
Ai+宗教佛学自媒体,用mj生成图片加runway动起来在配合剪映制作成视频,最后配上符合佛学的宁静音乐。用它制作视频,上传到各大平台,分析此赛道并复现
这个赛道结合了多种技术和内容,需要进行以下步骤来实现: 1. 准备素材: 收集宗教佛学相关的图片、视频素材,以及符合佛学理念的宁静音乐。这些素材可以来自于网络上的免费资源或者自己制作,确保版权合法。 2. 使用 MJ 生成图片: 利用 Midjourney(MJ)生成符合宗教佛学主题的图片。可以在 MJ 平台上选择合适的模板和风格,生成高质量的图片素材。 3. 使用 Runway 生成动画: 使用 Runway 将生成的图片转换为动态效果。Runway 是一个 AI 动画生成工具,可以为静态图片添加生动的动画效果,增强视觉效果。 4. 使用剪映制作视频: 将生成的动态图片和视频素材导入到剪映等视频编辑软件中,进行剪辑和编辑。根据需要调整剪辑顺序、添加过渡效果、字幕等,制作成符合宗教佛学主题的视频内容。 5. 配音乐: 在视频编辑过程中,将符合佛学理念的宁静音乐添加到视频中。选择合适的音乐可以增强视频的氛围和情感,让观众更好地沉浸其中。 6. 导出和上传: 完成视频编辑后,将视频导出为常见的视频格式,如MP4等。然后上传到各大视频平台,如YouTube、抖音、Bilibili等,分享给目标受众。 7. 分析和优化: 视频上传后,关注观看量、点赞数、评论等指标,分析观众反馈和视频效果。根据分析结果,优化视频内容和推广策略,提升视频的影响力和曝光度。 以上就是实现该赛道的步骤,需要整合利用 MJ、Runway、剪映等工具和平台,以及宗教佛学素材和宁静音乐,制作出符合佛学理念的高质量视频内容,并通过上传到各大平台进行推广和分享。
2024-04-20
我的app应用想要对接大语言模型,结合APP用户自身的数据,实现更精准的对话,是否有行业比较成功的案例可以借鉴
以下是一些在 APP 应用对接大语言模型方面比较成功的案例,可供您借鉴: 1. Poe: 由 Quora 开发,有 APP 版本,支持跨端使用。 集成了 Chat GPT、GPT4、Claude+、Claude、Dragonfly 等模型,同时支持用户自建 Chatbot。 不同语言模型回复效果有差异,适合需要调用多种大语言模型的用户。 Dragonfly 擅长给出较短的回答,并擅长在输入中给出示例时遵循指示。 Claude 更擅长创造性回复,配合 Poe 中的提问引导,非常适合在查阅资料时使用。 支持分享用户和模型的对话内容,但 GPT4、Claude+产品需要付费订阅使用。 访问地址: Poe 中的提问引导真的能够启发到用户,midjourney prompt 扩写 Chatbot 能力很惊人。 2. Perplexity.ai: 本质是个可联网的搜索引擎,完全免费,支持网页版、APP(目前支持 iOS,安卓即将推出)、Chrome 插件。 网页版能力全面,能够根据提问从互联网上搜寻信息并给出总结后的答案。 很多 Chat GPT 中调用插件才能解决的事情(联网查询、旅行、住宿、商品推荐)靠 Perplexity 就可以解决。 能给出信息来源网址,并根据搜索内容给出继续对话的问题建议。 最新推出的 Copilot 能力支持根据搜索内容进行信息补充,每 4h 内使用 5 次,调用 GPT4。 支持分享聊天内容到多渠道。 首页推荐当下流行的新闻、搜索内容。 支持筛选 Academic(包含不同领域的学术研究论文)、Wolfram|Alpha(包含数学、科学、经济学、语言学、工程学、社会科学、文化等领域的知识库)、Wikipedia(维基百科)、Youtube、Reddit(娱乐、社交和新闻网站)、News 进行搜索。 Chrome 插件可针对当前页面给出即时摘要。 访问地址:
2024-10-18
大模型合规
大模型的安全问题包括以下方面: 1. 对齐保障:通过对齐(指令调优),如 ChatGPT 从 GPT3 经过对齐而来,使其更好地理解人类意图,增加安全保障,确保不输出有害内容。对齐任务可拆解为监督微调及获取奖励模型和进行强化学习来调整输出分布。例如 LLAMA2 使用安全有监督微调确保安全,强化学习能让模型根据人类反馈更细粒度思考答案的安全性,面对训练分布外数据也能拒绝不当回答。 2. 数据过滤:在预训练阶段对数据进行过滤,如 baichuan2 采用此技术减少有害输出,但因数据关联性,仅靠此方法可能不够,模型仍可能从关联中学到有害内容,且面对不良信息时可能因缺少知识而处理不当。 3. 越狱问题:用户可能通过越狱(Jailbreak)使模型的对齐失效,重新回答各种问题。 大模型的特点包括: 1. 架构:分为 encoderonly、encoderdecoder、decoderonly 三类,目前熟知的 AI 助手多为 decoderonly 架构,由 transformer 衍生而来。 2. 规模:预训练数据量大,来自互联网的多种来源,且参数众多,如 GPT3 已达 170B 的参数。 GPT3 与 ChatGPT 相比,除形式不同外,安全性也有差别。
2024-10-18
大模型安全相关资料
以下是关于大模型安全的相关资料: 大模型的架构:包括 encoderonly、encoderdecoder 和 decoderonly 三种类型。其中,我们熟知的 AI 助手基本采用 decoderonly 架构,这些架构都是由谷歌 2017 年发布的“attention is all you need”论文中提出的 transformer 衍生而来。 大模型的特点:预训练数据量大,往往来自互联网上的论文、代码、公开网页等,通常用 TB 级别的数据进行预训练;参数非常多,如 Open 在 2020 年发布的 GPT3 就已达到 170B 的参数。 大模型的安全性保障:通过对齐(指令调优),包括监督微调、获取 reward model 与进行强化学习来调整语言模型的输出分布,以保证语言模型不会输出有害内容和信息。例如 LLAMA2 专门使用了安全有监督微调确保安全。但 Alignment 并不足以防护所有安全问题,存在越狱(Jailbreak)现象,会使模型对齐失效。此外,还有隐私问题。 相关资源:如果想进一步了解大语言模型安全,可以访问 Github awesomellmsafety 项目:https://github.com/ydyjya/AwesomeLLMSafety
2024-10-18
目前最好用的机关公文写作大模型或智能体
目前在机关公文写作方面表现较好的大模型或智能体有: 智谱清言:由智谱 AI 和清华大学推出,基础模型为 ChatGLM 大模型。在工具使用排名国内第一,在计算、逻辑推理、传统安全能力上排名国内前三。更擅长专业能力,但在代码能力上还有优化空间,知识百科方面稍显不足。可应用场景广泛,在 AI 智能体方面相关的应用,包括任务规划、工具使用及长文本记忆相关场景表现出色,在较复杂推理应用上效果不错,也适用于广告文案、文学写作等。 此外,在大模型中,智能体是大模型的一个重要发展方向。智能体可以理解为在大模型(如 LLM)基础上增加了工具、记忆、行动、规划等能力。目前行业里主要用到的如 langchain 框架,能通过代码或 prompt 的形式将 LLM 与 LLM 之间以及 LLM 与工具之间进行串接。
2024-10-18
你知道有支持个性化训练的大预言模型么
以下是一些支持个性化训练的大语言模型: 1. Character.ai:更注重人格属性,试图满足社交、情感、陪伴等需求,与 ChatGPT 侧重不同,后者注重提高效率和解放生产力。 2. Midjourney:今天发布了模型个性化 Personalization 或 'p'的早期测试版本。模型个性化会学习用户的喜好,以便更可能用用户的口味来填补空白。其要求包括目前从成对排名中的投票和喜欢的探索页面上的图像中学习,需要大约 200 个成对排名/喜欢才能生效。使用时只需在提示后输入 'p',或使用提示栏中的设置按钮为所有提示启用个性化功能,还可以使用 's 100'控制个性化效果的强度。但需注意个性化目前不是一个稳定的功能,会随着进行更多的成对排名而变化,且可能会在接下来的几周内推出算法更新。
2024-10-18
我该如何利用文心一言、kimi等已有的大语言模型去作个性化训练?
已有的大语言模型如文心一言、kimi 等通常不支持个人进行个性化训练。 大语言模型的相关知识包括: 国内大模型有通用模型如文心一言、讯飞星火等,处理自然语言;还有垂直模型,专注特定领域。 大语言模型工作原理包括训练数据、算力、模型参数,在训练数据一致情况下,模型参数越大能力越强。 Transformer 是大语言模型训练架构,具备自我注意力机制能理解上下文和文本关联。 大模型可能因错误数据导致给出错误答案,优质数据集对其很重要。 Prompt 分为 system prompt、user prompt 和 assistant prompt,写好 prompt 的法则包括清晰说明、指定角色、使用分隔符、提供样本等。 Fine tuning 是基于通用大模型,针对特定领域任务提供数据进行学习和调整,以适应特定领域的需求。 学习大型语言模型(LLM)的开发是一个系统性的过程,需要涵盖多个方面的知识和技能: 掌握深度学习和自然语言处理基础,包括机器学习、深度学习、神经网络等基础理论,以及自然语言处理基础,如词向量、序列模型、注意力机制等。 理解 Transformer 和 BERT 等模型原理,掌握相关论文。 学习 LLM 模型训练和微调,包括大规模文本语料预处理,使用预训练框架,以及微调 LLM 模型进行特定任务迁移。 掌握 LLM 模型优化和部署,包括模型压缩、蒸馏、并行等优化技术,模型评估和可解释性,以及模型服务化、在线推理、多语言支持等。 进行 LLM 工程实践和案例学习,结合行业场景,进行个性化的 LLM 训练,分析和优化具体 LLM 工程案例,研究 LLM 新模型、新方法的最新进展。 持续跟踪前沿发展动态。 机器学习是人工智能的一个子领域,深度学习是机器学习的一个子领域,大语言模型是深度学习在自然语言处理领域的应用之一,具有生成式 AI 的特点。
2024-10-18