直达「 通往AGI之路 」飞书知识库 →
首页/问答列表/问答详情

科普性质的介绍下目前大模型的优秀应用案例和实施经验

回答

以下为目前大模型的一些优秀应用案例和实施经验:

在问答行业

  • Baichuan 借鉴了 Meta 的 CoVe 技术,将复杂 Prompt 拆分为多个独立且可并行检索的搜索友好型查询,使大模型能够对每个子查询进行定向知识库搜索。
  • 利用自研的 TSF(Think-Step Further)技术来推断和挖掘用户输入背后更深层的问题,以更精准、全面地理解用户意图。
  • 自研 Baichuan-Text-Embedding 向量模型,对超过 1.5T tokens 的高质量中文数据进行预训练,并通过自研损失函数解决了对比学习方式依赖 batchsize 的问题。同时引入稀疏检索和 rerank 模型,形成向量检索与稀疏检索并行的混合检索方式,大幅提升了目标文档的召回率,达到 95%。

在医疗行业

  • 涵盖疾病的诊断与预测、药物研发以及个性化医疗等方向。
  • 例如,麻省理工学院利用 AI 发现了新型广谱抗生素 Halicin。研究者先构建由两千个性能已知的分子组成的训练集,用它们训练 AI 学习分子特点,总结规律,再对美国 FDA 已通过的六万多个分子进行分析,最终成功识别出有效分子,且实验证明效果良好。

在模型架构方面

  • 包括 encoder-only、encoder-decoder 和 decoder-only 等类型。
  • 如 BERT 是 encoder-only 模型的代表,google 的 T5 是 encoder-decoder 模型的代表,众多熟知的 AI 助手包括 ChatGPT 基本属于 decoder-only 架构。
  • 大模型的特点在于预训练数据量大,往往来自互联网上的多种来源,且参数众多,如 Open 在 2020 年发布的 GPT-3 就已达到 170B 的参数。
内容由 AI 大模型生成,请仔细甄别(powered by aily)

参考资料

大模型RAG问答行业最佳案例及微调、推理双阶段实现模式:基于模块化(Modular)RAG自定义RAG Flow

基于百川的宣传资料整理([查看原文](https://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2650901201&idx=1&sn=3a9bd61403fb4b024ec5d8c128990495&scene=21#wechat_redirect)),由于资料有限,对于部分细节笔者进行了适当猜测和补充。针对用户日益复杂的问题,Baichuan借鉴了Meta的CoVe技术,将复杂Prompt拆分为多个独立且可并行检索的搜索友好型查询,使大模型能够对每个子查询进行定向知识库搜索。此外,他们还利用自研的TSF(Think-Step Further)技术来推断和挖掘用户输入背后更深层的问题,以更精准、全面地理解用户意图。TSF的技术细节并没有披露,猜测其本质应该是对Step-back prompting方法的改良。在检索步骤中,百川智能自研了Baichuan-Text-Embedding向量模型,对超过1.5T tokens的高质量中文数据进行预训练,并通过自研损失函数解决了对比学习方式依赖batchsize的问题。该向量模型登顶了C-MTEB。同时引入稀疏检索和rerank模型(未披露),形成向量检索与稀疏检索并行的混合检索方式,大幅提升了目标文档的召回率,达到了95%。

开发:AI应用大模型商业化落地现状与思考

首先来看医疗行业,这是关乎每个人生命健康的重要领域。大模型在医疗行业的应用主要涵盖三个方向:疾病的诊断与预测、药物研发以及个性化医疗。从医疗前期的图像诊断,基因组学和精准医疗到药物研发阶段再到最后病人的个性化医疗,人工智能都有其适合的应用场景。例如,在2020年,麻省理工学院利用AI发现了一种名为Halicin的新型广谱抗生素,它不仅能有效杀灭对现有抗生素产生耐药性的细菌,而且不会使细菌产生新的耐药性。这一突破性发现源于AI的助力。研究者先搞了一个由两千个性能已知的分子组成的训练集,这些分子都被标记好了是不是可以抑制细菌生长,用它们去训练AI。AI自己学习这些分子都有什么特点,总结了一套“什么样的分子能抗菌”的规律。之后又对美国FDA已通过的六万多个分子中进行分析,最终成功识别出了一个符合所有要求的分子,这就是Halicin。之后研究者开始做实验证明,它真的非常好使,大概很快就会用于临床,造福人类。这个例子充分展示了AI大模型在医疗领域的巨大潜力,目前很多医疗研究机构都进行医疗大模型的开发研究,大模型在医疗领域大有可为!

从 0 到 1 了解大模型安全,看这篇就够了

encoder-only:这些模型通常适用于可以自然语言理解任务,例如分类和情感分析.最知名的代表模型是BERTencoder-decoder:此类模型同时结合了Transformer架构的encoder和decoder来理解和生成内容。该架构的一些用例包括翻译和摘要。encoder-decoder的代表是google的T5decoder-only:此类模型更擅长自然语言生成任务。典型使用包括故事写作和博客生成。这也是我们现在所熟知的众多AI助手的结构我们目前耳熟能详的AI助手基本都来自左侧的灰色分支,当然也包括ChatGPT。这些架构都是根据谷歌2017年发布的论文“attention is all you need”中提出的transformer衍生而来的,在transformer中,包括Encoder,Decoder两个结构目前的大型语言模型就是右侧只使用Decoder的Decoder-only架构的模型大模型又大在哪呢?第一,大模型的预训练数据非常大,这些数据往往来自于互联网上,包括论文,代码,以及可进行爬取的公开网页等等,一般来说,现在最先进的大模型一般都是用TB级别的数据进行预训练。第二,参数非常多,Open在2020年发布的GPT-3就已经达到170B的参数

其他人在问
如果我需要撰写一个以“AI对音乐行业就业岗位的影响”为主题的约3000字的科普类文章,我应该优先关注WaytoAGI 知识库中的哪些内容?
很抱歉,目前“通往 AGI 之路”知识库中没有与“AI 对音乐行业就业岗位的影响”相关的直接内容。但您可以从以下几个方面入手来撰写这篇文章: 1. 了解 AI 在音乐创作、制作、表演等方面的应用现状和发展趋势。 2. 研究 AI 技术如何改变音乐的生产流程和效率。 3. 分析 AI 对音乐创作者、演奏者、制作人等不同岗位的具体影响,包括可能的岗位替代和新岗位的产生。 4. 探讨 AI 带来的音乐版权和知识产权问题,以及对相关法律和政策的影响。 5. 关注音乐消费者对 AI 参与音乐创作和表演的接受程度和需求变化。
2024-10-19
以图像识别,为小白科普相关知识和交叉领域,并为研究生提供参考选题
图像识别是指利用计算机技术对图像进行处理和分析,以识别和理解图像中的内容。 对于小白来说,图像识别是让计算机像人一样“看懂”图像。它基于深度学习、机器学习等技术,通过对大量图像数据的学习和训练,能够自动提取图像的特征,并进行分类、识别等操作。 图像识别的应用非常广泛,比如在安防领域,用于人脸识别、车牌识别等;在医疗领域,辅助疾病诊断、医学影像分析;在交通领域,实现交通标志识别、车辆检测等。 图像识别与多个领域存在交叉,如计算机视觉,它不仅关注图像的识别,还包括图像的生成、处理等;与人工智能的其他分支如自然语言处理也有结合,实现图文转换等功能;在工业领域,与自动化生产相结合,进行产品质量检测等。 对于研究生来说,以下是一些参考选题: 1. 基于小样本学习的图像识别算法研究。 2. 融合多模态信息的图像识别模型优化。 3. 针对特定场景(如复杂环境、低光照等)的图像识别改进。 4. 图像识别在医疗诊断中的精准度提升策略。 5. 结合深度学习和传统方法的图像识别性能比较。 6. 基于新型神经网络架构的图像识别应用。
2024-10-19
Aigc科普资料
以下是关于 AIGC 的科普资料: AIGC(人工智能生成内容)是一种利用人工智能技术生成各种类型内容的应用方式。它能够通过机器学习和深度学习算法,根据输入的数据和指令生成符合特定要求的内容,在内容创作、广告、媒体等领域有着广泛的应用。 AIGC 主要分为语言文本生成、图像生成和音视频生成。语言文本生成利用马尔科夫链、RNN、LSTMs 和 Transformer 等模型生成文本,如 GPT4 和 GeminiUltra。图像生成依赖于 GANs、VAEs 和 Stable Diffusion 等技术,应用于数据增强和艺术创作,代表项目有 Stable Diffusion 和 StyleGAN 2。音视频生成利用扩散模型、GANs 和 Video Diffusion 等,广泛应用于娱乐和语音生成,代表项目有 Sora 和 WaveNet。此外,AIGC 还可应用于音乐生成、游戏开发和医疗保健等领域,展现出广泛的应用前景。 目前,我国对 AIGC 的监管框架由《网络安全法》《数据安全法》及《个人信息保护法》构成,并与《互联网信息服务算法推荐管理规定》、《互联网信息服务深度合成管理规定》、《生成式人工智能服务管理暂行办法》、《科技伦理审查办法(试行)》等形成了共同监管的形势。 GenAI(即生成式 AI)是一种能够从已有数据中学习并生成新的数据或内容的 AI 应用,利用 GenAI 创建的内容即 AIGC。 相关概念包括: 人工智能:一种目标,让机器展现智慧,Artificial Intelligence,简称 AI。 生成式人工智能 GenAI:一种目标,让机器产生复杂有结构的内容,Generative AI 简称 GenAI。 机器学习:一种手段,让机器自动从资料中找到公式。 深度学习:一种更厉害的手段,类神经网络 非常大量参数的函数。 大语言模型:是一类具有大量参数的“深度学习”模型,Large Language Models,简称 LLMs。 ChatGPT:一个应用实例,形象比喻:通过投喂大量资料预训练后,ChatGPT 会通过聊天玩“文字接龙游戏”了。英文解释:Chat 聊天,G:Generative 生成,P:Pretrained 预训练,T:Transformer 类神经网络模型。 ChatGPT 是 AIGC 技术的一个应用实例,它代表了 AIGC 在文本生成领域的进展。AGI、GenAI、AIGC 几个概念存在一定的区别。
2024-09-25
人工智能科普
以下是关于人工智能的科普内容: 一、人工智能简介 人工智能(Artificial Intelligence)是一门研究如何使计算机表现出智能行为,例如做一些人类所擅长的事情的科学。最初,查尔斯·巴贝奇(Charles Babbage)发明了计算机,用于按照一套明确定义的程序(即算法)来对数字进行运算。现代计算机虽更先进,但仍遵循相同的受控计算理念。然而,像“根据照片判断一个人的年龄”这类任务,由于我们不清楚大脑完成此任务的具体步骤,所以无法编写明确程序让计算机完成,这类任务正是人工智能感兴趣的。 二、人工智能简史 早期的程序如,基于简单语法规则,将输入句子重新表述为问题。现代助手如 Cortana、Siri 或谷歌助手等是混合系统,使用神经网络将语音转换成文本并识别意图,再采用推理或明确算法执行操作。未来有望出现完整基于神经网络的模型独立处理对话,如最近的 GPT 和 TuringNLG 系列神经网络在这方面取得了巨大成功。 三、新手学习 AI 的方法 学习人工智能是既刺激又富有挑战的旅程。 1. 了解 AI 基本概念: 阅读「」部分,熟悉术语和基础概念,了解其主要分支及联系。 浏览入门文章,了解历史、应用和发展趋势。 2. 开始 AI 学习之旅: 在「」中,找到为初学者设计的课程,特别推荐李宏毅老师的课程。 通过在线教育平台(如 Coursera、edX、Udacity)上的课程,按自己节奏学习并获取证书。 3. 选择感兴趣的模块深入学习: AI 领域广泛(比如图像、音乐、视频等),可根据兴趣选择特定模块深入学习。
2024-09-10
AI儿童科普演讲大纲
很抱歉,目前知识库中没有关于 AI 儿童科普演讲大纲的相关内容。但我可以为您提供一个大致的框架以供参考: 一、引言 1. 用有趣的故事或现象引入 AI 的概念 2. 提问引发孩子们的兴趣 二、什么是 AI 1. 简单解释 AI 的定义 2. 举例说明 AI 在日常生活中的应用,如语音助手、智能家电等 三、AI 的工作原理 1. 以简单易懂的方式讲解数据输入、算法处理和结果输出 2. 用形象的比喻帮助孩子们理解 四、AI 的优点 1. 提高效率、准确性 2. 解决一些复杂的问题 3. 为人们的生活带来便利 五、AI 的挑战与担忧 1. 可能导致的就业变化 2. 数据隐私和安全问题 六、未来的 AI 1. 鼓励孩子们想象未来 AI 的发展 2. 激发他们对科技的兴趣和探索精神 七、总结 1. 回顾重点内容 2. 鼓励孩子们学习科学知识,为未来做好准备 您可以根据实际情况和孩子们的年龄特点对内容进行调整和丰富。
2024-09-09
如何利用AI做科普视频
以下是利用 AI 做科普视频的一些建议和资源: 入门学习: 您可以观看以下入门视频来获取相关知识: 《ChatGPT 诞生记:先捞钱,再谈理想》,作者/来源为林亦 LYi,该视频介绍了 ChatGPT 背后的 OpenAI 公司的理想、成果与争议。链接:,发布日期为 2023 年 2 月 10 日。 《【渐构】万字科普 GPT4 为何会颠覆现有工作流》,作者/来源为 YJango,此视频讲解了 GPT 的底层原理和未来影响,抛开技术细节,少用专业名词,从整体功能上讲解了 ChatGPT 的工作原理、制造过程、涌现的能力、未来的影响以及如何应对。链接:,发布日期为 2023 年 3 月 15 日。 《终于有人把 chatGPT 说清楚了——全网最深入浅出的 chatGPT 原理科普》,作者/来源为新石器公园,该视频深入浅出地讲解了 chatGPT 的基本原理和演化过程。 工具推荐: 制作视频的最佳动画工具:用于在视频中为人脸制作动画的。 最佳语音克隆: 需注意的问题:深度伪造是一个巨大的问题,这些系统需要合乎道德地使用。 此外,在不同的教学场景中,对于 AI 的使用态度和重点也有所不同。例如在健康课中,重点可能是帮助学生设计健康活动,对于使用生成式 AI 编写代码可能不太在意;在艺术课中可能不希望使用 AI 生成的图像,但在历史课中制作信息图表展示对宏观经济学原理的理解时可能会接受。
2024-09-05
我想要了解AI在高校基础医学教学中的应用案例
以下是一些 AI 在高校基础医学教学中的应用案例: 教学:帮助学生做好组会准备,使用了 Claude + Gamma.app,Claude 能节省绝大部分时间。 医疗:蛋白质结构预测和蛋白质合成,用于生成漂亮图片的 AI 可帮助科学家研究并设计新的蛋白质。 做调研:用特定 prompt ,2 小时帮同学干完 3 篇调研报告。 做调研:用 ChatGPT 做调研。 医疗:健康生物制药的研究,AI 在抗癌、抗衰老、早期疾病防治等研究应用中起重要作用。 此外,为了在医疗保健中产生真正的改变,AI 应像人类一样学习,例如成为顶尖医疗人才需要多年密集信息输入、正规学校教育和学徒实践,AI 也应通过合理的模型训练方式而非仅依靠大量数据来提升。 对于中学生学习 AI ,有以下建议: 从编程语言如 Python 、JavaScript 入手,学习编程语法、数据结构、算法等基础知识。 尝试使用 ChatGPT 、Midjourney 等 AI 生成工具,探索百度的“文心智能体平台”、Coze 智能体平台等教育平台。 学习 AI 基础知识,包括基本概念、发展历程、主要技术及在各领域的应用案例。 参与学校或社区组织的 AI 编程竞赛、创意设计大赛等活动,尝试解决实际问题。 关注 AI 发展的前沿动态,思考其对未来社会的影响。
2024-11-07
我记得你有发布过google人工智能落地的案例
以下是为您整合的相关内容: Google 最近发布了 185 个全球企业生成式 AI 应用案例,涵盖客户服务、员工管理、代码开发、数据分析、安全管理和创意领域。案例展示了 AI 如何优化客户体验、提升员工效率、加速代码处理、改善数据分析、增强安全性及简化创意生产。详情可参考:《》 Coze 汽车售后服务知识库 Bot 旨在提升服务顾问和维修技师的专业水平和维修效率。该 Bot 通过提供标准化解决方案,辅助车辆故障分析和检查,弥补专业知识不足和技术支持文档标准化问题。主要目标是提升服务质量,减少对技师经验的依赖,为汽车售后服务提供智能化支持。详情可参考:《》
2024-11-06
agent案例
以下是为您提供的关于 Agent 的相关案例和信息: 四种 Agent 设计范式: Reflection(反思):类似于 AI 的自我纠错和迭代。例如让用 Reflection 构建好的 AI 系统写代码,AI 会把代码加上检查正确性和修改的话术再返回给自己,然后反复进行,完成自我迭代。 Tool Use(工具使用):大语言模型调用插件,极大拓展了 LLM 的边界能力。 智能体的类型: 简单反应型智能体(Reactive Agents):根据当前感知输入直接采取行动,不维护内部状态和考虑历史信息。例如温控器。 基于模型的智能体(Modelbased Agents):维护内部状态,对当前和历史感知输入进行建模,能推理未来状态变化并采取行动。例如自动驾驶汽车。 目标导向型智能体(Goalbased Agents):具有明确目标,能根据目标评估行动方案并选择最优行动。例如机器人导航系统。 效用型智能体(Utilitybased Agents):不仅有目标,还能量化不同状态的效用值,选择效用最大化的行动。例如金融交易智能体。 学习型智能体(Learning Agents):能够通过与环境交互不断改进性能,学习模型、行为策略和目标函数。例如强化学习智能体。 从产品角度思考 Agent 设计: Agent 可以是一个历史新闻探索向导,身份为历史新闻探索向导,性格知识渊博、温暖亲切、富有同情心,角色是主导新闻解析和历史背景分析。为使角色更生动,可设计简短背景故事。 写好角色个性包括:编写背景故事明确起源、经历和动机;定义性格特点和说话方式风格;设计对话风格;明确核心功能和附加功能。
2024-11-05
AI制作音乐的工具和案例
以下是一些 AI 制作音乐的工具和相关案例: :无需昂贵的录音设备即可进行多轨录音。 :生成歌词、旋律、鼓点等,并且能够像任何专业 DAW 一样进行编辑和混音。 :AI 驱动的音乐制作平台,使用 AI 创作歌词、节拍和人声,然后直接从 Cassette 进行混音和发布。 :人工智能创作情感背景音乐。 :简化的音乐创作工具,帮助您为视频和播客创作音乐。 :为直播的游戏玩家提供自适应 AI 音乐。 :高质量音乐和音效,所有内容都包含版权。 :世界上第一个动态音乐引擎。 (被 Shutterstock 收购):为内容创作者提供的 AI 音乐创作工具。 :您的虚拟音乐工作室。 :即时制作音乐,与世界分享。 :智能乐谱。 :由一群艺术家、研究人员、设计师和程序员组成的团队。 (被 Apple 收购):音乐帮助品牌与受众建立更深层次的连接。 :下一代音乐制作人。 :数字宇宙的音乐解决方案,Soundtracks、AI Studio、Music Maker JAM 的制作者。 :AI 音乐创作和制作。 :自由定制高质量免版权费音乐。 :一个云平台,让音乐人和粉丝在全球范围内创作音乐、协作和互动。 :使用嵌入式软件、信号处理和 AI 帮助艺术家录制、混音和母带处理他们的现场表演。 :开源音乐生成工具。 :旨在通过 AI 赋能真实艺术家的伦理音频 AI 插件、工具和社区,而非取代他们。 :使用 AI 创作音乐和语音。 :与 DAW 集成的生成音乐工具,100%免版权费。 :为创意媒体提供的伦理音乐 AI。 :AI 音乐创作平台和探索声音宇宙的个人音乐制作人。 :通过音乐赋予你新的创作和表达方式。 :使用 AI 改变你的歌唱声音。 :为你的创造力和生产力提供 AI 音乐。 :使用 AI 生成声音、音效、音乐、样本、氛围等。 案例方面,Manglemoose 最近展示了由他们最新开发的音乐生成器制作的视频案例,该工具的名称尚未公布。bGPT 是一种具有下一个字节预测功能的模型,它几乎完美地复制了符号音乐数据的转换过程,在将 ABC 符号转换为 MIDI 格式时实现了每字节 0.0011 位的低错误率。此外,bGPT 在模拟 CPU 行为方面表现出卓越的能力,执行各种操作的准确度超过 99.99%。
2024-10-31
语音开发,都要学哪个技术,可以举个案例吗
语音开发需要学习以下技术: 1. 深度学习和自然语言处理基础: 机器学习、深度学习、神经网络等基础理论。 自然语言处理基础,如词向量、序列模型、注意力机制等。 相关课程:吴恩达的深度学习课程、斯坦福 cs224n 等。 2. 理解 Transformer 和 BERT 等模型原理: Transformer 模型架构及自注意力机制原理。 BERT 的预训练和微调方法。 掌握相关论文,如 Attention is All You Need、BERT 论文等。 3. 学习 LLM 模型训练和微调: 大规模文本语料预处理。 LLM 预训练框架,如 PyTorch、TensorFlow 等。 微调 LLM 模型进行特定任务迁移。 相关资源:HuggingFace 课程、论文及开源仓库等。 4. LLM 模型优化和部署: 模型压缩、蒸馏、并行等优化技术。 模型评估和可解释性。 模型服务化、在线推理、多语言支持等。 相关资源:ONNX、TVM、BentoML 等开源工具。 5. LLM 工程实践和案例学习: 结合行业场景,进行个性化的 LLM 训练。 分析和优化具体 LLM 工程案例。 研究 LLM 新模型、新方法的最新进展。 以下是一个语音开发的案例: 要开发一个网页,一个页面可以承载离谱生物档案的网站,每个页面都是一个离谱生物的介绍,图片,头像,文字介绍,可以跟他打字和语音对话。以及展示跟他相关的离谱事件。 1. 项目初始化与配置: 选择编程语言和技术栈: 前端:React.js 或 Vue.js,适合构建动态的用户界面,有丰富的组件库支持多媒体内容展示。 后端:Node.js 加上 Express.js,可使用 JavaScript 同时开发前端和后端,简化开发过程,其非阻塞 IO 特性适合处理实时通讯需求。 数据库:MongoDB,适合存储文档形式的数据,如离谱生物档案和相关事件。 语音处理:使用 Google Cloud SpeechtoText 和 TexttoSpeech API 实现语音与文本的相互转换,支持语音对话。 开发环境配置: IDE:Visual Studio Code,免费、开源,支持大量插件,适用于前端和 Node.js 开发。 Node.js 和 NPM:安装 Node.js 时会一并安装 npm,用于管理项目依赖。 项目结构模板:项目目录可能如下所示。 此外,为您列举一些人工智能音频初创公司: 将书面内容转化为引人入胜的音频,并实现无缝分发。 专业音频、语音、声音和音乐的扩展服务。 (被 Spotify 收购) 提供完全表达的 AI 生成语音,带来引人入胜的逼真表演。 利用合成媒体生成和检测,带来无限可能。 一键使您的内容多语言化,触及更多人群。 生成听起来真实的 AI 声音。 为游戏、电影和元宇宙提供 AI 语音演员。 为内容创作者提供语音克隆服务。 超逼真的文本转语音引擎。 使用单一 AI 驱动的 API 进行音频转录和理解。 听起来像真人的新声音。 从真实人的声音创建逼真的合成语音的文本转语音技术。 生成听起来完全像你的音频内容。 为所有人提供开放的语音技术。
2024-10-28
有哪些ai写ppt的好的案例
以下是一些 AI 写 PPT 的好的案例和相关工具: Gamma:在线 PPT 制作网站,支持输入文本和想法提示快速生成幻灯片,可嵌入多媒体格式。网址:https://gamma.app/ 美图 AI PPT:由美图秀秀开发团队推出,通过输入简单文本描述生成专业 PPT 设计,有丰富模板库和设计元素。网址:https://www.xdesign.com/ppt/ Mindshow:AI 驱动的 PPT 辅助工具,提供智能设计功能,如自动布局、图像选择和文本优化等。网址:https://www.mindshow.fun/ 讯飞智文:科大讯飞推出的 AI 辅助文档编辑工具,利用语音识别和自然语言处理技术,提供智能文本生成等功能。网址:https://zhiwen.xfyun.cn/ 此外,还有以下相关案例和工具: 案例: 营销:蓝色光标 X 京东|AIGC 代言人营销新模式,OPEN AD 时代来临 营销:定制营销报告 办公:高效做 PPT 工具: SlidesAI Decktopus AI Tome MagicSlides Presentations.AI Canva Simplified GlimmerAI Sendsteps Plus AI Microsoft 365 Copilot Canva Magic Design ChatGPT Beautiful.AI 您还可以参考熊猫 Jay 的实践教程:https://mp.weixin.qq.com/s/uVoIIcePa7WTx7GNqkAPA
2024-10-24
大模型有哪些前沿论文
以下是一些关于大模型的前沿论文: 2017 年发布的《Attention Is All You Need》,开启了大模型发展的序幕。 2018 年 Google 提出的 BERT(Bidirectional Encoder Representations from Transformers),创新性地采用双向预训练并行获取上下文语义信息及掩码语言建模,参数规模在 110M 到 340M 之间。 2018 年 OpenAI 提出的 GPT(Generative Pretrained Transformer),开创了仅使用自回归语言建模作为预训练目标的方式,参数规模达 1750 亿。 2021 年 Meta 提出的 Large LAnguage Model Approach(LLAMA),是首个开源模型,为构建更大规模、更通用的语言模型提供了方法与工具,参数规模在十亿到千亿之间。 2024 年苹果公布的《MM1:Methods,Analysis & Insights from Multimodal LLM Pretraining》,这是一个具有高达 30B 参数的多模态 LLM 系列,探讨了不同架构组件和数据选择的重要性。
2024-11-15
现在有哪些大模型效果与性能的对齐工具
目前对比不同大语言模型的性能需要考虑多个维度,包括但不限于以下方面: 1. 理解能力:评估对语言的理解程度,涵盖语法、语义、上下文和隐含意义。 2. 生成质量:检查生成文本的流畅性、相关性和准确性。 3. 知识广度和深度:衡量对广泛主题的知识掌握及特定领域的理解深度。 4. 泛化能力:测试处理未见过任务或数据时的表现。 5. 鲁棒性:应对错误输入、对抗性输入或模糊指令的能力。 6. 偏见和伦理:评估生成文本是否存在偏见,是否遵循伦理标准。 7. 交互性和适应性:在交互环境中的表现,对用户反馈的适应和持续对话能力。 8. 计算效率和资源消耗:考虑模型大小、训练和运行所需的计算资源。 9. 易用性和集成性:是否易于集成到不同应用和服务,提供的 API 和工具的易用性。 为进行有效比较,可采用以下方法: 1. 标准基准测试:使用如 GLUE、SuperGLUE、SQuAD 等标准评估基准。 2. 自定义任务:根据特定需求设计任务评估特定领域表现。 3. 人类评估:结合人类评估者的主观评价,尤其在评估文本质量和伦理问题时。 4. A/B 测试:在实际应用场景中比较不同模型表现。 5. 性能指标:使用准确率、召回率、F1 分数、BLEU 分数等量化比较。 对于大模型的安全对齐,通过对齐(指令调优)能使语言模型更好理解人类意图并增加安全保障,避免输出有害内容。对齐任务可拆解为监督微调及获取 reward model 与进行强化学习调整输出分布两部分。LLAMA2 专门使用安全有监督微调确保安全。强化学习能根据人类反馈调整分布,使模型面对训练分布外数据时能拒绝不当回答。但 Alignment 并非能防护所有安全问题,存在越狱情况使模型对齐失效。 Qwen 2 开源后模型性能超越目前所有开源模型和国内闭源模型。玉宝搞过的 LLM 在线评估中可看到国内闭源大模型的 HUMANEVAL 测评得分,可与 Qwen 2 对比,参考网址:https://www.llmrank.cn/ 。2023 年 8 月起,通义千问推出 Qwen 系列,Qwen 系列的 72B、110B 模型多次登顶 HuggingFace 的 Open LLM Leaderboard 开源模型榜单。Qwen 2 系列已上线魔搭社区 ModelScope 和阿里云百炼平台,也已上线中国大语言模型评测竞技场 Compass Arena,测评地址:https://opencompass.org.cn/arena 。Compass Arena 集齐了国内主流的 20 多款大模型,用户可选择两两“对战”。
2024-11-14
lama模型
Llama 模型相关信息如下: 基于多模态大模型给现实世界加一本说明书:后端采用 llama.cpp 挂载 LLaVA 模型,为应用提供推理服务。同时,部署了一个 Flask 应用用于数据前处理和后处理,提供 Stream 流服务。前端页面采用 HTML5,用于采集画面和用户输入。 LLM 开源中文大语言模型及数据集集合:未直接提及 Llama 模型的具体内容。 LayerStyle 副本中的 LayerUtility 中的 LaMa:根据图像遮罩擦除物体,是对 IOPaint 的封装,由 SOTA AI 模型提供支持。提供 LaMa 等模型以及多种擦除方法,可下载模型文件放到指定位置,并对节点选项进行了说明,如选择模型或方法、设备选择、遮罩反转、遮罩扩张幅度、遮罩模糊幅度等。
2024-11-14
gpt4o视觉模型
GPT4o 是 OpenAI 推出的模型。开发人员现在可在 API 中将其作为文本和视觉模型进行访问。与 GPT4 Turbo 相比,具有速度快 2 倍、价格减半、速率限制高出 5 倍的优势。未来几周计划向 API 中的一小群受信任的合作伙伴推出对其新音频和视频功能的支持。 GPT4o(“o”代表“omni”)是迈向更自然人机交互的一步,能接受文本、音频和图像的任意组合作为输入,并生成文本、音频和图像输出的任意组合。它在 232 毫秒内可响应音频输入,平均为 320 毫秒,与人类响应时间相似。在英语文本和代码上的 GPT4 Turbo 性能相匹配,在非英语语言的文本上有显著改进,在 API 中更快且便宜 50%,在视觉和音频理解方面表现出色。 在 GPT4o 之前,语音模式由三个独立模型组成的管道实现,存在信息丢失等问题。而 GPT4o 是在文本、视觉和音频上端到端训练的新模型,所有输入和输出都由同一个神经网络处理,但对其能做什么及局限性仍在探索。
2024-11-14
2023年大模型发展有什么重要技术
2023 年大模型发展的重要技术包括以下方面: 模型发布:百川智能发布 Baichuan2—Turbo,字节云雀大模型等。 涉及领域:涵盖通用、医疗、汽车、教育、金融、工业、文化/零售/交通等多个行业。 关键进展:从 22 年 11 月 ChatGPT 的惊艳面世,到 23 年 3 月 GPT4 作为“与 AGI(通用人工智能)的第一次接触”,再到 23 年末多模态大模型的全面爆发。 多模态大模型的应用: 优点:适应性极好,方便适应各种奇葩需求;对算法要求降低,大部分功能由大模型提供,特别是非结构化信息处理;API 访问方式简化了边缘设备要求,方便在多种设备适配。 缺点:推理时长是最大障碍,传统目标检测或人脸识别优化后能达到 100 300ms,而大模型动则需要 10 秒的延时,限制了许多场景;模型的幻象和错误率较高,在多链路复杂应用中迅速变得不可行;在大多数生产模式下,仍需使用云服务数据中心,存在隐私问题;商业私有化部署是刚需,当下开源模型与 GPT4 有代差。
2024-11-14
给出指令,让AI帮我执行的网页,app,大模型,小程序
以下为一些可以给出指令让 AI 帮您执行的网页、app、大模型和小程序: 1. Midjourney:在生成 UI 界面方面表现出色。如果想指定生成某个页面(如首页、登录页等),只需添加页面指令描述,例如“landing page”(社交平台登录页)、“Profile Page”(人力资源类产品的个人资料页)。其产出的设计图视觉效果不错,适合在 APP 设计的初始阶段提供灵感和创意,但目前直接用于落地开发仍有距离。 2. 很多 AI 网站可以创建“智能体”,例如您可以为其配置提示词、知识库、能力配置等,让其为您工作,如出试题、找资料、画插图、专业翻译等。 3. 在使用生成式人工智能时,要把大模型当作大学生而非专家,“实习生”只能执行任务,需要您指明方向、拆解任务、教其一步步操作,像导演一样编排具体流程、检查结果、修改流程并反复迭代。提示语的核心是逻辑,要将复杂任务拆分成科学合理的步骤,且确保每个步骤的结果能为后续步骤提供基础。同时,即使在 Prompt 里指明了步骤,如果没有打印出来,也无法达到理想效果。
2024-11-13
在生成刺绣图片上表现优秀的AI工具
以下是在生成刺绣图片方面可能表现优秀的 AI 工具,以及一些相关的图生图 AI 工具供您参考: 图生图 AI 工具: Artguru AI Art Generator:在线平台,生成逼真图像,给设计师提供灵感,丰富创作过程。 Retrato:AI 工具,将图片转换为非凡肖像,拥有 500 多种风格选择,适合制作个性头像。 Stable Diffusion Reimagine:新型 AI 工具,通过稳定扩散算法生成精细、具有细节的全新视觉作品。 Barbie Selfie Generator:专为喜欢梦幻童话风格的人设计的 AI 工具,将上传的照片转换为芭比风格,效果超级好。 不过目前尚未有专门针对生成刺绣图片的特定 AI 工具。这些 AI 模型通过组合技术如扩散模型、大型视觉转换器等,可以根据文本或参考图像生成具有创意且质量不错的相似图像输出,但仍有一些局限,如偶尔会出现性能不稳定、生成内容不当等问题。
2024-11-15
优秀的数据集网站
以下为一些优秀的数据集网站及相关数据集介绍: 文本分类: ,更新日期为 43040,暂时不能下载,已经联系作者,等待反馈。 ,更新日期 43160。 ,更新日期 43160。 ,更新日期 43160。 ,更新日期 43160。 QA: ,更新日期 43721,由微软研究院提供。 ,更新日期未知,由斯坦福提供。 ,更新日期未知,由 Facebook 提供。 文本匹配: ,更新日期 43412,来源为寻药寻医网和国防科技大学信息系统及管理学院。 ,更新日期 42999,由唐善成、白云悦、马付玉及西安科技大学提供。
2024-11-15
优秀的AI图像生成产品
以下是一些优秀的 AI 图像生成产品: 1. Artguru AI Art Generator:这是一个在线平台,能够生成逼真图像,为设计师提供灵感,丰富创作过程。其在不同月份的访问量排名较为靠前,且有一定的变化。 2. Retrato:AI 工具,可将图片转换为非凡肖像,拥有 500 多种风格选择,适合制作个性头像。 3. Stable Diffusion Reimagine:新型 AI 工具,通过稳定扩散算法生成精细、具有细节的全新视觉作品。 4. Barbie Selfie Generator:专为喜欢梦幻童话风格的人设计的 AI 工具,能将上传的照片转换为芭比风格,效果出色。 需要注意的是,这些 AI 模型通过组合技术如扩散模型、大型视觉转换器等,可以根据文本或参考图像生成具有创意且质量不错的相似图像输出,但仍存在一些局限,如偶尔会出现性能不稳定、生成内容不当等问题。
2024-10-30
有哪些优秀的智能体案例
以下是一些优秀的智能体案例: 在企业自动化方面,新兴的智能体公司有(用于财务后勤),以及横跨销售、安全运营和供应链等领域的许多其他智能体。 在 C 端,社交方向有用户注册后先捏一个自己的智能体,然后让其与他人的智能体聊天,两个智能体聊到一起后再真人介入的有趣场景,还有借 Onlyfans 入局打造个性化聊天的创业公司。 在 B 端,如果字节扣子和腾讯元器是面向普通人的低代码平台,类似 APP 时代的个人开发者,那还有帮助 B 端商家搭建智能体的机会。常见的智能体开发平台有字节的“扣子”(Coze)、Dify.AI 等。
2024-10-07
帮忙推荐AI优秀的书籍,让我们快速入门
以下是为您推荐的能够帮助您快速入门 AI 的优秀书籍: 《陈财猫:推荐书单了解各个领域的知识,并在恰当的时候调用它们》:这是一个涵盖多个学科的书单,包括心理学、人工智能、经济学、社会学、生态学、哲学、设计学等 13 个学科。其特点包括权威准确,多为大学教材或导论书籍,不乏经典大师之作;有框架成体系,能通过阅读构建起完整知识框架;好读,适合初学者,即使对该领域没有了解也能看懂并入门。 《写给不会代码的你:20 分钟上手 Python + AI》: Python 方面:推荐《Python 学习手册》,名声在外;《Python 编程》,对新手友好。 AI 方面:推荐《人类简史》,其中“认知革命”的相关章节令人获益匪浅;《深度学习实战》,按脉络梳理了 ChatGPT 爆发前的 AI 信息与实践。
2024-09-17
通往AGI之路整理了哪些优秀的AI网站列表
以下是通往 AGI 之路整理的一些优秀的 AI 网站:
2024-09-12