Navigate to WaytoAGI Wiki →
Home/Question List/Question Detail

大模型家族、类别、应用场景

Answer

大模型主要分为以下两类:

  1. 大型语言模型:专注于处理和生成文本信息,主要应用于自然语言处理任务,如文本翻译、文本生成、情感分析等。其训练主要依赖大量的文本数据。
  2. 大型多模态模型:能够处理包括文本、图片、音频等多种类型的信息,可以应用于更广泛的领域,例如图像识别与描述、视频分析、语音识别与生成等。其训练需要多种类型的数据,包括文本、图片、音频等。

此外,还有相对规模较小的模型,这些模型通常是为完成特定任务而设计的。

大模型的应用场景包括:

  1. 对于回答的精准性、全面性要求较高的问题,不同的大模型各有优劣,可兼听获取更好的答案。
  2. 需要多方交叉验证,规避模型幻觉的客观事实类问题。

常用的模型网站有:

  1. Civitai|Stable Diffusion models,embeddings,hypernetworks and more
  2. Models-Hugging Face
  3. SD-WebUI资源站
  4. 元素法典 AI 模型收集站-AI 绘图指南 wiki(aiguidebook.top)
  5. AI 绘画模型博物馆(subrecovery.top)

下载模型后,不同类型的模型放置位置不同:

  1. 大模型(Ckpt):放入 models\Stable-diffusion
  2. VAE 模型:一些大模型需要配合 vae 使用,对应的 vae 同样放置在 models\Stable-diffusion 或 models\VAE 目录,然后在 webui 的设置栏目选择。
  3. Lora/LoHA/LoCon 模型:放入 extensions\sd-webui-additional-networks\models\lora,也可以在 models/Lora 目录
  4. Embedding 模型:放入 embeddings 目录
Content generated by AI large model, please carefully verify (powered by aily)

References

十七问解读生成式人工智能

大型模型主要分为两类:一是大型语言模型,专注于处理和生成文本信息;二是大型多模态模型,这类模型能够处理包括文本、图片、音频等多种类型的信息。[heading1]问题八、大型多模态模型与大型语言模型有何不同?[content]1.二者处理的信息类型不同。大型语言模型专注于处理和生成文本信息,通过分析大量的文本数据来理解和生成自然语言。而大型多模态模型不仅能处理文本信息,还能理解和生成图片、音频等多种类型的信息,这使得它们能够在更多样化的任务中应用。2.应用场景也有所不同。大型语言模型主要用于自然语言处理任务,如文本翻译、文本生成、情感分析等。而大型多模态模型由于能够处理多种信息类型,可以应用于更广泛的领域,例如图像识别与描述、视频分析、语音识别与生成等。3.在数据需求方面也有所不同。大型语言模型主要依赖于大量的文本数据进行训练,而大型多模态模型则需要多种类型的数据进行训练,包括文本、图片、音频等,以便在不同模态间建立关联。[heading1]问题九、有了大模型,是不是还有小模型?[content]当我们谈论所谓的“小模型”时,实际上是在相对地比较。与那些拥有海量参数和训练数据的大型模型相比,这些模型的规模显得更小一些。因此,在日常交流中,我们习惯将它们称作“小模型”。但如果要更精确地描述,这些模型其实是被设计来完成特定任务的,比如最初用于图像分类的模型,只能分辨是或不是某一个东西(比如猫🐱、狗🐶)。

军师联盟BOT|同时询问多个大模型并返回汇总梳理后的结果

原文链接:https://developer.volcengine.com/articles/7386930202595000357#heading19作者:时髦Simon[heading1]一,应用简介[content][heading3]主要功能[content]由5个不同大模型组成的【军师联盟】为您倾情答疑解惑!我们不仅帮您提炼他们“英雄所见略同”的【共识意见】还会为您罗列他们“八仙过海各显神通”的【差异看法】[heading3]效果示例[heading1]二,适用场景[content]对于聊天大模型的深度用户来说,把同一个问题让不同的大模型去解答是一个高频的操作。主要场景有:1.对回答的精准性、全面性要求较高的问题。因为不同的大模型在解决不同的问题时都各有优劣,兼听则明,偏听则暗。2.需要多方交叉验证,规避模型幻觉的客观事实类问题。

SD新手:入门图文教程

模型能够有效地控制生成的画风和内容。常用的模型网站有:[Civitai|Stable Diffusion models,embeddings,hypernetworks and more](https://link.zhihu.com/?target=https%3A//civitai.com/)>[Models-Hugging Face](https://link.zhihu.com/?target=https%3A//huggingface.co/models)>[SD-WebUI资源站](https://link.zhihu.com/?target=https%3A//www.123114514.xyz/models/ckpt)>[元素法典AI模型收集站-AI绘图指南wiki(aiguidebook.top)](https://link.zhihu.com/?target=https%3A//aiguidebook.top/index.php/model/)>[AI绘画模型博物馆(subrecovery.top)](https://link.zhihu.com/?target=https%3A//aimodel.subrecovery.top/)[heading3]模型安装[content]下载模型后需要将之放置在指定的目录下,请注意,不同类型的模型应该拖放到不同的目录下。模型的类型可以通过[Stable Diffusion法术解析](https://link.zhihu.com/?target=https%3A//spell.novelai.dev/)检测。大模型(Ckpt):放入models\Stable-diffusionVAE模型:一些大模型需要配合vae使用,对应的vae同样放置在models\Stable-diffusion或models\VAE目录,然后在webui的设置栏目选择。Lora/LoHA/LoCon模型:放入extensions\sd-webui-additional-networks\models\lora,也可以在models/Lora目录Embedding模型:放入embeddings目录

Others are asking
AI应用的类别
以下是一些 AI 应用的类别: 1. AI 摄影参数调整助手:使用图像识别、数据分析技术,在摄影 APP 中实现根据场景自动调整摄影参数,市场规模达数亿美元。 2. AI 音乐情感分析平台:运用机器学习、音频处理技术,通过音乐情感分析软件分析音乐的情感表达,市场规模达数亿美元。 3. AI 家居智能照明系统:借助物联网技术、机器学习,如小米智能照明系统实现家居照明的智能化控制,市场规模达数十亿美元。 4. AI 金融风险预警平台:利用数据分析、机器学习,通过金融风险预警软件提前预警金融风险,市场规模达数十亿美元。 5. AI 旅游路线优化平台:采用数据分析、自然语言处理,如马蜂窝路线优化功能根据用户需求优化旅游路线,市场规模达数亿美元。 6. AI 游戏道具推荐系统:使用数据分析、机器学习,在游戏内商城推荐功能中根据玩家需求推荐游戏道具,市场规模达数亿美元。 7. AI 天气预报分时服务:运用数据分析、机器学习,如彩云天气分时预报提供精准的分时天气预报,市场规模达数亿美元。 8. AI 医疗病历分析平台:借助数据分析、自然语言处理,通过医渡云病历分析系统分析医疗病历,辅助诊断,市场规模达数十亿美元。 9. AI 会议发言总结工具:利用自然语言处理、机器学习,如讯飞听见会议总结功能自动总结会议发言内容,市场规模达数亿美元。 10. AI 书法作品临摹辅助工具:采用图像识别、数据分析,在书法临摹软件中帮助书法爱好者进行临摹,市场规模达数亿美元。 11. AI 菜谱口味调整工具:运用自然语言处理、数据分析,如下厨房口味调整功能根据用户反馈调整菜谱口味,市场规模达数亿美元。 12. AI 语言学习纠错平台:借助自然语言处理、机器学习,如英语流利说纠错功能帮助语言学习者纠正错误,市场规模达数十亿美元。 13. AI 电影剧情分析系统:利用数据分析、自然语言处理,如豆瓣电影剧情分析工具分析电影剧情,提供深度解读,市场规模达数亿美元。 14. AI 办公文件分类系统:采用数据分析、机器学习,如腾讯文档分类功能自动分类办公文件,方便管理,市场规模达数亿美元。 15. AI 美容护肤方案定制平台:借助图像识别、数据分析,如美丽修行定制方案功能根据用户肤质定制护肤方案,市场规模达数亿美元。
2025-02-05
如何训练一个自己的模型用来识别不同的图片类别
训练自己的模型来识别不同的图片类别可以参考以下方法: 对于扩散模型(如 Midjourney): 强大的扩散模型训练往往消耗大量 GPU 资源,推理成本高。在有限计算资源下,可在强大预训练自动编码器的潜在空间中应用扩散模型,以在复杂度降低和细节保留间达到平衡,提高视觉保真度。引入交叉注意力层可使其成为灵活的生成器,支持多种条件输入。 Midjourney 会定期发布新模型版本以提升效率、连贯性和质量。最新的 V5 模型具有更广泛的风格范围、更高的图像质量、更出色的自然语言提示解读能力等。 用 SD 训练贴纸 LoRA 模型: 对于原始形象,可通过 MJ 关键词生成不同风格的贴图,总结其特征。注意关键词中对颜色的限制,保持正面和负面情绪数据比例平衡。若训练 25626 大小的表情包,初始素材可能够用,若训练更高像素图片,可能需进一步使用 MJ 垫图和高清扩展功能。 进行高清化时,从 256 到 1024 分辨率,输入左图并加入内容和风格描述,挑选合适的图片。 多模态模型(以 StableDiffusion 为例): 多模态模型包括文生图、图生图、图生视频、文生视频等,底层逻辑通常从生图片源头开始。 扩散模型(如 StableDiffusion 中使用的)的训练是对图片加减噪点的过程。先对海量带有标注文字描述的图片逐渐加噪点,模型学习每一步图片向量值和文字向量值的数据分布演变规律,完成训练。输入文字后,模型根据文字向量指导充满噪点的图片减噪点生成最终图片。扩散模型加减噪点方式与大脑构思图片方式类似,且多模态模型会关联文字向量值和图片像素点向量值。
2025-01-31
大模型家族、类别、应用场景
大模型主要分为以下两类: 1. 大型语言模型:专注于处理和生成文本信息,主要应用于自然语言处理任务,如文本翻译、文本生成、情感分析等。 2. 大型多模态模型:能够处理包括文本、图片、音频等多种类型的信息,可以应用于更广泛的领域,例如图像识别与描述、视频分析、语音识别与生成等。 大型多模态模型与大型语言模型的不同点包括: 1. 处理的信息类型不同:大型语言模型专注于文本信息,大型多模态模型能处理多种类型信息。 2. 应用场景不同:大型语言模型主要用于自然语言处理任务,大型多模态模型应用领域更广泛。 3. 数据需求不同:大型语言模型主要依赖大量文本数据训练,大型多模态模型需要多种类型数据训练。 对于聊天大模型的深度用户,把同一个问题让不同的大模型解答是高频操作,主要适用于以下场景: 1. 对回答的精准性、全面性要求较高的问题,因为不同大模型在解决不同问题时各有优劣。 2. 需要多方交叉验证,规避模型幻觉的客观事实类问题。 常用的模型网站有: 1. 2. 3. 4. 5. 下载模型后需要将之放置在指定的目录下,不同类型的模型放置目录不同: 1. 大模型(Ckpt):放入 models\\Stablediffusion 2. VAE 模型:一些大模型需要配合 vae 使用,对应的 vae 同样放置在 models\\Stablediffusion 或 models\\VAE 目录,然后在 webui 的设置栏目选择。 3. Lora/LoHA/LoCon 模型:放入 extensions\\sdwebuiadditionalnetworks\\models\\lora,也可以在 models/Lora 目录 4. Embedding 模型:放入 embeddings 目录 模型的类型可以通过检测。
2025-01-06
大模型家族、类别、应用场景
大模型主要分为以下两类: 1. 大型语言模型:专注于处理和生成文本信息,主要应用于自然语言处理任务,如文本翻译、文本生成、情感分析等。 2. 大型多模态模型:能够处理包括文本、图片、音频等多种类型的信息,可以应用于更广泛的领域,例如图像识别与描述、视频分析、语音识别与生成等。 大型多模态模型与大型语言模型的不同点包括: 1. 处理的信息类型不同:大型语言模型专注于文本,大型多模态模型能处理多种类型信息。 2. 应用场景不同:大型语言模型主要用于自然语言处理任务,大型多模态模型应用领域更广泛。 3. 数据需求不同:大型语言模型主要依赖大量文本数据训练,大型多模态模型需要多种类型数据训练。 对于聊天大模型的深度用户,常见的应用场景有: 1. 对回答的精准性、全面性要求较高的问题,因为不同大模型各有优劣。 2. 需要多方交叉验证,规避模型幻觉的客观事实类问题。 常用的模型网站有: 1. 2. 3. 4. 5. 下载模型后,不同类型的模型放置位置如下: 1. 大模型(Ckpt):放入 models\\Stablediffusion 2. VAE 模型:一些大模型需要配合 vae 使用,对应的 vae 同样放置在 models\\Stablediffusion 或 models\\VAE 目录,然后在 webui 的设置栏目选择。 3. Lora/LoHA/LoCon 模型:放入 extensions\\sdwebuiadditionalnetworks\\models\\lora,也可以在 models/Lora 目录 4. Embedding 模型:放入 embeddings 目录
2025-01-06
帮我生成一个 AI 写作领域的产业图谱,只关注应用层,按照产品的类别来分类和举例
以下是 AI 写作领域应用层的产业图谱分类及举例: |序号|产品|主题|使用技术|市场规模|一句话介绍| ||||||| |1|Grammarly、秘塔写作猫|AI 智能写作助手|自然语言处理|数十亿美元|利用 AI 技术辅助用户进行高质量写作。| |2|阿里小蜜等电商客服|AI 智能客服外包服务|自然语言处理、机器学习|数十亿美元|为企业提供智能客服解决方案。|
2024-10-28
ollama是什么,使用场景有什么
Ollama 是一个开源的框架,旨在简化在本地运行大型语言模型(LLM)的过程。 它具有以下特点和优势: 1. 支持多种大型语言模型:包括通义千问、Llama 2、Mistral 和 Gemma 等,适用于不同应用场景。 2. 易于使用:适用于 macOS、Windows 和 Linux 系统,支持 CPU 和 GPU,能让用户轻松在本地环境中启动和运行大模型。 3. 模型库:提供丰富的模型库,用户可从中下载不同参数和大小的模型以满足不同需求和硬件条件,通过 https://ollama.com/library 查找。 4. 自定义模型:用户能通过简单步骤自定义模型,如修改温度参数调整创造性和连贯性,或设置特定系统消息。 5. API 和集成:提供 REST API 用于运行和管理模型,以及与其他应用程序的集成选项。 6. 社区贡献丰富:包括多种集成插件和界面,如 Web 和桌面应用、Telegram 机器人、Obsidian 插件等。 总的来说,Ollama 是一个高效、功能齐全的大模型服务工具,不仅适用于自然语言处理研究和产品开发,也适合初学者或非技术人员使用,特别是那些希望在本地与大型语言模型交互的用户。 其使用场景包括但不限于: 1. 自然语言处理研究。 2. 产品开发。 安装方法:官方下载地址为 https://ollama.com/download 。安装完成后,在 macOS 上启动 ollama 应用程序,在 Linux 上通过 ollama serve 启动,可通过 ollama list 确认是否安装成功。运行大模型时,在命令行中输入相应命令即可,模型会自动下载到本地。在 Python 程序中使用时,需确保 ollama 服务已开启并下载好模型。
2025-02-22
AI编程的落地场景是什么
以下是 AI 编程的一些落地场景: 1. 智能体开发:从最初只有对话框的 chatbot 到具有更多交互方式的应用,低代码或零代码的工作流在某些场景表现较好。 2. 证件照应用:以前实现成本高,现在可通过相关智能体和交互满足客户端需求。 3. 辅助编程: 适合原型开发、架构稳定且模块独立的项目。 对于像翻译、数据提取等简单任务,可通过 AI 工具如 ChatGPT 或 Claude 解决,无需软件开发。 支持上传图片、文档,执行代码,甚至生成视频或报表,大幅扩展应用场景。 4. 自动化测试:在模块稳定后引入,模块变化频繁时需谨慎。 5. 快速迭代与发布 MVP:尽早发布产品,不追求完美,以天或周为单位快速迭代。 需要注意的是,AI 编程虽强,但目前适用于小场景和产品的第一个版本,在复杂应用中可能导致需求理解错误从而使产品出错。在进度不紧张时可先尝试新工具,成熟后再大规模应用。同时,压缩范围,定义清晰的 MVP(最小可行产品),先完成一个 1 个月内可交付的版本,再用 1 个月进行优化迭代。
2025-02-21
不同ai模型的应用场景
以下是不同 AI 模型的应用场景: 基于开源模型: Civitai、海艺 AI、liblib 等为主流创作社区,提供平台让用户利用 AI 技术进行图像创作和分享,用户无需深入了解技术细节即可创作出较高质量的作品。 基于闭源模型: OpenAI 的 DALLE 系列: 发展历史:2021 年初发布 DALLE,2022 年推出 DALLE 2,2023 年发布 DALLE 3,不断提升图像质量、分辨率、准确性和创造性。 模型特点:基于变换器架构,采用稀疏注意力机制,DALLE 2 引入 CLIP 模型提高文本理解能力,DALLE 3 优化细节处理和创意表现。 落地场景:2C 方面可控性强于 Midjourney,但复杂场景和细节处理能力不如 Midjourney;2B 方面与 Midjourney 场景类似。 商业化现状:通过提供 API 服务,使企业和开发者能集成到应用和服务中,采取分层访问和定价策略。 伦理和合规性:加强对生成内容的审查,确保符合伦理和法律标准。 大模型: 文本生成和内容创作:撰写文章、生成新闻报道、创作诗歌和故事等。 聊天机器人和虚拟助手:提供客户服务、日常任务提醒和信息咨询等服务。 编程和代码辅助:用于代码自动补全、bug 修复和代码解释。 翻译和跨语言通信:促进不同语言背景用户之间的沟通和信息共享。 情感分析和意见挖掘:为市场研究和产品改进提供数据支持。 教育和学习辅助:创建个性化学习材料、自动回答学生问题和提供语言学习支持。 图像和视频生成:如 DALLE 等模型可根据文本描述生成相应图像,未来可能扩展到视频内容生成。 游戏开发和互动体验:创建游戏中的角色对话、故事情节生成和增强玩家沉浸式体验。 医疗和健康咨询:理解和回答医疗相关问题,提供初步健康建议和医疗信息查询服务。 法律和合规咨询:帮助解读法律文件,提供合规建议,降低法律服务门槛。 这些只是部分应用场景,随着技术进步和模型优化,AI 模型在未来可能会拓展到更多领域和场景。同时,也需注意其在隐私、安全和伦理方面的挑战。
2025-02-21
能在局域内网,没有网络,离线的场景使用的AI编程工具,可以是单独运行的,也可以是JetBrains IDEs中作为插件使用的
以下是一些可以在局域内网、没有网络、离线场景使用的 AI 编程工具: 1. PyCharm:是 JetBrains 推出的智能代码补全工具,支持 Java、Python 和 JavaScript 等多种语言。因其高准确性著称,帮助开发人员节省编程时间。价格:起价每月 24.90 美元。 2. AIXcoder:AI 驱动的编程助手,支持 Java、Python 和 JavaScript 等语言。它提供了自动任务处理、智能代码补全、实时代码分析以及输入时的错误检查功能。价格:暂无信息。 3. Ponicode:AI 驱动的代码工具,旨在帮助开发人员优化编码流程。利用自然语言处理和机器学习,根据用户的描述生成代码。由 CircleCI 维护。 4. Jedi:开源的代码补全工具,主要作为 Python 静态分析工具的插件运行,适用于各种编辑器和 IDE。价格:免费。 此外,还有以下相关工具: 1. Cursor:网址:https://www.cursor.com/ ,通过对话获得代码。 2. Deepseek:网址:https://www.deepseek.com/zh ,方便国内访问,网页登录方便,目前完全免费。 3. 通义灵码:在 Pytharm 中,“文件”“设置”“插件”红色框位置搜索“通义灵码”进行安装(目前免费)。 4. JetBrains 自身的助手插件:在 Pytharm 中,“文件”“设置”“插件”红色框位置搜索“Jetbrains AI assistant”进行安装(收费,目前有 7 天免费试用)。 5. AskCodi:一款 AI 代码助手,提供各种应用程序用于代码生成、单元测试创建、文档化、代码转换等。由 OpenAI GPT 提供支持,可以作为 Visual Studio Code、Sublime Text 和 JetBrains 的 IDE 的扩展/插件使用。 6. ODIN(Obsidian 驱动信息网络):是一个插件,可以在 Obsidian 中使用。它提供了一些功能,包括通过图形提示栏进行 LLM 查询、图形可视化、下拉菜单功能等。安装 ODIN 需要先安装 Obsidian 并按照指示进行插件的安装和启用。
2025-02-21
在没有明确答案的场景,怎么做RL?
在没有明确答案的场景下做 RL 可以参考以下内容: 分析关键要素:包括状态空间、行为空间和奖励模型。 方法推测:如采用类似 AlphaGo/AlphaZero 的概率较大。原因包括 OpenAI 员工受相关理念影响,且有将搜索方法和 LLM 融合的尝试。 对于领域泛化能力:o1 的思考能力能否泛化到 Reward 不好量化的领域是关键。OpenAI 可能已找到一些非数理学科的 Reward 定义方法,例如针对写作文列出好文章的标准作为 Reward 标准。 以 DeepSeek R1 为例:在“冷启动”阶段通过少量人工精选的思维链数据初步引导,随后主要依靠强化学习,在奖励系统(准确率奖励和格式奖励)的反馈下自主探索推理策略,实现自我进化。Alpha Zero 完全摒弃人类数据进行纯强化学习,展现出创造性风格。DeepSeek R1 更注重学习推理底层策略,培养通用推理能力以实现跨领域运用。
2025-02-21
waytoAGI解决的核心场景是什么,有哪些应用案例
WaytoAGI 是一个 AI 开源社区,其核心场景包括: 1. 提供 AI 领域的最新进展、教程、工具和一线实战案例,引领并推广开放共享的知识体系。 2. 倡导共学共创等形式,孵化了如 AI 春晚、离谱村等大型共创项目。 3. 作为思想交流平台,汇聚行业顶尖创作者和 KOL。 应用案例方面: 1. 在上海国际 AIGC 大赛中,如《嘉定汇龙》项目中,利用多种 AI 技术如 stable diffusion 艺术字生成、comfyui 转绘、steerablemotion、runway 文生视频、图生视频等,并通过合成剪辑完成作品。 2. 社区内有像三思这样的高手分享具体教程。
2025-02-21
我是高中历史老师,我想知道用什么AI模型可以“将自己的PPT变成一篇论文”
目前在将 PPT 转换为论文方面,GPT 模型可能会有所帮助。例如,在“教育:一个历史老师用 GPT 给学生讲课”的案例中,学生利用 GPT 相关功能进行模拟体验,并根据要求撰写论文,包括分析模拟的准确性、进行事实核查等。 另外,Claude 模型也能在相关工作中发挥作用。比如可以帮助快速寻找符合条件的论文、提取精炼论文中的信息,甚至找到适合的 PPT 制作工具并指导使用。 此外,一些神经网络大模型通过预测下一个字的方式生成文字,这种方式具有一定的创意性,且可拓展到图像、声音等领域。但需要注意的是,AI 的预测不一定保证完全正确。
2025-02-22
ai绘画中的模型是什么意思
在 AI 绘画中,模型具有以下含义和特点: 1. 大模型如同主菜或主食,是生成图片的基础框架,决定了图片的基本风格和内容。 2. 小模型(Lora)如同佐料或调料包,能够帮助快速实现特定风格或角色的绘制,比如改变人物形象、画风,添加模型中原本没有的元素,如绘制特定的国内节日元素。 3. 模型的选择与搭配很重要,大模型和 Lora 要基于同一个基础模型才能搭配使用,以生成各种风格的图片。 4. 常用的模型网站有:。 5. 下载模型后需要将之放置在指定的目录下,不同类型的模型放置位置不同。例如,大模型(Ckpt)放入 models\\Stablediffusion;VAE 模型放置在 models\\Stablediffusion 或 models\\VAE 目录,然后在 webui 的设置栏目选择;Lora/LoHA/LoCon 模型放入 extensions\\sdwebuiadditionalnetworks\\models\\lora,也可以在 models/Lora 目录;Embedding 模型放入 embeddings 目录。模型的类型可以通过检测。
2025-02-22
美国有哪些语言模型
美国的语言模型主要有 OpenAI 的 GPT4 、谷歌 DeepMind 与纽约大学团队开发的语言模型、谷歌的 LaMDA 等。其中,Llama 3.1 是较大的版本,在推理、数学、多语言和长上下文任务中能与 GPT4 相抗衡。此外,还包括被评估的如 GPT3 、PaLM 等语言模型。
2025-02-22
学习AI大模型
以下是关于学习 AI 大模型的相关知识: 1. 概念 生成式 AI 生成的内容称为 AIGC。 2. 概念与关系 AI 即人工智能。 机器学习是电脑找规律学习,包括监督学习、无监督学习、强化学习。 监督学习:使用有标签的训练数据,算法目标是学习输入和输出之间的映射关系,包括分类和回归。 无监督学习:学习的数据没有标签,算法自主发现规律,经典任务如聚类,例如让模型将一堆新闻文章根据主题或内容特征分成相似特征的组。 强化学习:从反馈中学习,以最大化奖励或最小化损失,类似训小狗。 深度学习是一种参照人脑有神经网络和神经元(因有很多层所以叫深度)的方法,神经网络可用于监督学习、无监督学习、强化学习。 生成式 AI 可以生成文本、图片、音频、视频等内容形式。 LLM 是大语言模型,对于生成式 AI,生成图像的扩散模型不是大语言模型;对于大语言模型,生成只是其中一个处理任务,如谷歌的 BERT 模型可用于语义理解(不擅长文本生成),像上下文理解、情感分析、文本分类。 3. 技术里程碑 2017 年 6 月,谷歌团队发表论文《Attention is All You Need》,首次提出 Transformer 模型,它完全基于自注意力机制(SelfAttention)处理序列数据,不依赖于循环神经网络(RNN)或卷积神经网络(CNN)。
2025-02-22
适合当作搜索引擎的大模型是什么?
以下是一些适合当作搜索引擎的大模型: Perplexity.ai:本质是个可联网的搜索引擎,完全免费,支持网页版、APP(目前支持 iOS,安卓即将推出)、Chrome 插件。网页版能力全面,能够根据提问从互联网上搜寻信息并给出总结后的答案。很多 Chat GPT 中调用插件才能解决的事情(联网查询、旅行、住宿、商品推荐)靠 Perplexity 就可以解决了。能给出信息来源网址,根据搜索内容给出继续对话的问题建议。支持筛选 Academic(包含不同领域的学术研究论文)、Wolfram|Alpha(包含数学、科学、经济学、语言学、工程学、社会科学、文化等领域的知识库)、Wikipedia(维基百科)、Youtube、Reddit(娱乐、社交和新闻网站)、News 进行搜索。访问地址: 。但要注意不要在开着浏览器翻译能力的同时使用,很可能会报错。另外,不使用 Copilot 能力的效果比较灾难,无法给出具体的酒店建议,只是列举了几个可以查酒店的渠道。
2025-02-22
2024 年值得关注的中文大模型全景图
2024 年,AI 大模型在生产和生活中落地速度迅猛,被称为国内大模型落地元年。以下是一些值得关注的情况: 国内大模型行业形成了以百度、阿里、字节等科技大厂和创业“AI 六小虎”为主要玩家的竞争格局。 2024 年 1 至 11 月,国内大模型中标项目数量和金额大幅增长,中标项目共 728 个,是 2023 年全年的 3.6 倍;中标金额 17.1 亿元,是 2023 年全年的 2.6 倍。中标项目数前五的行业分别是运营商、能源、教育、政务、金融。 厂商方面,百度以 40 个中标项目数、2.74 亿元的中标金额排名所有厂商之首,科大讯飞居第二。 在金融行业,百度以 14 个中标数量、3734.4 万元中标金额排名第一;科大讯飞居第二。 在智能终端行业,超半数手机厂商都在使用文心大模型,包括三星、荣耀、vivo、OPPO、小米等主流手机品牌;上汽大众、吉利汽车、蔚来汽车、长安汽车等十余家车企已接入百度文心大模型。 百度表现突出,截至 11 月,其文心大模型日均调用量超过 15 亿次,千帆平台帮助客户精调了 3.3 万个模型、开发了 77 万个企业应用。今年三季度财报披露,百度智能云营收达 49 亿元,同比增长 11%。 2024 年 9 月 AI 行业大事记: 9 月 12 日:李继刚再现神级 Prompt,玩法持续翻新;Mistral 发布首个多模态模型 Pixtral 12B。 9 月 13 日:商汤 Vimi 相机开放微博小程序;元象开源中国最大 MoE 大模型 XVERSEMoEA36B;OpenAI 发布 o1 模型。 9 月 14 日:人工智能生成合成内容标识办法;Jina AI 发布 ReaderLM、Jina Embeddings V3。 9 月 18 日:DeepSeek 发文庆祝登上 LMSYS 榜单国产第一,几小时后 Qwen 新模型表示不服。 9 月 19 日:云栖大会;通义万相 AI 生视频上线;快手可灵 1.5 模型新增运动笔刷能力。 9 月 20 日:腾讯元器智能体对外发布;秘塔科技产品经理 JD 走红 AI 圈;阶跃跃问接入 Step2 万亿参数 MoE 语言大模型。 9 月 21 日:大模型测试基准研究组正式成立。 9 月 23 日:钉钉 365 会员上线。 9 月 24 日:讯飞星火 API 全新升级;豆包大模型全系列发布&更新。 9 月 25 日:Vidu API 正式开放,加速企业级视频创作;OpenAI 发布高级语音功能;西湖心辰开源 WestlakeOmni。 大模型进入产业落地后,除了大模型本身能力质量要过硬外,落地应用所需要的全栈技术能力、工程化配套工具等对落地效果有直接影响。企业想要真正将大模型在自身场景落地,需要具备构建算力、数据治理、模型训练、场景落实、应用搭建、持续运营、安全合规等整套能力,大模型的竞争正在加速成为体系化之战。
2025-02-21