Navigate to WaytoAGI Wiki →
Home/Question List/Question Detail

目前主流的AI大模型有哪些

Answer

目前主流的 AI 大模型主要有以下几种:

  1. OpenAI 系列:包括 GPT-3.5 和 GPT-4 等。GPT-3.5 在 11 月启动了当前的 AI 热潮,GPT-4 功能更强大。ChatGPT 也属于 OpenAI 系列。
  2. 微软 Bing:使用 GPT-4 和 GPT-3.5 的混合,通常是 GPT-4 家族中首个推出新功能的模型,能创建和查看图像,还能在网页浏览器中阅读文档,并连接到互联网。
  3. 谷歌 Bard:由各种基础模型驱动,最近是 PaLM 2 模型。
  4. Anthropic Claude 2:其特点是有非常大的上下文窗口,不太可能恶意行事。

此外,大模型的架构也有所不同,如 encoder-only 模型(代表模型是 BERT)、encoder-decoder 模型(代表是 google 的 T5)、decoder-only 模型(适用于自然语言生成任务,如故事写作和博客生成,众多 AI 助手包括 ChatGPT 都属于此类)。大模型的“大”体现在预训练数据量大(往往来自互联网,包括论文、代码、公开网页等,一般用 TB 级别的数据进行预训练)和参数多(如 OpenAI 在 2020 年发布的 GPT-3 就已达到 170B 的参数)。

Content generated by AI large model, please carefully verify (powered by aily)

References

Ranger:【AI 大模型】非技术背景,一文读懂大模型(长文)

首先为方便大家对大模型有一个整体的认知,我们先从大模型的整体架构着手,来看看大模型的组成是怎么样的。下面是我大致分的个层。从整体分层的角度来看,目前大模型整体架构可以分为以下几层:[heading3]1.基础层:为大模型提供硬件支撑,数据支持等[content]例如A100、数据服务器等等。[heading3]2.数据层[content]这里的数据层指的不是用于基层模型训练的数据基集,而是企业根据自己的特性,维护的垂域数据。分为静态的知识库,和动态的三方数据集[heading3]3.模型层:LLm或多模态模型[content]LLm这个大家应该都知道,large-language-model,也就是大语言模型,例如GPT,一般使用transformer算法来实现。多模态模型即市面上的文生图、图生图等的模型,训练所用的数据与llm不同,用的是图文或声音等多模态的数据集[heading3]4.平台层:模型与应用间的平台部分[content]比如大模型的评测体系,或者langchain平台等,提供模型与应用间的组成部分[heading3]5.表现层:也就是应用层,用户实际看到的地方[content]这个就很好理解了,就不用我多作解释了吧

如何使用 AI 来做事:一份带有观点的指南

前四个(包括Bing)都是OpenAI系统。今天有两大主要的OpenAI AI:3.5和4。3.5模型在11月启动了当前的AI热潮,4.0模型在春季首次发布,功能更强大。一个新的变种使用插件连接到互联网和其他应用程序。有很多插件,其中大部分不是很有用,但你应该随需要自由探索它们。Code Interpreter是一个非常强大的ChatGPT版本,可以运行Python程序。如果您从未为OpenAI付费,那么您只能使用3.5。除了插件变种和一个暂时停用的带有浏览功能的GPT-4版本之外,这些模型都没有连接到互联网。微软的Bing使用4和3.5的混合,通常是GPT-4家族中首个推出新功能的模型。例如,它既可以创建也可以查看图像,而且它可以在网页浏览器中阅读文档。它连接到互联网。[Bing使用有点奇怪,但功能强大。](https://oneusefulthing.substack.com/p/power-and-weirdness-how-to-use-bing)谷歌一直在测试自己的人工智能供消费者使用,他们称之为Bard,但是由各种基础模型驱动,最近是一个名叫PaLM 2的模型。对于开发出LLM技术的公司来说,他们非常令人失望,尽管昨天宣布的改进表明他们仍在研究基础技术,所以有希望。它已经获得了运行有限代码和解释图像的能力,但我目前通常会避免它。最后一家公司Anthropic发布了Claude 2。Claude最值得注意的是有一个非常大的上下文窗口-本质上是LLM的记忆。Claude几乎可以保存一整本书或许多PDF。与其他大型语言模型相比,它不太可能恶意行事,这意味着,在实际上,它倾向于对你做一些事情进行责骂。现在,来看看一些用途:

从 0 到 1 了解大模型安全,看这篇就够了

encoder-only:这些模型通常适用于可以自然语言理解任务,例如分类和情感分析.最知名的代表模型是BERTencoder-decoder:此类模型同时结合了Transformer架构的encoder和decoder来理解和生成内容。该架构的一些用例包括翻译和摘要。encoder-decoder的代表是google的T5decoder-only:此类模型更擅长自然语言生成任务。典型使用包括故事写作和博客生成。这也是我们现在所熟知的众多AI助手的结构我们目前耳熟能详的AI助手基本都来自左侧的灰色分支,当然也包括ChatGPT。这些架构都是根据谷歌2017年发布的论文“attention is all you need”中提出的transformer衍生而来的,在transformer中,包括Encoder,Decoder两个结构目前的大型语言模型就是右侧只使用Decoder的Decoder-only架构的模型大模型又大在哪呢?第一,大模型的预训练数据非常大,这些数据往往来自于互联网上,包括论文,代码,以及可进行爬取的公开网页等等,一般来说,现在最先进的大模型一般都是用TB级别的数据进行预训练。第二,参数非常多,Open在2020年发布的GPT-3就已经达到170B的参数在GPT3中,模型可以根据用户输入的任务描述,或给出详细的例子,完成任务但这与我们熟知的ChatGPT仍然有着很大的差距,使用ChatGPT只需要像和人类一样对话,就可以完成任务。除了形式上的不同之外,还有一个更加重要的差距,那就是安全性上的差别。

Others are asking
AI文章提示词怎么反推反问
以下是关于 AI 文章提示词反推反问的相关内容: 对于 Midjourney 提示词的解析,其 AI 以半抽象方式处理整体概念,具体性是获得理想结果的关键。可从简单提示或参数修改开始,逐步调整。方法流程包括: 1. 初始提示:如“Prompt:A banana is floating in the airv 6.1 提示:一个香蕉漂浮在空中v 6.1”,查看生成结果,若不理想可进一步优化。 2. 优化描述:例如“Prompt:Banana shaped hologram of molten liquid metal,floating in air,isolated on a lilac background,minimalist design,vector illustration,high resolution photographyv 6.1 提示:香蕉形态的液态金属全息图,漂浮在空气中,在淡紫色背景上,极简设计,矢量插图,高分辨率摄影v 6.1”。 3. 添加调节参数命令。 对于 DeepSeek 深度推理,可借助 AI 分析好文章,如: 1. 找出喜欢的文章投喂给 deepseek R1,然后进行多次询问,如从写作角度、读者角度分析,指出缺点和提升空间,对作者进行侧写等。 在提示词技巧方面,包括: 1. 教训:要求讨论从特定情况中得到的教训,如“分享一个关于企业失败的案例,并从中提炼出的教训。” 2. 观点:要求 AI 考虑多种观点或意见,如“分析支持和反对核能发展的观点。” 3. 常见问题解答:要求 AI 生成常见问题解答(FAQs)列表,如“请提供一份关于瑜伽初学者的常见问题解答列表。” 4. 背景:提供背景信息、数据或上下文以便生成准确内容,如“请结合当前全球碳排放数据谈论气候变化的影响。” 5. 目标:说明回应的目标或目的,如“编写一篇旨在说服读者加入环保运动的文章。” 6. 受众:指定定制内容的目标受众,如“请为初中生编写一篇关于节水的文章。” 7. 范围:界定主题的范围,如“请仅关注瑜伽在减压方面的好处。” 8. 扮演角色:表明要采用的角色或观点,如“从一个科学家的角度阐述太阳能的优点。” 9. 示例:提供所需风格、结构或内容的示例,如“请参考《纽约时报》的文章风格撰写一篇关于自然保护的报道。” 10. 案例研究:要求参考相关案例研究或现实世界示例,如“在关于可持续发展的文章中,介绍一些成功的企业案例。”
2025-02-07
AIGC是什么
AIGC 即 AI generated content,又称为生成式 AI,是一种利用人工智能技术生成各种类型内容的应用方式。 它能够通过机器学习和深度学习算法,根据输入的数据和指令生成符合特定要求的内容,例如 AI 文本续写、文字转图像的 AI 图、AI 主持人等。 AIGC 的应用领域广泛,包括但不限于以下方面: 1. 文字生成:使用大型语言模型(如 GPT 系列模型)生成文章、故事、对话等内容。 2. 图像生成:使用 Stable Diffusion、DALLE 等模型生成艺术作品、照片等。 3. 视频生成:使用 Runway、KLING 等模型生成动画、短视频等。 AIGC 主要分为语言文本生成、图像生成和音视频生成。语言文本生成利用马尔科夫链、RNN、LSTMs 和 Transformer 等模型生成文本,如 GPT4 和 Gemini Ultra。图像生成依赖于 GANs、VAEs 和 Stable Diffusion 等技术,应用于数据增强和艺术创作,代表项目有 Stable Diffusion 和 StyleGAN 2。音视频生成利用扩散模型、GANs 和 Video Diffusion 等,广泛应用于娱乐和语音生成,代表项目有 Sora 和 WaveNet。此外,AIGC 还可应用于音乐生成、游戏开发和医疗保健等领域。 AIGC 作为一种强大的技术,在赋能诸多领域的同时,也存在多重潜在的合规风险。目前,我国对 AIGC 的监管框架由《网络安全法》《数据安全法》及《个人信息保护法》构成,并与《互联网信息服务算法推荐管理规定》、《互联网信息服务深度合成管理规定》、《生成式人工智能服务管理暂行办法》、《科技伦理审查办法(试行)》等形成了共同监管的形势。 AIGC 与 UGC(普通用户生产)、PGC(专业用户生产)都是内容生成的不同方式,主要区别在于内容的创作者和生成方式。UGC 由用户生成内容,优势在于内容丰富多样,能反映用户真实想法和创意,适用于社交媒体、社区论坛等互动性强的平台。PGC 由专业人士或机构生成内容,优势在于内容质量高、专业性强,适用于新闻媒体、专业网站等需要高质量内容的平台。
2025-02-07
Deep seek如何实现电气化的AI制作。
DeepSeek 在实现电气化的 AI 制作方面具有以下特点和优势: 1. 在编码任务中表现出色,推出了 deepseekcoderv2,组合了速度、轻便性和准确性。 2. 是唯一支持联网搜索的推理模型。 3. 具有强大的推理能力,参数少,训练开销与使用费用小,开源且免费。 4. 由没有海外经历甚至没有资深从业经验的本土团队开发完成。 5. HiDeepSeek 工具能让 DeepSeek 像人类交流时那样,在给出答案的同时展示思考过程,使其回答更可信,帮助发现可能存在的误解或偏差。 如果您想进一步了解 DeepSeek 的相关内容,您可以通过以下方式: 1. 直接访问相关网页链接马上用起来,也有移动 APP。 2. 使劲用,疯狂用,尝试用它基本取代传统搜索。 3. 去看看别人是怎么用的,去试试其他大模型,了解 AI 擅长什么,不擅长什么,如何调教,然后继续解锁与迭代属于自己的用法与更多工具。
2025-02-07
怎样把AI与CAD结合?
将 AI 与 CAD 结合可以参考以下几个方面: 1. 学术研究: 搜索相关学术论文,了解 AI 在 CAD 领域的应用和研究成果。可通过 Google Scholar、IEEE Xplore、ScienceDirect 等学术数据库进行搜索。 2. 专业书籍: 查找与 AI 在 CAD 领域相关的专业书籍,了解其应用和案例。 3. 在线学习资源: 参加 Coursera、edX、Udacity 等平台上的 AI 和 CAD 相关课程。 在 YouTube 等视频平台上查找教程和演示视频,了解 AI 在 CAD 设计中的应用。 4. 技术交流: 加入相关的技术论坛和社区,如 Stack Overflow、Reddit 的 r/AI 和 r/CAD 等,与专业人士交流学习。 关注 AI 和 CAD 相关的博客和新闻网站,了解最新技术动态和应用案例。 5. 开源项目和代码库: 探索 GitHub 等开源平台上的 AI 和 CAD 相关项目,例如 OpenAI 的 GPT3、AutoGPT 等 AI 模型在 CAD 设计中的应用。 6. 企业案例研究: 研究 Autodesk、Siemens 等公司在 AI 在 CAD 设计中的应用案例,了解实际项目中的应用和效果。 一些可以用来画 CAD 图的 AI 工具包括: 1. CADtools 12:Adobe Illustrator 插件,为 AI 添加 92 个绘图和编辑工具。 2. Autodesk Fusion 360:集成了 AI 功能的云端 3D CAD/CAM 软件。 3. nTopology:基于 AI 的设计软件,可创建复杂 CAD 模型。 4. ParaMatters CogniCAD:基于 AI 的 CAD 软件,能根据输入自动生成 3D 模型。 5. 主流 CAD 软件中的生成设计工具:如 Autodesk 系列、SolidWorks 等,可根据设计目标和约束条件自动产生多种方案。 此外,TexttoCAD 可以通过文本 Prompt 生成 CAD 模型,其 UI 开源,但模型需付费。官网:
2025-02-07
ai学习
以下是新手学习 AI 的方法和建议: 1. 了解 AI 基本概念: 阅读「」部分,熟悉 AI 的术语和基础概念,包括其主要分支(如机器学习、深度学习、自然语言处理等)以及它们之间的联系。 浏览入门文章,了解 AI 的历史、当前的应用和未来的发展趋势。 2. 开始 AI 学习之旅: 在「」中,找到为初学者设计的课程,特别推荐李宏毅老师的课程。 通过在线教育平台(如 Coursera、edX、Udacity)上的课程,按照自己的节奏学习,并有机会获得证书。 3. 选择感兴趣的模块深入学习: AI 领域广泛,如图像、音乐、视频等,可根据兴趣选择特定模块深入学习。 掌握提示词的技巧,它上手容易且很有用。 4. 实践和尝试: 理论学习后,实践是巩固知识的关键,尝试使用各种产品做出作品。 在知识库提供了很多大家实践后的作品、文章分享,欢迎实践后的分享。 5. 体验 AI 产品: 与现有的 AI 产品进行互动,如 ChatGPT、Kimi Chat、智谱、文心一言等 AI 聊天机器人,了解其工作原理和交互方式,获得对 AI 在实际应用中表现的第一手体验,并激发对 AI 潜力的认识。 对于中学生学习 AI,建议如下: 1. 从编程语言入手学习: 可以从 Python、JavaScript 等编程语言开始,学习编程语法、数据结构、算法等基础知识,为后续的 AI 学习打下基础。 2. 尝试使用 AI 工具和平台: 可以使用 ChatGPT、Midjourney 等 AI 生成工具,体验 AI 的应用场景。 探索一些面向中学生的 AI 教育平台,如百度的“文心智能体平台”、Coze 智能体平台等。 3. 学习 AI 基础知识: 了解 AI 的基本概念、发展历程、主要技术如机器学习、深度学习等。 学习 AI 在教育、医疗、金融等领域的应用案例。 4. 参与 AI 相关的实践项目: 参加学校或社区组织的 AI 编程竞赛、创意设计大赛等活动。 尝试利用 AI 技术解决生活中的实际问题,培养动手能力。 5. 关注 AI 发展的前沿动态: 关注 AI 领域的权威媒体和学者,了解 AI 技术的最新进展。 思考 AI 技术对未来社会的影响,培养对 AI 的思考和判断能力。 记住,学习 AI 是一个长期的过程,需要耐心和持续的努力。不要害怕犯错,每个挑战都是成长的机会。随着时间的推移,您将逐渐建立起自己的 AI 知识体系,并能够在这一领域取得成就。完整的学习路径建议参考「通往 AGI 之路」的布鲁姆分类法,设计自己的学习路径。
2025-02-07
AI大模型应用面试题
以下是一些与 AI 大模型应用相关的面试题: 在游戏行业,大模型不仅能降低成本,还能打造创新玩法,如网易的《逆水寒》在美术开发、NPC 与玩家交互等方面的应用。请问您对这种应用的看法和理解? 在人力资源管理领域,AI 覆盖了从招聘到员工绩效评估等各个环节。请谈谈您对这种应用的认识以及其可能带来的影响。 在基础办公提效方面,如 PPT、Excel 等,AI 能从单个任务到角色协同显著提高工作效率。您认为这种提高在实际工作中的具体表现和重要性如何? 对于健身行业中的 AI 减重顾问,既能解决售前客服问题,又能进行健康监护,您如何看待这种应用的前景和挑战? 如何在 10 分钟内在网站上增加一个 AI 助手?比如创建大模型问答应用,包括获取大模型的推理 API 服务等步骤。 作为 AIGC 产品经理,在大模型方面,如对算法的熟悉程度、了解的大模型及其评价、快速体验各种模型的方法、大模型应用落地中注入领域知识的方式、大模型应用的评测、保证大模型价值观无害、对 PE 的理解及相关案例、对大模型微调及 RAG 的理解和优势、用大模型解决传统模型无法解决的业务问题、大模型面临的新安全危险及解决方法、幻觉的产生及解决手段等方面,您有怎样的见解和经验?
2025-02-07
什么ai好用,目前主流ai有什么特点
目前主流的 AI 工具各有特点和用途: 邮件写作方面: Grammarly:提供语法检查、拼写纠正、风格建议和语气调整等功能,易于使用,支持多种平台和语言,网站是 https://www.grammarly.com/ 。 Hemingway Editor:简化句子结构,提高可读性,标记复杂句和冗长句,界面简洁,重点突出,网站是 http://www.hemingwayapp.com/ 。 ProWritingAid:全面的语法和风格检查,提供详细的写作报告和建议,功能强大,支持多种平台和集成,网站是 https://prowritingaid.com/ 。 Writesonic:基于 AI 生成各种类型的文本,包括电子邮件、博客文章、广告文案等,生成速度快,网站是 https://writesonic.com/ 。 Lavender:专注于邮件写作优化,提供个性化建议和模板,帮助提高邮件打开率和回复率。 大语言模型方面: OpenAI 系统:包括 3.5 和 4.0 版本,3.5 模型在 11 月启动了当前的 AI 热潮,4.0 模型功能更强大。新的变种使用插件连接到互联网和其他应用程序,Code Interpreter 是一个强大的 ChatGPT 版本,可以运行 Python 程序。未为 OpenAI 付费只能使用 3.5 版本。微软的 Bing 使用 4 和 3.5 的混合,通常是 GPT4 家族中首个推出新功能的模型,连接到互联网。 谷歌:一直在测试自己的人工智能 Bard,由各种基础模型驱动,最近是 PaLM 2 模型。 Anthropic:发布了 Claude 2,其有一个非常大的上下文窗口,不太可能恶意行事。 对于刚入坑 AI 的学习路径: 第一步是带着好奇心去尝试,记住“生成”两个字。现在大部分人说的 AI 本质上是“生成式人工智能”Generative AI。可以随便找一个国产 AI 聊聊,比如小学奥数题、写演讲稿、对 996 的看法等,看看其擅长和不擅长的地方,有没有能帮助到自己的地方,哪些地方做得不够好。如果条件允许,也可以直接使用 ChatGPT 或者 Claude 处理复杂任务。
2025-01-24
目前在各个应用领域,主流的AI工具有哪些,请分别介绍.
以下是一些主流的 AI 工具及其应用领域的介绍: 1. AI 菜谱口味调整工具:如“下厨房口味调整功能”,使用自然语言处理和数据分析技术,市场规模达数亿美元。它能根据用户反馈调整菜谱口味,例如增加甜度、减少辣味等。 2. AI 语言学习纠错平台:像“英语流利说纠错功能”,运用自然语言处理和机器学习,市场规模达数十亿美元。可帮助语言学习者纠正发音、语法等错误,并提供纠正建议和练习。 3. AI 电影剧情分析系统:例如“豆瓣电影剧情分析工具”,借助数据分析和自然语言处理,市场规模达数亿美元。能够分析电影剧情,为用户提供深度解读。 4. AI 办公文件分类系统:比如“腾讯文档分类功能”,采用数据分析和机器学习,市场规模达数亿美元。可自动分类办公文件,方便管理。 5. AI 美容护肤方案定制平台:“美丽修行定制方案功能”,利用图像识别和数据分析,市场规模达数亿美元。能根据用户肤质定制护肤方案,包括产品推荐和使用顺序。 6. AI 游戏道具推荐系统:在一些游戏中的“游戏内商城推荐功能”,通过数据分析和机器学习,市场规模达数亿美元。可根据玩家需求推荐游戏道具,如武器、装备等。 7. AI 天气预报分时服务:“彩云天气分时预报”,运用数据分析和机器学习,市场规模达数亿美元。提供精准的分时天气预报,帮助用户更好地安排出行和活动。 8. AI 医疗病历分析平台:“医渡云病历分析系统”,借助数据分析和自然语言处理,市场规模达数十亿美元。可分析医疗病历,为医生提供辅助诊断建议。 9. AI 会议发言总结工具:“讯飞听见会议总结功能”,使用自然语言处理和机器学习,市场规模达数亿美元。能够自动总结会议发言内容,方便回顾和整理。 10. AI 书法作品临摹辅助工具:“书法临摹软件”,利用图像识别和数据分析,市场规模达数亿美元。帮助书法爱好者进行临摹,提供临摹指导和评价。 11. 超级简历优化助手:“AI 简历优化工具”,运用自然语言处理,市场规模达数亿美元。帮助用户优化简历,提高求职成功率。 12. 酷家乐等设计软件:“AI 室内设计方案生成”,借助图像生成和机器学习,市场规模达数十亿美元。能快速生成个性化室内设计方案。 13. Amper Music:“AI 音乐创作辅助工具”,采用机器学习和音频处理,市场规模达数亿美元。协助音乐创作者进行创作,可根据用户需求生成旋律和编曲。 14. 松果倾诉智能助手:“AI 情感咨询助手”,通过自然语言处理和情感分析,市场规模达数亿美元。为用户提供情感支持和建议,通过文字或语音交流。 15. 小佩宠物智能设备:“AI 宠物健康监测设备”,利用传感器数据处理和机器学习,市场规模达数十亿美元。可实时监测宠物健康状况,提供健康预警。 16. 马蜂窝智能行程规划:“AI 旅游行程规划器”,借助数据分析和自然语言处理,市场规模达数十亿美元。能根据用户需求生成个性化旅游行程。
2025-01-20
主流TTS-语音合成技术
语音合成(Speech Synthesis)是将文本转换为可听的声音信息,赋予了像人一样说话的能力,是人机交互的重要接口。一般而言,语音合成的概念比文语转换(TexttoSpeech,TTS)涵盖范围更广,包括 TTS、歌唱合成等领域,但多数情况下可混用。提供了一些端到端语音合成模型的样例,可感受目前语音合成的发展。 人类通过一整套发音器官合成语音,肺相当于动力源,喉相当于调制器,声道相当于滤波器,口唇相当于扩音器。研究人员提出以源滤波器(sourcefilter)模型为代表的多种模型建模该过程,语音中有清音和浊音,分别由声带周期性振动对应的周期声源和声带不振动时紊乱气流对应的非周期声源产生。 当代工业界主流语音合成系统包含文本前端和声学后端两部分。文本前端将输入文本转换为层次化的语音学表征,主要有文本规范化、韵律分析和文本转音素等模块。声学后端基于文本前端给出的层次化语言学表征生成语音,主要技术路线包括单元挑选波形拼接、统计参数和端到端语音合成方法,当代主要采用端到端声学后端。端到端声学后端通常包括声学模型和声码器两部分,也出现了直接从音素映射为波形的完全端到端语音合成系统。声学模型负责将语言学特征转换为中间声学特征(如梅尔频谱),直接决定合成语音的韵律;声码器将中间声学特征转换为语音波形,直接决定合成语音的音质。
2025-01-07
主流TTS-语音合成技术
语音合成(Speech Synthesis)是将文本转换为可听的声音信息,赋予了像人一样说话的能力,是人机交互的重要接口。一般而言,语音合成的概念比文语转换(TexttoSpeech,TTS)涵盖范围更广,包括 TTS、歌唱合成等领域,但多数情况下可混用。提供了一些端到端语音合成模型的样例,可感受目前语音合成的发展。 人类通过一整套发音器官合成语音,肺相当于动力源,喉相当于调制器,声道相当于滤波器,口唇相当于扩音器。研究人员提出以源滤波器(sourcefilter)模型为代表的多种模型建模该过程,语音中有清音和浊音,分别由声带周期性振动对应的周期声源和声带不振动时紊乱气流对应的非周期声源产生。 当代工业界主流语音合成系统包含文本前端和声学后端两部分。文本前端把输入文本转换为层次化的语音学表征,主要有文本规范化、韵律分析和文本转音素等模块。声学后端基于文本前端给出的层次化语言学表征(linguistics feature)生成语音,主要技术路线包括单元挑选波形拼接、统计参数和端到端语音合成方法,当代主要采用端到端声学后端。端到端声学后端通常包括声学模型和声码器两部分,也出现了直接从音素映射为波形的完全端到端语音合成系统。声学模型负责将语言学特征转换为中间声学特征(如梅尔频谱),直接决定合成语音的韵律;声码器将中间声学特征转换为语音波形,直接决定合成语音的音质。
2025-01-07
国外比较主流的大模型有哪些
国外比较主流的大模型有: 1. GPT4Turbo:OpenAI 于 2023 年 11 月 7 日发布的 GPT4 的升级版本。 2. GPT4(网页版):OpenAI GPT4 官方网页版本,支持联网功能。 3. GPT4(API):OpenAI GPT4 官方 API 版本,不支持联网功能。 4. Claude2:Anthropic 官方发布的模型。 5. Geminipro:Google 官方发布的模型。 6. GPT3.5Turbo:OpenAI 的模型。 7. Llama_2_13B_Chat:Meta 发布的模型。
2025-01-03
ai换装,目前主流工具有哪些
目前主流的 AI 换装工具包括:InterAlia(https://interalia.vcflab.org/)。需要注意的是,虽然底层都是大模型,但 AI 工具各有侧重,不同公司也会进行各自的优化。关于每一种工具的详细入门、讲解和应用,WayToAIG 已经分好了类目。
2025-01-02
推荐免费的tts公有模型站点,需要支持中文,克隆自己的声音
以下为您推荐支持中文且能克隆自己声音的免费 TTS 公有模型站点: GPTSoVITS: 只需 1 分钟语音即可训练一个自己的 TTS 模型。 5 秒数据就能模仿您,1 分钟的声音数据就能训练出一个高质量的 TTS 模型,完美克隆您的声音,且适配中文,界面易用。 主要特点: 零样本 TTS:输入 5 秒的声音样本即可体验即时的文本到语音转换。 少量样本训练:只需 1 分钟的训练数据即可微调模型,提高声音相似度和真实感。模仿出来的声音会更加接近原声,听起来更自然。 跨语言支持:支持与训练数据集不同语言的推理,目前支持英语、日语和中文。 易于使用的界面:集成了声音伴奏分离、自动训练集分割、中文语音识别和文本标签等工具,帮助初学者更容易地创建训练数据集和 GPT/SoVITS 模型。 适用于不同操作系统:项目可以在不同的操作系统上安装和运行,包括 Windows。 预训练模型:项目提供了一些已经训练好的模型,您可以直接下载使用。 GitHub: 视频教程: 需要注意的是,Stuart 模型存在一些问题: 语音生成基本功能方面: 支持的语音时长不超过 30 秒,超过 30 秒的需要特别修复。 某些 audio seed 在念某些语句时会丢失一些语句。 Refine 过程中有些字会被丢失,比如“儿童节”在大概率会被 refine 成“童节”,丢失一个“儿”字。解决方法是跳过自动 refine,以手动修改文本的方式来控制停顿。 即使同一个 audio seed,如果使用不同的语句分段方式,或者不同的 text seed,生成的音色也不是很稳定,会给人感觉不是同一个人的声音。 代码 Bug: uv_break 等提示词可能会在 refine 之后缺少,甚至有时候在有中括号的情况下也会被念出来。 没提供微调 SFT 的接口。 本模型特别申明:不支持商用,仅用于学术研究。在生成的语音内,作者加了听不见的噪音水印,可以很容易的被检测出来是他的模型生成的语音。ChatTTS 还没放出训练代码无法自己克隆声音,作者还只放出了 4w 小时训练的版本,确保这个模型的声音能被 AI 检测出来。作者还留着一个 10w 小时训练数据的版本。
2025-02-07
推荐免费的tts模型站点,需要支持中文
以下为您推荐两个免费的支持中文的 TTS 模型站点: 1. Fish Speech:语音处理接近人类水平,约十五万小时三语数据,对中文支持完美。开发者为 fishaudio,具有亿级参数,高效轻量,可在个人设备上运行和微调,适合作为私人语音助手。详细介绍及更多演示:https://xiaohu.ai/p/10779 ,GitHub:https://github.com/fishaudio/fishspeech 。 2. GPTSoVITS:只需 1 分钟语音即可训练一个自己的 TTS 模型,是一个声音克隆和文本到语音转换的开源 Python RAG 框架。5 秒数据就能模仿您,1 分钟的声音数据就能训练出一个高质量的 TTS 模型,完美克隆您的声音,完美适配中文。GitHub: 。
2025-02-07
本地大模型联网搜索
以下是关于本地大模型联网搜索的相关内容: 部署本地大语言模型: 1. 下载并安装 Ollama:根据电脑系统,从 https://ollama.com/download 下载,双击打开点击“Install”,安装完成后将下方地址复制进浏览器确认:http://127.0.0.1:11434/ 。 2. 下载 qwen2:0.5b 模型: Windows 电脑:点击 win+R,输入 cmd 点击回车。 Mac 电脑:按下 Command(⌘)+Space 键打开 Spotlight 搜索,输入“Terminal”或“终端”选择应用程序。 复制相关命令行粘贴回车,等待自动下载完成。 模型获取与分辨: 1. 模型下载网站:大多数模型可在 Civitai(C 站)https://civitai.com/ 下载。 科学上网(自行解决)。 点击右上角筛选按钮选择模型类型。 看照片找到感兴趣的点进去下载。 还可点击左上角“Images”查看他人做好的图片,点进去获取信息。 2. 模型保存地址: 大模型:SD 根目录即下载 SD 时存放的文件夹。 Lora、VAE 等。 3. 分辨模型类型:可使用秋叶的模型解析工具 https://spell.novelai.dev/,将模型拖动到空白处获取信息。 DeepSeek 联网版: 1. 核心路径:通过工作流+DeepSeek R1 大模型实现联网版。 2. 拥有扣子专业版账号:普通账号自行升级或注册专业号。 3. 开通 DeepSeek R1 大模型:访问地址 https://console.volcengine.com/cozepro/overview?scenario=coze ,在火山方舟中找到开通管理,开通服务并添加在线推理模型。 4. 创建智能体:点击创建完成智能体创建。
2025-02-07
垂直领域大模型训练指南
以下是一份垂直领域大模型训练指南: 一、大模型入门 通俗来讲,大模型就是输入大量语料,让计算机获得类似人类的“思考”能力,能够进行文本生成、推理问答、对话、文档摘要等工作。 大模型的训练和使用过程可以用“上学参加工作”来类比: 1. 找学校:训练大模型需要大量计算,GPU 更合适,只有购买得起大量 GPU 的才有资本训练自己的大模型。 2. 确定教材:大模型需要的数据量特别多,几千亿序列(Token)的输入基本是标配。 3. 找老师:即用合适的算法讲述“书本”中的内容,让大模型更好理解 Token 之间的关系。 4. 就业指导:为了让大模型更好胜任某一行业,需要进行微调(fine tuning)指导。 5. 搬砖:就业指导完成后,进行如翻译、问答等工作,在大模型里称之为推导(infer)。 在 LLM 中,Token 被视为模型处理和生成的文本单位,可以代表单个字符、单词、子单词等,具体取决于所使用的分词方法。在将输入进行分词时,会对其进行数字化,形成一个词汇表。 二、LLM 开源中文大语言模型及数据集集合 1. 医疗领域 XrayGLM:首个会看胸部 X 光片的中文多模态医学大模型。 地址: 简介:该项目发布了 XrayGLM 数据集及模型,在医学影像诊断和多轮交互对话上显示出非凡潜力。 MeChat:中文心理健康支持对话大模型。 地址: 简介:该项目开源的中文心理健康支持通用模型由 ChatGLM6B LoRA 16bit 指令微调得到,数据集通过调用 gpt3.5turbo API 扩展真实的心理互助 QA 为多轮的心理健康支持多轮对话,提高了通用语言大模型在心理健康支持领域的表现,更加符合在长程多轮对话的应用场景。 MedicalGPT 地址: 简介:训练医疗大模型,实现包括二次预训练、有监督微调、奖励建模、强化学习训练。发布中文医疗 LoRA 模型 shibing624/ziyallama13bmedicallora,基于 ZiyaLLaMA13Bv1 模型,SFT 微调了一版医疗模型,医疗问答效果有提升,发布微调后的 LoRA 权重。 三、100 基础训练大模型 步骤三·Lora 生图: 1. 点击预览模型中间的生图会自动跳转到相应页面。 2. 模型上的数字代表模型强度,可在 0.6 1.0 之间调节,默认为 0.8。 3. 可以自己添加 lora 文件,点击后会显示训练过的所有 lora 的所有轮次。 4. VAE 不需要替换。 5. 正向提示词输入所写的提示词,可以选择基于这个提示词一次性生成几张图。 6. 选择生成图片的尺寸,包括横板、竖版、正方形。 7. 采样器和调度器新手小白可以默认不换。 8. 迭代步数可以按照需求在 20 30 之间调整。 9. CFG 可以按照需求在 3.5 7.5 之间调整。 10. 随机种子 1 代表随机生成图。 11. 所有设置都完成后,点击开始生成,生成的图会显示在右侧。 12. 如果有某次生成结果不错,想要微调或者高分辨率修复,可以点开那张图,往下滑,划到随机种子,复制下来,粘贴到随机种子这里,下次生成的图就会和这次的结果近似。 13. 如果确认了一张很合适的种子和参数,想要高清放大,则点开高清修复,可以选择放大的倍数。新手小白可以默认算法,迭代步数建议在 20 30 之间,重回幅度根据需求在 0.3 0.7 之间调整。 今日作业:按照比赛要求,收集六个主题中一个主题的素材并且训练出 lora 模型后提交 lora 模型与案例图像。 提交链接:https://waytoagi.feishu.cn/share/base/form/shrcnpJAtTjID7cIcNsWB79XMEd
2025-02-07
请给我推荐一个能够阅读网页链接内部信息的AI模型
以下为您推荐能够阅读网页链接内部信息的 AI 模型相关内容: 有一款 AI 浏览器插件,在产品化开发阶段,需要考虑如何稳定获取网页内容、如何选择适合的 AI 大模型 API 服务以及如何构建生产级提示词等问题。 在获取网页内容方面,由于大模型对话产品的外链解析方式容易遭到平台反爬机制制裁,通过用户浏览器以浏览器插件形式本地提取网页内容是一种稳定、经济的解决方案。比如 AI Share Card 插件,可以获取网页元素清单。开发时,您可以拿着初版提示词,询问 AI 来设计获取相关元素的 js 代码。 对于大模型 API,需要利用插件预先获取的网页内容变量、提示词和 API 请求参数,拼搭出完整的 API 提示请求,精确引导 API 返回想要的生成结果。根据 BigModel 官网给出的请求示例,需要传递 Model 类型、系统提示词、用户提示词、top_p、temperature 等关键参数。如果缺少参数设定经验,可以先询问 AI 相关设定的合适值,再逐步调试效果。 同时需要注意,使用 AI 写东西时,它可能会“产生幻觉”生成错误内容,需要检查所有内容。而且 AI 不会真正解释自己,可能给出编造的答案,使用时要对其输出负责。
2025-02-07
我们是做小红书笔记的,目前有没有哪个软件可以把我们上千篇以往人工写的笔记,投喂给它,训练出一个能按照以往风格来写笔记的呢?比如扣子或者钉钉,可以吗
目前市面上常见的软件中,豆包暂时未获取到扣子或钉钉有此功能的相关信息。不过,像一些专门的自然语言处理和机器学习平台,如 OpenAI 的 GPT 系列、百度的文心一言等,在一定的技术支持和合规操作下,有可能实现您的需求。但需要注意的是,将大量以往的笔记用于训练模型可能涉及到数据隐私和版权等问题,需要谨慎处理。
2025-02-07
我们是做小红书笔记的,目前有没有哪个软件可以把我们上千篇以往人工写的笔记,投喂给它,训练出一个能按照以往风格来写笔记的呢
目前市面上还没有专门针对小红书笔记且能完全满足您需求的成熟软件。一般来说,使用现有的自然语言处理模型进行这样的训练存在诸多限制和法律风险。小红书对于内容的原创性和合规性有严格要求,使用以往的笔记进行训练可能违反平台规定。但您可以通过学习和借鉴以往笔记的写作风格、结构和主题,人工创作出新的优质笔记。
2025-02-07
从你的知识库中总结提炼一下,形成一个表格,告诉我目前已经有哪些面向个人和面向企业的AI应用\工具\智能体,以及具体的功能简介
|应用类型|应用名称|使用技术|功能简介|示例场景| |||||| |智能体应用(Assistant)|无|基于上下文对话,自主决策并调用工具|客户服务:了解客户诉求,解决客户问题。如查询订单状态、处理退款等。个人助理:管理日程安排、提醒事项、发送邮件等。技术支持:了解技术问题,提供解决方案,帮助用户排除故障。| |工作流应用(Workflow)|无|将复杂任务拆解为若干子任务|AI 翻译:实现初步翻译、内容审校、再次优化的翻译流程,提升翻译质量。| |智能体编排应用|无|支持多智能体协作|综合调研报告:组建一个报告撰写团队,包括负责写作意图识别、大纲书写、总结摘要、智能绘图、事件研判、段落撰写、文笔润色等任务的智能体。软件开发团队:组建一个智能体开发团队,包括负责需求分析、系统设计、编码实现、测试调试、文档编写等任务的智能体。| |AI 游戏道具推荐系统|游戏内商城推荐功能|数据分析、机器学习|根据玩家需求推荐游戏道具。|在一些游戏中,利用 AI 分析玩家的游戏风格和进度,为玩家推荐合适的游戏道具,如武器、装备等。| |AI 天气预报分时服务|彩云天气分时预报|数据分析、机器学习|提供精准的分时天气预报。|彩云天气利用 AI 提供每小时的天气预报,帮助用户更好地安排出行和活动。| |AI 医疗病历分析平台|医渡云病历分析系统|数据分析、自然语言处理|分析医疗病历,辅助诊断。|医渡云利用 AI 分析医疗病历中的症状、检查结果等信息,为医生提供辅助诊断建议。| |AI 会议发言总结工具|讯飞听见会议总结功能|自然语言处理、机器学习|自动总结会议发言内容。|讯飞听见在会议中利用 AI 自动总结发言者的主要观点和重点内容,方便回顾和整理。| |AI 书法作品临摹辅助工具|书法临摹软件|图像识别、数据分析|帮助书法爱好者进行临摹。|书法临摹软件利用 AI 识别书法作品的笔画和结构,为用户提供临摹指导和评价。| |超级简历优化助手|无|自然语言处理|帮助用户优化简历提高求职成功率。|超级简历优化助手分析简历内容并提供优化建议。| |AI 室内设计方案生成|酷家乐|图像生成、机器学习|快速生成个性化室内设计方案。|酷家乐允许用户上传户型图,通过 AI 生成多种设计方案。| |AI 音乐创作辅助工具|Amper Music|机器学习、音频处理|协助音乐创作者进行创作。|Amper Music 根据用户需求生成旋律和编曲。| |AI 情感咨询助手|松果倾诉智能助手|自然语言处理、情感分析|提供情感支持和建议。|松果倾诉智能助手通过文字或语音交流为用户提供情感咨询。| |AI 宠物健康监测设备|小佩宠物智能设备|传感器数据处理、机器学习|实时监测宠物健康状况。|小佩宠物智能设备可监测宠物活动、饮食等,提供健康预警。| |AI 旅游行程规划器|马蜂窝智能行程规划|数据分析、自然语言处理|根据用户需求生成个性化旅游行程。|马蜂窝智能行程规划根据目的地、时间等因素为用户定制旅游路线。|
2025-02-06
目前AI发展到什么阶段了
AI 的发展可以概括为以下几个阶段: 1. 小模型阶段:能力单一,无法泛化和理解,例如早期的人脸识别,只能完成特定任务。 2. GPT 出现阶段:AGI 迎来拐点,机器实现与人类的交流。 3. Sora 出现阶段:打开了 AGI 的大门,能够认知世界并与世界互动,但训练算力可能受到限制。 4. 强人工智能阶段:机器能看懂一些常识并交流,但还缺少对世界力量的感知,如加速度、重力等,目前热炒的具身智能正朝着与物理世界互动的方向发展。 5. 超级人工智能阶段:能够总结出世界的规律,达到如爱因斯坦、牛顿般的水平。 当前 AI 前沿技术点包括: 1. 大模型,如 GPT、PaLM 等。 2. 多模态 AI,如视觉语言模型(CLIP、Stable Diffusion)、多模态融合。 3. 自监督学习,如自监督预训练、对比学习、掩码语言模型等。 4. 小样本学习,如元学习、一次学习、提示学习等。 5. 可解释 AI,包括模型可解释性、因果推理、符号推理等。 6. 机器人学,涉及强化学习、运动规划、人机交互等。 7. 量子 AI,如量子机器学习、量子神经网络等。 8. AI 芯片和硬件加速。 AGI 的五个等级分别为: 1. 聊天机器人:具备基本对话能力,主要依赖预设脚本和关键词匹配,用于客户服务和简单查询响应。 2. 推理者:具备人类推理水平,能够解决复杂问题,如 ChatGPT,能根据上下文和文件提供详细分析和意见。 3. 智能体:不仅具备推理能力,还能执行全自动化业务,但目前许多产品执行任务后仍需人类参与。 4. 创新者:能够协助人类完成新发明,如谷歌 DeepMind 的 AlphaFold 模型,可预测蛋白质结构,加速科学研究和新药发现。 5. 组织:最高级别的 AI,能够自动执行组织的全部业务流程,如规划、执行、反馈、迭代、资源分配和管理等。
2025-02-06
到目前为止,人工只能已经发展到什么样的一个程度了,未来前景怎么样?普通人如何通过人工智能挣到钱
目前人工智能的发展呈现出复杂的态势: 预计明年会有团体花费超过 10 亿美元训练单个大规模模型,通用人工智能的热潮仍在持续,但其成本也在不断增加。 政府和大型科技公司都面临着计算需求超出电网支持能力的问题。 人工智能对选举的影响尚未完全显现,但仍需关注。 以 OpenAI、Meta 以及中国实验室为代表,竞争激烈。 未来前景方面: 深度学习被证明有效,且随着规模扩大预期会改善,能帮助解决更多难题,对全球人民生活产生有意义的改善。 人工智能模型将作为个人助理执行特定任务,帮助构建更好的下一代系统,并推动各领域科学进展。 对于普通人如何通过人工智能挣钱,以下是一些可能的途径: 学习相关技能,如编程、数据分析等,参与人工智能项目的开发和维护。 利用人工智能工具进行内容创作,如写作、绘画等,并通过相关平台实现盈利。 关注人工智能领域的新兴应用,寻找创业机会。
2025-02-05
目前用的最多的Ai工具都有哪些
目前使用较多的 AI 工具包括以下几类: 1. 文章润色工具: Wordvice AI:集校对、改写转述和翻译等功能于一体,基于大型语言模型提供全面的英文论文润色服务。 ChatGPT:由 OpenAI 开发的大型语言模型,可用于多方面写作辅助。 Quillbot:人工智能文本摘要和改写工具,可用于快速筛选和改写文献资料。 HyperWrite:基于 AI 的写作助手和大纲生成器,可帮助用户在写作前进行头脑风暴和大纲规划。 Wordtune:AI 驱动的文本改写和润色工具,帮助优化文章的语言表达。 Smodin:提供 AI 驱动的论文撰写功能,可根据输入生成符合要求的学术论文。 2. 论文写作相关工具: 文献管理和搜索: Zotero:结合 AI 技术,自动提取文献信息,帮助管理和整理参考文献。 Semantic Scholar:由 AI 驱动的学术搜索引擎,提供文献推荐和引用分析。 内容生成和辅助写作: Grammarly:通过 AI 技术提供文本校对、语法修正和写作风格建议。 Quillbot:基于 AI 的重写和摘要工具,帮助精简和优化论文内容。 研究和数据分析: Google Colab:提供基于云的 Jupyter 笔记本环境,支持 AI 和机器学习研究,便于进行数据分析和可视化。 Knitro:用于数学建模和优化的软件,帮助进行复杂的数据分析和模型构建。 论文结构和格式: LaTeX:结合自动化和模板,高效处理论文格式和数学公式。 Overleaf:在线 LaTeX 编辑器,提供丰富模板库和协作功能,简化论文编写过程。 研究伦理和抄袭检测: Turnitin:广泛使用的抄袭检测工具,确保论文原创性。 Crossref Similarity Check:检测潜在抄袭问题。 3. 适合软件项目经理的工具: 项目管理和任务跟踪工具:如 Jira、Trello 等已开始集成 AI 功能,辅助制定计划、分配任务、跟踪进度等。 文档和协作工具:微软的 Copilot 集成到 Office 套件中,提供 AI 助手功能;云存储服务如 Google Drive 也提供 AI 驱动的文档管理和协作功能。 风险管理和决策支持工具:帮助识别和分析项目风险,并提供决策建议。 沟通和协作工具:AI 助手辅助进行团队沟通协调、客户关系维护等。 创意生成工具:如文心一格、Vega AI 等,帮助快速生成创意图像素材。
2025-02-05