Navigate to WaytoAGI Wiki →
Home/Question List/Question Detail

国内主流的大语言模型公司有哪几家

Answer

国内主流的大语言模型公司主要有以下几家:

  1. 百度:其文心一言大语言模型可用以文学创作、商业文案创作、数理逻辑推算、中文理解、多模态生成等。
  2. 阿里巴巴:拥有通义大模型。
  3. 北京智源人工智能研究院:推出了“悟道・天鹰”,是首个具备中英文双语知识、支持商用许可协议、国内数据合规需求的开源语言大模型。
Content generated by AI large model, please carefully verify (powered by aily)

References

问:目前最火最好用的的大语言模型是哪个

[OpenAI](https://openai.com/)的GPT-4是其中一个最先进和广泛使用的大型语言模型。它在多种任务上展示了卓越的性能,包括文本生成、理解、翻译以及各种专业和创意写作任务。GPT-4通过大量数据的学习,能够理解和生成人类语言,展示了在处理复杂问题和理解上下文方面的深度能力。除了OpenAI的GPT系列,还有其他一些重要的大型语言模型,如Anthropic公司[Claude 3](https://www.anthropic.com/news/claude-3-family)、谷歌的Gemini、百度的文心一言、阿里巴巴的通义大模型等,它们在特定领域和任务上也表现出了卓越的能力。如果想了解国内的大模型效果,可以参考第三方基准评测报告:[2023年度中文大模型基准测评报告.pdf](https://waytoagi.feishu.cn/wiki/ANF7wRcJPixR00kWJINcoP1GnGf)内容由AI大模型生成,请仔细甄别。类似问题:最强大语言模型是哪个?

2024AIGC法律风险研究报告(更新版).pdf

文本生成(text generation)涉及使用机器学习(machine learning)模型,根据从现有文本数据中学习的模式生成新的文本。用于文本生成的模型可以是马尔科夫链(Markov Chains)、循环神经网络(RNN)、长短时记忆网络(LSTMs),2AIGC法律风险研究报告以及凭借其延长的注意力广度(attention span)而彻底改变了AI领域的Transformer等。文本生成在自然语言处理、聊天机器人和内容创建领域(自动写作、文本摘要)有许多应用。[heading1]一些具有代表性的海外项目:[content]➢GPT-4(OpenAI):目前最先进的自然语言生成模型,可用于回答问题、撰写文章等。➢Gemini Ultra(Google):多模态人工智能模型,采用神经网络架构,对标GPT-4,可用于回答问题、生成代码、处理文本等。➢Claude 3 Opus(Anthropic):多模态模型,能处理超过1百万token的输入,具有实时聊天、数据处理、分析预测等功能;实现了接近完美的召回率。[heading1]一些具有代表性的国内项目:[content]➢“悟道・天鹰”(北京智源人工智能研究院):“悟道・天鹰”(Aquila)是首个具备中英文双语知识、支持商用许可协议、国内数据合规需求的开源语言大模型。➢文心一言(百度):大语言模型,可用以文学创作、商业文案创作、数理逻辑推算、中文理解、多模态生成。

如何使用 AI 来做事:一份带有观点的指南

前四个(包括Bing)都是OpenAI系统。今天有两大主要的OpenAI AI:3.5和4。3.5模型在11月启动了当前的AI热潮,4.0模型在春季首次发布,功能更强大。一个新的变种使用插件连接到互联网和其他应用程序。有很多插件,其中大部分不是很有用,但你应该随需要自由探索它们。Code Interpreter是一个非常强大的ChatGPT版本,可以运行Python程序。如果您从未为OpenAI付费,那么您只能使用3.5。除了插件变种和一个暂时停用的带有浏览功能的GPT-4版本之外,这些模型都没有连接到互联网。微软的Bing使用4和3.5的混合,通常是GPT-4家族中首个推出新功能的模型。例如,它既可以创建也可以查看图像,而且它可以在网页浏览器中阅读文档。它连接到互联网。[Bing使用有点奇怪,但功能强大。](https://oneusefulthing.substack.com/p/power-and-weirdness-how-to-use-bing)谷歌一直在测试自己的人工智能供消费者使用,他们称之为Bard,但是由各种基础模型驱动,最近是一个名叫PaLM 2的模型。对于开发出LLM技术的公司来说,他们非常令人失望,尽管昨天宣布的改进表明他们仍在研究基础技术,所以有希望。它已经获得了运行有限代码和解释图像的能力,但我目前通常会避免它。最后一家公司Anthropic发布了Claude 2。Claude最值得注意的是有一个非常大的上下文窗口-本质上是LLM的记忆。Claude几乎可以保存一整本书或许多PDF。与其他大型语言模型相比,它不太可能恶意行事,这意味着,在实际上,它倾向于对你做一些事情进行责骂。现在,来看看一些用途:

Others are asking
现在AI领域做语音模型比较好的有哪几家?音色复刻做的比较好的有哪些
在 AI 领域,做语音模型较好的有阿里,其 CosyVoice 语音合成模型有以下特点: 精细控制:能生成符合性别、年龄和个性特征的声音。 自然模拟:可模拟笑声、咳嗽和呼吸等人类语音自然特征。 情感和风格:能够为声音添加情感和风格,更具表现力。 GitHub 链接:https://github.com/FunAudioLLM/CosyVoice 相关链接:https://x.com/imxiaohu/status/1818942399705710700 。但关于音色复刻做的比较好的,上述信息中未明确提及。
2025-01-19
现在哪几家的大模型支持通过手机视频多模态实时交流?
以下几家的大模型支持通过手机视频多模态实时交流: 1. PandaGPT:能够理解不同模式的指令并根据指令采取行动,包括文本、图像/视频、音频、热、深度和惯性测量单位。 2. VideoLLaMA:引入了多分支跨模式 PT 框架,使语言模型能够在与人类对话的同时处理给定视频的视觉和音频内容。 3. 视频聊天 GPT:专门为视频对话设计,能够通过集成时空视觉表示来生成有关视频的讨论。 4. NExTGPT:端到端、通用的 anytoany 多模态语言模型,支持图像、视频、音频、文本的自由输入输出。
2024-11-22
中国头部的大模型公司分别是哪几家?
以下是中国头部的大模型公司: 北京: 百度(文心一言):https://wenxin.baidu.com 抖音(云雀大模型):https://www.doubao.com 智谱 AI(GLM 大模型):https://chatglm.cn 中科院(紫东太初大模型):https://xihe.mindspore.cn 百川智能(百川大模型):https://www.baichuanai.com/ 上海: 商汤(日日新大模型):https://www.sensetime.com/ MiniMax(ABAB 大模型):https://api.minimax.chat 上海人工智能实验室(书生通用大模型):https://internai.org.cn 此外,字节和腾讯都有团队在和外部大模型合作。创业公司中表现出色的有: 智谱:一年间推出了 4 代 GLM,一直是国内能力最好的模型之一。 MiniMax:推出了 MoE 架构的新模型,和“星野”这个目前国内最成功的 AI 陪聊 APP。 月之暗面:专注长 Token 能力,在记忆力和长 Token 能力上可圈可点。 通过 SuperCLUE 测评结果发现,文心一言 4.0、通义千问 2.0 引领国内大模型的研发进度,部分高质量大模型也在闭源应用和开源生态中形成自己独特的优势。从国内 TOP19 大模型的数量来看,创业公司和大厂的占比几乎持平。
2024-09-05
如何构建一个专属自己的智能体,用于撰写公司新闻稿,我会长期输入公司信息 请选择几家大模型公司的产品,具体说下操作步骤
以下是一些可用于构建专属智能体以撰写公司新闻稿的平台及操作步骤: 1. Coze:这是新一代的一站式 AI Bot 开发平台,适用于构建基于 AI 模型的各类问答 Bot。它集成了丰富的插件工具,能极大地拓展 Bot 的能力边界。 2. Microsoft 的 Copilot Studio:其主要功能包括外挂数据、定义流程、调用 API 和操作,以及将 Copilot 部署到各种渠道。 3. 文心智能体:百度推出的基于文心大模型的智能体平台,支持开发者根据自身需求打造大模型时代的产品能力。 4. MindOS 的 Agent 平台:允许用户定义 Agent 的个性、动机、知识,以及访问第三方数据和服务或执行设计良好的工作流。 5. 斑头雁:2B 基于企业知识库构建专属 AI Agent 的平台,适用于客服、营销、销售等多种场景,提供多种成熟模板,功能强大且开箱即用。 6. 钉钉 AI 超级助理:依托于钉钉强大的场景和数据优势,提供更深入的环境感知和记忆功能,在处理高频工作场景如销售、客服、行程安排等方面表现出色。 在实际构建和应用智能体时,您可以遵循以下准则: 1. 彻底让自己变成一个“懒人”。 2. 能动嘴的不要动手(用嘴说出您想做的事远比打字来的快)。 3. 能动手的尽量用 AI(用 AI 远比您苦哈哈的手敲要来的快)。 4. 把您手上的工作单元切割开,建设属于自己的智能体。 5. 根据结果反馈不断调整自己的智能体。 6. 定期审视自己的工作流程,看哪个部分可以更多的用上 AI。 您可以根据自己的需求选择适合的平台进行进一步探索和应用。
2024-08-09
现在有哪些类型的AI智能工具,每个类型分别有哪些主流产品,他们分别有什么优势
以下是一些常见类型的 AI 智能工具、主流产品及其优势: 1. 辅助编程工具: GitHub Copilot:由 GitHub 联合 OpenAI 和微软 Azure 团队推出,支持多种语言和 IDE,能快速提供代码建议,助开发者更快、更少地编写代码。 通义灵码:阿里巴巴推出,提供行级/函数级实时续写、自然语言生成代码等多种能力。 CodeWhisperer:亚马逊 AWS 团队推出,由机器学习技术驱动,为开发人员实时提供代码建议。 CodeGeeX:智谱 AI 推出的开源免费工具,基于 130 亿参数的预训练大模型,可快速生成代码提升效率。 Cody:Sourcegraph 推出,借助强大的代码语义索引和分析能力,了解开发者的整个代码库。 CodeFuse:蚂蚁集团支付宝团队推出的免费代码助手,基于自研基础大模型微调。 Codeium:通过提供代码建议等帮助软件开发人员提高编程效率和准确性。 更多辅助编程 AI 产品,可查看:https://www.waytoagi.com/category/65 。 2. 图生图工具: Artguru AI Art Generator:在线平台,生成逼真图像,为设计师提供灵感。 Retrato:将图片转换为非凡肖像,有 500 多种风格选择,适合制作个性头像。 Stable Diffusion Reimagine:通过稳定扩散算法生成精细、具细节的全新视觉作品。 Barbie Selfie Generator:将上传照片转换为芭比风格,效果好。 这些工具通过组合技术生成创意且质量不错的相似图像,但存在性能不稳定、生成内容不当等局限。 3. PPT 制作工具: Gamma:在线网站,通过输入文本和想法提示快速生成幻灯片,支持嵌入多媒体格式。https://gamma.app/ 美图 AI PPT:由美图秀秀团队推出,通过输入简单文本描述生成专业 PPT 设计,包含丰富模板库和设计元素。https://www.xdesign.com/ppt/ Mindshow:提供自动布局、图像选择和文本优化等智能设计功能。https://www.mindshow.fun/ 讯飞智文:科大讯飞推出,利用语音识别和自然语言处理技术优势,提供智能文本生成等功能。https://zhiwen.xfyun.cn/
2025-03-16
如何自动化收集主流自媒体指定搜索到的主题内容?
目前没有关于如何自动化收集主流自媒体指定搜索到的主题内容的相关知识。但一般来说,您可以考虑以下几种可能的方法: 1. 使用网络爬虫工具,但需要注意遵守相关法律法规和网站的使用规则。 2. 利用一些现有的数据采集服务平台,它们可能提供针对自媒体内容的采集功能。 3. 尝试开发自定义的脚本或程序,通过调用自媒体平台的 API(如果有的话)来获取所需内容。但这通常需要一定的技术知识和开发能力。
2025-03-13
市面上主流的大模型有什么区别
市面上主流的大模型主要有以下区别: 1. 架构类型: Encoderonly:适用于自然语言理解任务,如分类和情感分析,代表模型是 BERT。 Encoderdecoder:同时结合 Transformer 架构的 encoder 和 decoder 来理解和生成内容,用例包括翻译和摘要,代表是 Google 的 T5。 Decoderonly:更擅长自然语言生成任务,众多 AI 助手采用此结构,如 ChatGPT。 2. 处理信息类型: 大型语言模型:专注于处理和生成文本信息。 大型多模态模型:能够处理包括文本、图片、音频等多种类型的信息。 3. 应用场景: 大型语言模型:主要用于自然语言处理任务,如文本翻译、文本生成、情感分析等。 大型多模态模型:可应用于图像识别与描述、视频分析、语音识别与生成等更广泛的领域。 4. 数据需求: 大型语言模型:主要依赖大量的文本数据进行训练。 大型多模态模型:需要多种类型的数据进行训练,包括文本、图片、音频等。 5. 规模: 大模型的预训练数据非常大,往往来自互联网,包括论文、代码、公开网页等,一般用 TB 级别的数据进行预训练,参数也非常多,如 OpenAI 在 2020 年发布的 GPT3 就已达到 170B 的参数。 6. 优秀模型: GPT4(网页版)、GPT4(API)、智谱清言、通义千问 2.0、AndesGPT(OPPO)、文心一言 4.0(API)、MoonShot(KimiChat)、Claude2、360 智脑、Qwen72BChat、文心一言 4.0(网页版)等。 7. 性能表现:国内外大模型存在差距,如 GPT4 Turbo 总分 90.63 分遥遥领先,国内最好模型文心一言 4.0(API)总分 79.02 分,与 GPT4 Turbo 有一定差距。
2025-03-13
有没有一款智能客服软件,支持同时接入抖音、天猫、淘宝、京东、拼多多、得物等主流平台的售前售后咨询问题,并根据客户关键字自动回复
目前已知以下智能客服算法: 天猫小蜜智能客服算法:由浙江天猫网络有限公司提供,应用于手机天猫(APP)的在线智能客服场景,能识别文字或语音问题,结合智能客服知识库生成回答。 钉钉智能客服算法:由钉钉科技有限公司提供,应用于钉钉(APP)的在线智能客服场景,能根据用户咨询内容结合知识库生成多种形式的回答。 淘票票小蜜智能客服算法:由上海淘票票影视文化有限公司提供,应用于淘票票(APP)的在线智能客服场景,能根据用户咨询生成文本或语音智能回答。 1688 阿牛智能客服算法:由杭州阿里巴巴广告有限公司提供,应用于 1688 工业品(APP)、阿里巴巴(APP、网站)的在线智能客服场景,能结合知识库生成多种形式的回答。 但尚未有一款明确表明能同时接入抖音、天猫、淘宝、京东、拼多多、得物等主流平台售前售后咨询问题,并根据客户关键字自动回复的智能客服软件。
2025-03-05
有哪些主流 免费的文字生成语音的工具?
以下是一些主流免费的文字生成语音的工具: 1. Eleven Labs:https://elevenlabs.io/ ,是一款功能强大且多功能的 AI 语音软件,能高保真地呈现人类语调和语调变化,并能根据上下文调整表达方式。 2. Speechify:https://speechify.com/ ,是一款人工智能驱动的文本转语音工具,可作为多种平台应用使用,用于收听网页、文档、PDF 和有声读物。 3. Azure AI Speech Studio:https://speech.microsoft.com/portal ,是一套服务,提供了支持 100 多种语言和方言的语音转文本和文本转语音功能,还提供了自定义的语音模型。 4. Voicemaker:https://voicemaker.in/ ,可将文本转换为各种区域语言的语音,并允许创建自定义语音模型,易于使用,适合为视频制作画外音或帮助视障人士。 您还可以在 WaytoAGI 的工具网站上查看更多推荐:https://www.waytoagi.com/sites/category/50 。请注意,内容由 AI 大模型生成,请仔细甄别。
2025-03-05
新手如何更好使用该网站,主要了解人工智能或者AGI进展,主流软件的学习和应用
对于新手想要更好地使用该网站来了解人工智能或 AGI 进展以及主流软件的学习和应用,以下是一些相关内容: AE 软件: 基本功能:可通过图层软件抠元素加插件做特效,如利用 auto field 自动填充工具,轨道遮罩功能让图层按特定形状变化等。 与 AI 结合运用:如用 runway 生成烟花爆炸素材,结合 AE 的图层混合模式、遮罩等功能实现特效可控的画面。 其他应用:用内容识别填充功能处理视频画面,如抹掉入镜的人;从素材网站获取粒子素材为画面添加氛围感。 学习路径:可在 B 站找丰富的 AE 软件入门课程自学,也可从包图网下载工程文件学习。 学习方法:通过拆解视频、留意路边广告特效、按层级逻辑思考画面运动来学习 AE,还可参考模板。 与 AI 的关系:AI 出现后,AE 使用减少,有些动效可用 AI 完成。 在短剧中的应用:在火焰、文字、光线等方面有少量应用。 AI 相关技术与活动: AI 音乐创作:通过输入更高级的词汇与 AI 音乐对话能产生更好效果,有 AI 音乐的版块、挑战、分享会和教程,可通过王贝加入 AI 音乐社区。 数字人语音合成:介绍了声音克隆技术,提到了微软、阿里等的相关成果,常用的是 JPT service。 Config UI 的应用:能降低成本、提高效率,在图书出版、引流等方面有应用,岗位稀缺,社区有相关共学课程。 社区共创项目:包括东京的 confii 生态大会、AI 文旅视频、娃卡奖、李普村共创故事、AI 春晚等活动。 作业与报名:作业是询问对 AI 方向的兴趣和想做的项目,活动报名可通过填写名字和申请新增学校参与。 线下寄送物料组织活动:会给大家寄送线下活动物料,在学校内组织。 AI 春晚即将开始:去年 300 人 30 天共创了 AI 春晚,今年的也即将开始,可报名参与多种岗位。 AIPO 活动及相关挑战:10 月 20 日的 AIPO 活动,可提前构思展示项目,有会话和视频相关的挑战赛。 共学活动与技能提升:接下来 10 天有从零基础到建站等内容的讲解,回放会放在链接里,可先从练习提示词入手。 硬件机器人材料购买:若搞硬件机器人,部分材料需尽快购买。 自媒体发布与流量扶持:在小红书发布活动内容带特定标签有流量扶持,作品也可发布在 GitHub 等平台。 活动奖项与历史玩法:设最佳创业奖和最佳投资奖各四个,有线下摆摊展示交流、IPO 路演等玩法,之前在多个城市举办过 AI 切磋大会。 工具使用与新大赛预告:可使用多种 AI 工具,新的大赛即将开启,有百万奖金池,相关动态会在社区活动栏目公布。 AI 音乐和数字人语音合成: AI 音乐方面,提到草爷、格林 king、狗哥带大家入门,有相关课程与教程,且淘宝上有套壳工具抄袭。社区伙伴做的 AI 音乐专辑不错。 数字人语音合成部分提到声音克隆,有新的声音克隆且音质很不错。 提到了微软新出的成果、阿里的 Cozy voice(指出其泛化能力不强)、大家常用的 GPT solve it、刚举办的 AI 3D 活动。 以小田的 config UI 基础工作流一日谈展开,讲述了多个案例,如许建拍摄场景图成本降低,郭佑萌在图书出版行业提升效率,影楼可进行换装等操作,文旅文创场景有有趣的合影生成方式,还提到该工作流岗位稀缺且社区有课程可供学习。 AJ 介绍平台资源,包括共学课程、专栏报告、数据等,还提及就业创业及一些企业专栏的内容。
2025-02-28
深度学习模型架构有哪些
深度学习模型架构主要包括以下几种: 1. Transformer 模型: 由编码器(Encoder)和解码器(Decoder)两大部分组成。 每个部分由多个相同的层堆叠而成,每层包含多头注意力机制(Multihead Attention)和位置全连接前馈网络。 编码器将自然语言转换成向量文本,解码器基于编码器的输出和之前生成的输出逐步生成目标序列。 2. DiT 架构:结合扩散模型和 Transformer 的架构,用于高质量图像生成。 3. 存算一体架构: 是未来 AI 硬件的发展趋势。 运行几百亿个参数的大模型时具有优势,可避免数据搬运。 此外,在端到端算法的时代,有观点认为不应继续使用冯诺依曼架构,且在存算一体的芯片之上,有望诞生全新的算法。在将大模型与私域知识结合方面,有重新训练、微调、RAG、关键词工程、加长 Context 等方法,其中长 Context 和 RAG 被认为较有希望。
2025-03-22
大模型是怎么训练的
大模型的训练过程可以类比为“上学参加工作”: 1. 找学校:训练大模型需要大量的计算资源,如 GPU,只有具备强大计算能力的机构才有条件训练自己的大模型。 2. 确定教材:大模型需要大量的数据,通常几千亿序列(Token)的输入是基本要求。 3. 找老师:即选择合适的算法来讲解“书本”中的内容,让大模型更好地理解 Token 之间的关系。 4. 就业指导:学完知识后,为了让大模型更好地胜任某一行业,需要进行微调(fine tuning)指导。 5. 搬砖:就业指导完成后,正式干活,比如进行翻译、问答等,在大模型里称之为推导(infer)。 在 LLM 中,Token 被视为模型处理和生成的文本单位,可以代表单个字符、单词、子单词,甚至更大的语言单位,具体取决于所使用的分词方法(Tokenization)。在将输入进行分词时,会对其进行数字化,形成一个词汇表(Vocabulary)。 此外,训练大模型的基础步骤如下: 1. 创建数据集:进入厚德云模型训练数据集(https://portal.houdeyun.cn/sd/dataset),在数据集一栏中点击右上角创建数据集,输入数据集名称。可以上传包含图片和标签的 zip 文件,也可单独上传照片,但建议提前将图片和标签打包成 zip 上传,且图片名与对应的达标文件应匹配。上传后等待一段时间,确认创建数据集,返回上一个页面等待上传成功,可点击详情检查,能预览到数据集的图片以及对应的标签。 2. Lora 训练:点击 Flux,基础模型会默认是 FLUX 1.0D 版本。选择数据集,触发词可有可无,取决于数据集是否有触发词,模型效果预览提示词可随机抽取数据集中的一个标签填入。训练参数可调节重复次数与训练轮数,若不知如何设置,可默认 20 重复次数和 10 轮训练轮数。可按需求选择是否加速,点击开始训练,会显示所需要消耗的算力,然后等待训练,会显示预览时间和进度条。训练完成会显示每一轮的预览图,鼠标悬浮到想要的轮次模型,中间会有生图,点击可自动跳转到使用此 lora 生图的界面,点击下方的下载按钮可自动下载到本地。 从原理层面,用数学来理解 Prompt:传统的机器学习是 p,但这个模型未经人工标注,我们给出的 Prompt 就是 x,让大模型基于此知道概率最大的 y,避免人工标注,但依赖 x 给入的信息更大概率找到合适的 y。例如给一张照片,输入“这是一个动物,这是什么”,大模型根据输入提取特征和提示,最终返回结果。
2025-03-22
大模型是什么
大模型通俗来讲,是输入大量语料,让计算机获得类似人类的“思考”能力,从而能够理解自然语言,并进行文本生成、推理问答、对话、文档摘要等工作。 大模型的训练和使用过程可以用“上学参加工作”来类比: 1. 找学校:训练大模型需要大量计算,GPU 更合适,只有购买得起大量 GPU 的才有资本训练。 2. 确定教材:大模型需要大量的数据量,几千亿序列(Token)的输入基本是标配。 3. 找老师:即选择合适的算法讲述“书本”中的内容,让大模型更好理解 Token 之间的关系。 4. 就业指导:为了让大模型更好胜任某一行业,需要进行微调(fine tuning)指导。 5. 搬砖:就业指导完成后,进行如翻译、问答等工作,在大模型里称之为推导(infer)。 在大模型中,Token 被视为模型处理和生成的文本单位,会被分割并生成词汇表,数字化后便于计算机处理。为让计算机理解 Token 之间的联系,还需把 Token 表示成稠密矩阵向量,这个过程称为 embedding,常见算法有基于统计的 Word2Vec、GloVe,基于深度网络的 CNN、RNN/LSTM,基于神经网络的 BERT、Doc2Vec 等。以 Transform 为代表的大模型采用自注意力(Selfattention)机制来学习不同 token 之间的依赖关系,生成高质量 embedding。 大模型的“大”指用于表达 token 之间关系的参数多,主要是模型中的权重(weight)与偏置(bias),例如 GPT3 拥有 1750 亿参数。 所谓的大模型,简而言之,就是拥有庞大参数数量的模型,通过处理和理解海量数据,能够胜任一系列复杂的任务。其规模之大通常包含从数十亿到数千亿的参数,庞大的参数集合赋予了强大的学习和记忆能力。大模型强大的原因一方面在于庞大的参数数量,这些参数在学习过程中不断调整,帮助模型更深入地理解和生成数据;另一方面,大模型的训练离不开大量的数据,包括文本、图像、音频等,通过对这些数据的学习,模型能够掌握丰富的知识和技能。 GPT 是“生成式预训练变换器”(Generative Pretrained Transformer)的缩写,是一种大型语言模型(LLM),也是生成式人工智能的重要框架。
2025-03-22
哪个APP或大模型写公文比较好
目前在写公文方面,以下是一些相关的信息: 大模型工具推荐:chatGPT 4.0、kimichat、智谱清言 4。 飞书文档带有文本纠错功能。 但对于专门用于写公文的 APP ,上述内容中未明确提及。
2025-03-21
Stable Diffusion有哪些模型
Stable Diffusion 模型包括以下几种: 1. Stable Video Diffusion 模型: 避坑指南:直接使用百度网盘准备好的资源可规避大部分坑;若报显存溢出问题,可调低帧数或增加 novram 启动参数;云部署实战部分,基础依赖模型权重有两个 models–laion–CLIPViTH14laion2Bs32Bb79K 和 ViTL14.pt,需放到指定路径下。 总结:Sora 发布后,之前的视频生成模型略显逊色,Stable Video Diffusion 作为开源项目可自由创作无需充值,有独特优势。其生成的视频画质清晰、过渡自然,虽目前只能生成最多 4 秒视频,但在不断迭代。 2. 潜在扩散模型(Latent Diffusion Models): CLIP:将用户输入的 Prompt 文本转化成 text embedding。 核心组件:VAE EncoderDecoder、UNET(进行迭代降噪,在文本引导下进行多轮预测)。 存放路径:ComfyUI 存放路径为 models/checkpoints/。 基础预训练模型:SD1.5、SDXL。 训练方法:DreamBooth(by Google)。 格式:.pt、.safetensor。 融合模型:checkpoint+checkpoint、Lora+Lora、checkpoint+Lora。 模型自带已适配的 VAE。 微调模型:概念学习、Checkpoint。 3. 不同版本模型对比: Stable Diffusion 2.0 系列模型。 Stable Diffusion 2.1 系列模型。 Stable Diffusion 1.6 系列模型。 SD Turbo 模型。 4. 性能优化方面: 使用 TF32 精度加速 SD 模型训练与推理。 使用 FP16 半精度加速。 对注意力模块进行切片。 对 VAE 进行切片。 大图像切块。 CPU<>GPU 切换。 变换 Memory Format。 使用 xFormers 加速 SD 模型训练与推理。 使用 tomesd 加速 SD 模型推理。 使用 torch.compile 加速 SD 推理速度。 此外,还有关于 Stable Diffusion 训练数据集制作、微调训练、基于其训练 LoRA 模型、训练结果测试评估等方面的内容。
2025-03-21
我现在是学了一段时间的comfyui+flux,接下来准备学Python开发comfyui节点、对接模型,这样学下去方向有没有问题呢
您学习 ComfyUI 和 Flux 一段时间后准备学习 Python 开发 ComfyUI 节点并对接模型,这个方向是可行的。以下是一些相关的知识和要点供您参考: 工作流方面: 工作流节点可直接拖动单个节点到任意位置,也可按住 Control 键并用鼠标左键滑框选中多个节点,再按 Shift 键一起拖动。 选中节点后右键新建组,可修改组名、颜色等,组被覆盖时可直接拖动组。 选中节点后右键选择对齐方式,如顶部对齐、左边对齐等。 第三方节点的安装方式包括在 customer NODE manager 中安装、在 GitHub 上复制链接安装、通过终端输入指令安装、在秋叶启动器的版本管理中安装。 可通过 group by Parser 节点控制组,也可通过按住节点按 control b 跳过或按 control m 终止执行。 模型方面: 噪声强度由种子调节,种子固定噪声分布方式,噪声与 CLIP 无关,增大噪声设置值会增强模型对图片重绘的程度。 模型版本的提示词差异:1.5 以 tag 为主,XL 论文称以自然语言为主,但实际使用中因模型微调情况可能仍需用 tag。 Flux 模型有时生成黑图,可能有修复方案,需自行查询。图像生成结果为空,可能是 VAE 编码器与大模型未连接,调整连接后问题解决。 安装方面: 自动打标 joy_caption 副本的节点安装地址为 D:\\ComfyUI\\ComfyUI_windows_portable\\ComfyUI\\custom_nodes。 安装步骤包括:(Comfyui evn python.exe)python m pip install rrequirements.txt 或点击 install_req.bat,注意 transformers 版本不能太低。 下载模型或者运行 ComfyUI 自动下载模型到合适文件夹,如从 https://huggingface.co/unsloth/MetaLlama3.18Bbnb4bit 下载并放到 Models/LLM/MetaLlama3.18Bbnb4bit 文件夹内。 新版的 PuLID 解决了模型污染的问题,使用新版的节点需要禁用或者删除之前的 PuLID 节点,不然可能会有冲突问题。模型放在 ComfyUI\\models\\pulid 文件夹里面,注意用新版的。 如果使用 PuLID,还需要安装 EVA CLIP 等模型。
2025-03-21
国内的大语言模型清单
以下是一些国内的大语言模型: 1. 文心一言:可用于文学创作、商业文案创作、数理逻辑推算、中文理解、多模态生成等。 2. 讯飞星火:通用模型,处理自然语言。 3. “悟道・天鹰”(北京智源人工智能研究院):首个具备中英文双语知识、支持商用许可协议、国内数据合规需求的开源语言大模型。 此外,如果想了解国内大模型的效果,可以参考第三方基准评测报告:
2025-03-20
我想在飞书里面将一段话批量翻译成不同国家的语言 该 怎么做
目前飞书中可能没有直接将一段话批量翻译成不同国家语言的内置功能。但您可以借助一些第三方的翻译工具或软件来实现,比如谷歌翻译、百度翻译等。您将需要翻译的段落复制到这些工具中,然后选择您想要翻译的目标语言进行批量翻译。
2025-03-19
我想用使用AsrTools,用于语言转文字,如何使用
AsrTools 是一款批量语音转文字工具。但关于其具体的使用方法,目前所提供的信息中并未有详细描述。您可以通过以下常规步骤来尝试使用类似工具:首先,获取 AsrTools 软件并进行安装;然后,打开软件,查找导入语音文件的入口,将您需要转换的语音文件导入;接下来,根据软件界面的提示或设置选项,选择合适的转换参数,如语言类型、识别精度等;最后,点击开始转换按钮,等待转换完成并获取转换后的文字结果。您还可以查看该工具的官方文档或帮助说明,以获取更准确和详细的使用指导。
2025-03-19
关于AI广告视频 运镜 镜头语言的内容
以下是关于 AI 广告视频运镜和镜头语言的相关内容: 脚本和分镜创作: 对于一个 30 秒时长的奔驰 GLE300L 广告脚本,要突出豪华感和车辆特点。脚本应包括时长、内容(开场白、汽车基本介绍、亮点展示、客户证言或推荐、呼吁行动)、音乐、台词、道具、景别和运镜等方面的规划。 可借助 Claude 生成脚本,若不满意可要求修改。 海螺超级创作者的经验: Jason Lee 用 DeepSeek+海螺 AI 组合,通过复杂的运镜,如电影级和游戏级的运镜,挑战视频模型的能力边界,并得到了意想不到的反馈。 这类大片级运镜涉及大量非常规的镜头语言,其复杂性在于“有限技术资源与无限创意需求”的博弈,需要在经费、技术、艺术表达之间不断折衷。 运镜宝典: 推镜头:在电影《教父》、广告的产品细节展示、AI 视频的人物情感变化强调等场景中有应用。 拉镜头:在电影《肖申克的救赎》、广告从产品细节到品牌标识的过渡、AI 视频的故事结束时的情感释放等场景中有应用。 摇镜头:在电影《指环王》、广告展示产品系列或空间连续性、AI 视频的虚拟环境空间介绍等场景中有应用。 移镜头:在电影《布达佩斯大饭店》、广告展示产品系列或连续摆放的物品、AI 视频展示虚拟展厅中的多个展品等场景中有应用。 跟镜头:在电影《鸟人》、广告跟随使用产品的人物展示使用过程、AI 视频跟随角色穿越不同场景保持叙事连贯性等场景中有应用。 升降镜头:在电影《泰坦尼克号》、广告从产品细节上升到品牌环境的转变、AI 视频从人物对话上升到展示整个场景的氛围等场景中有应用。
2025-03-18
关于AI广告视频 运镜 镜头语言的内容
以下是关于 AI 广告视频运镜和镜头语言的相关内容: 脚本和分镜创作: 对于一个 30 秒时长的奔驰 GLE300L 广告脚本,要突出豪华感并展现车辆特点,包括动力配置、内饰配置等。脚本结构应包含时长、内容(开场白、汽车介绍、亮点展示、客户证言、呼吁行动)、音乐、台词、道具、景别和运镜等方面。 可利用 Claude 生成脚本,若不满意可要求修改。 海螺超级创作者的经验: Jason Lee 用 DeepSeek+海螺 AI 尝试复杂运镜,如电影级和游戏级运镜,挑战视频模型能力边界,并得到意想不到的反馈。 大片级运镜涉及大量非常规镜头语言,其复杂性在于“有限技术资源与无限创意需求”的博弈,需要平衡多方面因素,且对 AI 视频工具的空间理解能力要求较高。 运镜宝典中的应用场景示例: 推镜头:在电影《教父》、广告的产品细节展示、AI 视频的人物情感变化强调等场景中有应用。 拉镜头:在电影《肖申克的救赎》、广告从产品细节到品牌标识的过渡、AI 视频的故事结束时情感释放等场景中有应用。 摇镜头:在电影《指环王》、广告展示产品系列或空间连续性、AI 视频的虚拟环境空间介绍等场景中有应用。 移镜头:在电影《布达佩斯大饭店》、广告展示产品系列或连续摆放的物品、AI 视频展示虚拟展厅中的多个展品等场景中有应用。 跟镜头:在电影《鸟人》、广告跟随使用产品的人物展示使用过程、AI 视频跟随角色穿越不同场景保持叙事连贯性等场景中有应用。 升降镜头:在电影《泰坦尼克号》、广告从产品细节上升到品牌环境的转变、AI 视频从人物对话上升到展示整个场景的氛围等场景中有应用。
2025-03-18
大语言模型的技术原理
大语言模型的技术原理包括以下几个方面: 1. 相关概念与关系: AI 即人工智能。 机器学习是电脑找规律学习,包括监督学习(有标签的训练数据,算法目标是学习输入和输出之间的映射关系,包括分类和回归)、无监督学习(学习的数据没有标签,算法自主发现规律,经典任务如聚类)、强化学习(从反馈里学习,最大化奖励或最小化损失,类似训小狗)。 深度学习是一种参照人脑有神经网络和神经元的方法(因有很多层所以叫深度),神经网络可用于监督学习、无监督学习、强化学习。 生成式 AI 可以生成文本、图片、音频、视频等内容形式。 LLM 即大语言模型,对于生成式 AI,生成图像的扩散模型不是大语言模型;对于大语言模型,生成只是其中一个处理任务,如谷歌的 BERT 模型可用于语义理解(不擅长文本生成),如上下文理解、情感分析、文本分类。 2. 技术里程碑:2017 年 6 月,谷歌团队发表论文《Attention is All You Need》,首次提出了 Transformer 模型,它完全基于自注意力机制(SelfAttention)来处理序列数据,而不需要依赖于循环神经网络(RNN)或卷积神经网络(CNN)。 3. 工作原理: 包括训练数据、算力、模型参数,在训练数据一致情况下,模型参数越大能力越强。 Transformer 是大语言模型训练架构,具备自我注意力机制能理解上下文和文本关联,其工作原理是单词预测,通过嵌入、位置编码、自注意力机制生成内容,模型调教中有控制输出的 temperature。 Transformer 模型通过不断检索和匹配来寻找依赖关系,处理词和词之间的位置组合,预测下一个词的概率,是一个偏向概率预测的统计模型。 4. 可能存在的问题:大模型可能因错误数据导致给出错误答案,即大模型幻觉,优质数据集对其很重要。 5. 相关应用: 国内大模型有通用模型如文心一言、讯飞星火等,处理自然语言;还有垂直模型,专注特定领域如小语种交流、临床医学、AI 蛋白质结构预测等。 Prompt 分为 system prompt、user prompt 和 assistant prompt,写好 prompt 的法则包括清晰说明、指定角色、使用分隔符、提供样本等,核心是与模型好好沟通。 Fine tuning 微调是基于通用大模型,针对特定领域任务提供数据进行学习和调整,以适应特定领域的需求。
2025-03-18