Navigate to WaytoAGI Wiki →
Home/Question List/Question Detail

有专门识别专业图片的大模型工具吗?

Answer

目前有一些可用于识别专业图片的大模型工具。例如,chatGPT 4.0、kimichat、智谱清言等。国产大模型中,像智谱和文心等也具备一定的相关能力。在使用图片相关工具时,比如清影,有一些技巧,如选用尽可能清晰的图片,上传图片比例最好为 3:2(横版),若原图不够清晰可采用分辨率提升工具将其变清晰,提示词要简单清晰等。

Content generated by AI large model, please carefully verify (powered by aily)

References

提示词快闪答疑

1.lili上课用什么工具大模型工具请大家自行准备哈。根据自己条件准备,以下是推荐顺序:1.chatGPT 4.02.kimichat3.智谱清言41.张俊文本纠错方面有什么方法案例如果是问工具的话飞书文档就带纠错功能,还可以。如果是用prompt纠错的话文本量不能太大,就直接告诉大模型:检查下列文本中的错别字、语法错误和格式错误,指出并改正,重新生成新的文本。1.王鹏华用文心一言APP,可以吗可以1.和子有没有适用于Mj Dalle3,stable diffusion方面AI绘画提示词生成技巧绘画问题超纲了1.Claire看到国外有些提示词已经可以支持调用其他AI工具了。例如chatGPT调用画图的AI工具。国内有类似AI工具之间调用的吗?你的问题没有描述清楚,是指国产大模型能不能文生图吗?是的话,一些模型可以,比如智谱和文心。1.Claire看到国外有些提示词已经可以支持调用其他AI工具了。例如chatGPT调用画图的AI工具。国内有类似AI工具之间调用的吗?你的问题没有描述清楚,是指国产大模型能不能文生图吗?是的话,一些模型可以,比如智谱和文心。1.有没有什么方法把文章给AI看看让他自己给自己写Prompt把文章给大模型看看很容易发给他就想了,关键是自己给自己写什么样的prompt?

十七问解读生成式人工智能

“小模型”确实有其优势,尤其是在特定任务上表现得非常出色。比如,如果你训练了一个专门识别猫🐱或狗🐶的模型,它在这个任务上可能非常精准。然而,这个模型就无法用于其他任务(因为用来训练模型的数据主要是由猫猫狗狗的照片组成的)。而“大模型”则不同,它像一个多功能的基础平台(有时也被称为“基座模型”)。大模型可以处理多种不同的任务,应用范围非常广泛,并且拥有更多的通识知识。这就是为什么尽管“小模型”在某些特定领域内表现优异,我们仍然需要“大模型”的原因:它们能够在更广泛的场景中提供支持和解决问题。

工具教程:清影

⚠️技巧1:选用尽可能清晰的图片,上传图片比例最好为3:2(横版),清影支持上传png和jpeg图像如果原图不够清晰,会影响模型对图片的识别,可以采用分辨率提升工具将图片变清晰。⚠️技巧2:提示词要【简单清晰】1️⃣可以选择不写prompt,直接让模型自己操控图片动起来。2️⃣明确你想动起来的【主体】并以「主体」+「主题运动」+「背景」+「背景运动」的方式撰写提示词(一定要有主体,不然可能会出现AI狂乱景象)如果你不明确大模型如何理解你的图片,推荐将照片发送到清言对话框进行识图,明确你的【主体】该如何描述。

Others are asking
自动语音识别加字幕
以下是关于自动语音识别加字幕的相关内容: 制作 AI 数字人视频添加字幕的方法: 在显示区域,拖动背景图的角将其放大到适合尺寸,如覆盖视频窗口,并将数字人拖动到合适位置。点击文本 智能字幕 识别字幕,然后点击开始识别,软件会自动将文字智能分段并形成字幕。至此,数字人视频完成,可点击右上角“导出”按钮导出视频备用。 文旅片添加字幕的方法: 选择朗诵男生或清爽男生的音色进行朗读,点击开始朗读自动生成音频。鼠标右键点击当前音轨,找到识别字幕/歌词,耐心等待生成对应文本字幕。操作复杂的部分可观看录制的视频。若剪映的识别字幕功能需要 VIP,可准备好字幕文件,点击本地字幕并导入文件。 视频自动字幕工具推荐: 1. Reccloud:免费的在线 AI 字幕生成工具,可上传视频精准识别,能翻译字幕并生成双语字幕,处理过 1.2 亿+视频,识别准确率接近 100%。 2. 绘影字幕:一站式专业视频自动字幕编辑器,提供字幕制作和翻译服务,支持 95 种语言,准确率高达 98%,可自定义字幕样式。 3. Arctime:能对视频语音自动识别并转换为字幕,支持自动打轴,支持 Windows 和 Linux 等主流平台及 SRT 和 ASS 等字幕功能。 4. 网易见外:国内知名语音平台,支持视频智能字幕功能,转换正确率较高,支持音频转写功能。 您可根据自身需求选择适合的工具。
2025-02-14
意图识别如何通过提示词实现
通过提示词实现意图识别通常有以下几种方式: 1. 准备特定于任务的数据集,对模型进行 Finetuning,以提升其在特定意图识别任务上的表现。但此过程需要较多训练数据和计算资源。 2. 使用 Prompttuning 方法,通过精心设计的提示词来引导模型识别和响应用户意图。这种方法具有灵活性和快速适应性。 3. 对用户的指令通过提示词进行分类,以识别不同的意图,然后根据识别出的意图执行相应动作,最终输出 JSON 格式的结果。 4. 对用户提问进行分类,如分为导航类、信息查询类、交易类、本地信息类等,匹配更准的信息源和更好的回复提示词。例如搜索“笔记本电脑”,提取出“shopping”意图,挂载相关电商平台信息源进行更小范围搜索,并加载匹配的提示词模板控制大模型回答内容。 5. 利用大模型提供的 Function Calling 能力进行意图识别。 但目前主流的实现方案,不管是成熟的大模型还是微调的小模型,准确度都不够高。
2025-02-11
通过图片,识别其中的内容,然后生成可以编辑的PPT文件,使用什么AI工具可以完成?
以下是一些可以通过图片识别其中内容并生成可编辑 PPT 文件的 AI 工具: 1. 增强版 Bot:这是一个基于 AI 驱动的智能创作平台,能够实现一站式内容生成,包括图片、PPT、PDF 等。您可以在对话框输入诉求,如“帮我生成一篇包含以上架构风格的完整 PPT”,它会为您生成幻灯片内容和相关模板选择。 2. Gamma:在线 PPT 制作网站,允许用户通过输入文本和想法提示快速生成幻灯片,还支持嵌入多媒体格式,如 GIF 和视频。网址:https://gamma.app/ 3. 美图 AI PPT:由知名图像编辑软件“美图秀秀”的开发团队推出,用户通过输入简单的文本描述来生成专业的 PPT 设计,包含丰富的模板库和设计元素。网址:https://www.xdesign.com/ppt/ 4. Mindshow:AI 驱动的 PPT 辅助工具,提供一系列的智能设计功能,如自动布局、图像选择和文本优化等。网址:https://www.mindshow.fun/ 5. 讯飞智文:由科大讯飞推出的 AI 辅助文档编辑工具,利用语音识别和自然语言处理领域的技术优势,提供智能文本生成、语音输入、文档格式化等功能。网址:https://zhiwen.xfyun.cn/ 6. GPT4、WPS AI 和 chatPPT:卓 sir 在完成 PPT 作业时使用的三个 AI 工具。
2025-02-08
一、学习内容 1. AI工具的操作:了解并掌握至少一种AI工具的基本操作,如智能代码、流程管理、智能报表、数据分析、图像识别、文字生成等。 2. AI工具在本职工作的应用:思考并提出AI工具如何帮助你更高效地完成本职工作,包括但不限于提高工作效率、优化工作流程、节约成本、提升交付质量等。 3. AI工具在非本职工作的潜力推演:探索AI工具如何在你的非本职工作领域发挥作用,比如在公司管理、团队领导、跨部门合作、团队发展以及市场研究等方面。提出这些工具如何被有效利用,以及它们可能带来的改
以下是关于学习 AI 的相关内容: 一、AI 工具的操作 要了解并掌握至少一种 AI 工具的基本操作,如智能代码、流程管理、智能报表、数据分析、图像识别、文字生成等。 二、AI 工具在本职工作的应用 思考并提出 AI 工具如何帮助更高效地完成本职工作,包括但不限于提高工作效率、优化工作流程、节约成本、提升交付质量等。 三、AI 工具在非本职工作的潜力推演 探索 AI 工具在非本职工作领域,如公司管理、团队领导、跨部门合作、团队发展以及市场研究等方面的作用,思考如何有效利用这些工具以及它们可能带来的改变。 四、学习路径 1. 对于不会代码的学习者: 20 分钟上手 Python+AI,在 AI 的帮助下可以完成很多基础的编程工作。若想深入,需体系化了解编程及 AI,至少熟悉 Python 基础,包括基本语法(如变量命名、缩进等)、数据类型(如字符串、整数、浮点数、列表、元组、字典等)、控制流(如条件语句、循环语句)、函数(定义和调用函数、参数和返回值、作用域和命名空间)、模块和包(导入模块、使用包)、面向对象编程(类和对象、属性和方法、继承和多态)、异常处理(理解异常、异常处理)、文件操作(文件读写、文件与路径操作)。 2. 新手学习 AI: 了解 AI 基本概念,建议阅读「」部分,熟悉术语和基础概念,浏览入门文章。 开始 AI 学习之旅,在「」中找到为初学者设计的课程,推荐李宏毅老师的课程,也可通过在线教育平台(如 Coursera、edX、Udacity)按自己节奏学习并获证书。 选择感兴趣的模块深入学习,掌握提示词技巧。 实践和尝试,理论学习后通过实践巩固知识,在知识库分享实践作品和文章。 体验 AI 产品,如 ChatGPT、Kimi Chat、智谱、文心一言等聊天机器人,了解其工作原理和交互方式。 五、工具推荐 1. Kimi 智能助手:ChatGPT 的国产平替,上手体验好,适合新手入门学习和体验 AI。不用科学网、不用付费、支持实时联网,是国内最早支持 20 万字无损上下文的 AI,对长文理解做得好,能一次搜索几十个数据来源,无广告,能定向指定搜索源(如小红书、学术搜索)。 PC 端: 移动端(Android/ios): 2. 飞书:汇集各类 AI 优质知识库、AI 工具使用实践的效率工具,助力人人成为效率高手。
2025-02-07
我想要搭建一个可以视频和图片识别宠物猫品种和品相的智能体
以下是为您提供的关于搭建可以视频和图片识别宠物猫品种和品相的智能体的相关信息: 目前有一种技术叫 PixelLLM,它是由 Google 开发的新型视觉语言模型。其完善后在弱视(眼疾)用户方面会有较好的应用场景。这个模型不仅能够对图片进行详细描述,还能精确指出图片中每个词汇对应的具体位置。例如,若图片中有一只猫和一只狗,PixelLLM 不仅能识别出“猫”和“狗”,还能指出它们在图片中的具体位置。这种能力使得模型在处理需要图像和文字紧密结合的任务时表现出色,比如在一张图片中找到特定的物体或区域,并对其进行描述。 主要特点包括: 1. 像素级词汇对齐:不仅能告知图片里有什么,还能准确指出这些东西在图片的具体位置。 2. 多种功能:具备多种处理图像和文字结合任务的能力。 您可以考虑基于类似的技术来搭建您所需的智能体。
2025-02-06
假设你是经验丰富的AI工程师,现在需要搭建能够自行识别电商直播平台中客户提出的问题并给出不死板且AI痕迹弱的回答,同时直播的主播是我们虚拟的数字人,请问需要怎么做,请给出具体步骤
以下是搭建能够自行识别电商直播平台中客户提出的问题并给出自然回答,且直播主播为虚拟数字人的具体步骤: 1. 选择数字人工具软件: 考虑实时驱动和非实时驱动两类。实时驱动能在直播时更改音频话术,真人可接管,标准零售价一年 4 6 万往上;非实时驱动一个月 600 元,但效果差,类似放视频的伪直播,市场价格混乱。 2. 确定数字人运营服务模式: 按直播间成交额抽佣。 3. 明确适用品类和场景: 适用于不需要强展示的商品,如品牌食品饮料;适用于虚拟商品,如门票、优惠券等;店播效果较好,数据能保持跟真人一样;不适用于促销场景和服装品类。 4. 了解 AI 直播的壁垒和未来市场格局: 目前有技术门槛,如更真实的对口型、更低的响应延迟等,但长期看技术上无壁垒。 市场不会一家独大,可能 4 5 家一线效果公司,大多为二三线效果公司。 能把客户服务好、规模化扩张的公司更有价值,疯狂扩代理割韭菜的公司售后问题多。 有资源、有业务的大平台下场可能带来降维打击,如剪映若不仅提供数字人,还提供货品供应链、数据复盘分析等全环节服务,会对其他公司形成竞争压力。
2025-02-06
语文教学如何使用大模型
在语文教学中使用大模型,可以参考以下方面: 1. 提示词设置: Temperature:参数值越小,模型返回结果越确定;调高参数值,可能带来更随机、多样化或具创造性的产出。对于质量保障等任务,可设置低参数值;对于诗歌生成等创造性任务,可适当调高。 Top_p:与 Temperature 类似,用于控制模型返回结果的真实性。需要准确答案时调低参数值,想要更多样化答案时调高。一般改变其中一个参数即可。 Max Length:通过调整控制大模型生成的 token 数,有助于防止生成冗长或不相关的响应并控制成本。 Stop Sequences:指定字符串来阻止模型生成 token,控制响应长度和结构。 Frequency Penalty:对下一个生成的 token 进行惩罚,减少响应中单词的重复。 2. 了解大模型: 大模型通俗来讲是输入大量语料,让计算机获得类似人类的“思考”能力,能进行文本生成、推理问答、对话、文档摘要等工作。 训练和使用大模型可类比上学参加工作:找学校(需要大量 GPU 计算)、确定教材(大量数据)、找老师(算法)、就业指导(微调)、搬砖(推导)。 Token 是模型处理和生成的文本单位,在将输入进行分词时会形成词汇表。 需要注意的是,在实际应用中,可能需要根据具体的教学需求和场景进行调整和实验,以找到最适合的设置和方法。
2025-02-17
如何利用大模型写教案
利用大模型写教案可以参考以下要点: 1. 输入的重要性:要输出优质的教案,首先要有高质量的输入。例如,写商业分析相关的教案,如果没有读过相关权威书籍,输入的信息缺乏信息量和核心概念,大模型给出的结果可能就很平庸。所以,脑海中先要有相关的知识概念,这来自于广泛的阅读和学习。 2. 对大模型的理解:大模型通过输入大量语料获得类似人类的“思考”能力,能够进行文本生成、推理问答、对话、文档摘要等工作。其训练和使用过程可以类比为上学参加工作,包括找学校(需要大量计算资源)、确定教材(大量数据)、找老师(合适的算法)、就业指导(微调)、搬砖(推导)等步骤。 3. 与大模型的交互: 提示词工程并非必须学习,不断尝试与大模型交互是最佳方法。 交互时不需要遵循固定规则,重点是是否达成目的,未达成可锲而不舍地尝试或更换模型。 用 Markdown 格式清晰表达问题,它具有结构清晰、能格式化强调关键部分、适用性广等优点,有助于大模型更好地理解用户意图。
2025-02-17
大模型评测
以下是关于大模型评测的相关信息: FlagEval(天秤)大模型评测体系及开放平台: 地址: 简介:旨在建立科学、公正、开放的评测基准、方法、工具集,协助研究人员全方位评估基础模型及训练算法的性能,同时探索利用 AI 方法实现对主观评测的辅助,大幅提升评测的效率和客观性。创新构建了“能力任务指标”三维评测框架,细粒度刻画基础模型的认知能力边界,可视化呈现评测结果。 CEval:构造中文大模型的知识评估基准: 地址: 简介:构造了一个覆盖人文,社科,理工,其他专业四个大方向,52 个学科(微积分,线代…),从中学到大学研究生以及职业考试,一共 13948 道题目的中文知识和推理型测试集。此外还给出了当前主流中文 LLM 的评测结果。 SuperCLUElyb:SuperCLUE 琅琊榜 地址: 简介:中文通用大模型匿名对战评价基准,这是一个中文通用大模型对战评价基准,它以众包的方式提供匿名、随机的对战。他们发布了初步的结果和基于 Elo 评级系统的排行榜。 此外,还有小七姐对文心一言 4.0、智谱清言、KimiChat 的小样本测评,测评机制包括: 测评目标:测评三家国产大模型,以同组提示词下 ChatGPT 4.0 生成的内容做对标参照。 能力考量:复杂提示词理解和执行(结构化提示词)、推理能力(CoT 表现)、文本生成能力(写作要求执行)、提示词设计能力(让模型设计提示词)、长文本归纳总结能力(论文阅读)。 测评轮次:第一轮是复杂提示词理解和执行,包括 Markdown+英文 title 提示词测试、Markdown+中文 title 提示词测试、中文 title+自然段落提示词测试;第二轮是推理能力(CoT 表现);第三轮是文本生成能力(写作要求执行);第四轮是提示词设计能力(让模型设计提示词);第五轮是长文本归纳总结能力(论文阅读)。 测试大模型质量好坏时,常用的问题包括检索和归纳、推理性、有日期相关历史事件等。以下是几个专业做模型测评的网站:
2025-02-17
ai大模型
AI 大模型是一个复杂但重要的概念。以下为您详细介绍: 1. 概念:生成式 AI 生成的内容称为 AIGC。 2. 概念与关系: AI 即人工智能。 机器学习是电脑找规律学习,包括监督学习、无监督学习、强化学习。 监督学习使用有标签的训练数据,目标是学习输入和输出之间的映射关系,包括分类和回归。 无监督学习的数据没有标签,算法自主发现规律,经典任务如聚类。 强化学习从反馈中学习,以最大化奖励或最小化损失,类似训小狗。 深度学习是一种参照人脑有神经网络和神经元的方法(因层数多而称深度),神经网络可用于监督学习、无监督学习、强化学习。 生成式 AI 可以生成文本、图片、音频、视频等内容形式。 LLM 是大语言模型,对于生成式 AI,生成图像的扩散模型不是大语言模型;对于大语言模型,生成只是其中一个处理任务,如谷歌的 BERT 模型可用于语义理解(不擅长文本生成),像上下文理解、情感分析、文本分类。 3. 技术里程碑:2017 年 6 月,谷歌团队发表论文《Attention is All You Need》,首次提出 Transformer 模型,它完全基于自注意力机制处理序列数据,不依赖循环神经网络或卷积神经网络。
2025-02-17
我是一个ai小白,请给我推荐一个语言大模型的提示词优化工具
以下为您推荐两个语言大模型的提示词优化工具: 1. 星流一站式 AI 设计工具: 在 prompt 输入框中可输入提示词,使用图生图功能辅助创作。 支持自然语言和单个词组输入,中英文均可。 启用提示词优化后可扩展提示词,更生动描述画面内容。 小白用户可点击提示词上方官方预设词组进行生图。 写好提示词需内容准确,包含人物主体、风格、场景特点、环境光照、画面构图、画质等。 可调整负面提示词,利用“加权重”功能让 AI 明白重点内容,还有翻译、删除所有提示词、会员加速等辅助功能。 2. Prompt Perfect: 能够根据输入的 Prompt 进行优化,并给出优化前后的结果对比。 适合写论文、文章的小伙伴,但使用该能力需要消耗积分(可通过签到、购买获得)。 访问地址:
2025-02-17
开源模型和闭源模型
开源模型和闭源模型的情况如下: 专有模型(闭源模型):如 OpenAI、Google 等公司的模型,需访问其官方网站或平台(如 ChatGPT、Gemini AI Studio)使用。 开源模型: 可使用推理服务提供商(如 Together AI)在线体验和调用。 可使用本地应用程序(如 LM Studio)在个人电脑上运行和部署较小的开源模型。 例如 DeepSeek、Llama 等开源模型。 Qwen 2 开源,具有多种尺寸的预训练和指令调整模型,在大量基准评估中表现出先进性能,超越目前所有开源模型和国内闭源模型,在代码和数学性能等方面显著提高。 金融量化领域的大模型正趋向闭源,几个巨头的核心模型如 OpenAI 最新一代的 GPT4、Google 的 Bard 以及未来的 Gemini 短时间内不会公开。Meta 的 LLaMA 目前开源,但未来可能改变。OpenAI 未来可能开源上一代模型。
2025-02-17
国内有什么免费好用的文字转图片AI吗?
目前国内免费好用的文字转图片 AI 工具包括: 1. DALL·E:由 OpenAI 推出,可根据输入的文本描述生成逼真的图片。 2. StableDiffusion:开源的文生图工具,能生成高质量图片,支持多种模型和算法。 3. MidJourney:因高质量的图像生成效果和友好的用户界面而受欢迎,在创意设计人群中流行。 您还可以在 WaytoAGI 网站(https://www.waytoagi.com/category/104 )查看更多相关工具。但需注意,内容由 AI 大模型生成,请仔细甄别。
2025-02-17
你是一名电商专家,有没有哪个AI大模型或者智能体可以完成以下功能:输入材质图片,得到经过设计后的成品衣服
目前尚未有成熟的 AI 大模型或智能体能够直接实现输入材质图片就得到经过设计后的成品衣服的功能。但在 AI 领域的不断发展中,可能会有相关的技术和模型在未来出现。
2025-02-16
你是一名电商专家,有没有哪个AI大模型或者智能体可以完成以下功能:输入衣服材质图片,得到经过设计后的材质成品衣服
目前尚未有专门的 AI 大模型或智能体能够直接实现您所描述的输入衣服材质图片就得到经过设计后的材质成品衣服的功能。但随着 AI 技术的不断发展,未来可能会出现相关的应用。
2025-02-16
有没有把文字生成图片,并配图的ai软件
以下是一些可以将文字生成图片并配图的 AI 软件: 1. Stable Diffusion:可以根据文本指令生成与文本信息匹配的图片,生成的图片样式取决于使用者输入的提示词,难以出现完全相同的两张输出图片。 2. 无界 AI:可用于快速制作海报底图,在操作步骤上与其他同类软件有相似之处,大致流程包括确定主题与文案、选择风格与布局、生成与筛选、配文与排版。 3. DALL·E:由 OpenAI 推出,能根据输入的文本描述生成逼真的图片。 4. MidJourney:因高质量的图像生成效果和用户友好的界面设计受到广泛欢迎,在创意设计人群中尤其流行。 您可以根据自己的需求选择使用。在 WaytoAGI 网站(https://www.waytoagi.com/category/104 ),可以查看更多文生图工具。需要注意的是,内容由 AI 大模型生成,请仔细甄别。
2025-02-16
我想生成图片来做PPT用什么AI 软件好
以下为您推荐几款可用于生成图片制作 PPT 的 AI 软件及相关操作方法: 1. MJ(Midjourney): 稍微高级一点的薅:首先复制图片的网址,然后打开 discord,在聊天栏输入“/imagine prompt”。之后再回到官网,把图像的提示词也复制下来,再回 discord 粘贴到刚才拷贝的网址后面,注意空个格。都搞好以后输入命令,稍等一会儿就会得到一个内容和画风都和原图比较接近的图。如果效果不理想多反复生成几次。之后放大觉得还不错的一张,在放大的图里可以进行改变比例和镜头拉远等操作。选一张比较好的放大一下,就可以放进 PPT 调整构图。 2. 即梦 AI: 提示词:皮克斯风格,三宫格漫画:一只小狗,坐在办公桌前,文字“KPI 达标了吗?”。一只小狗,拿着一个写满计划的大本子,微微皱着眉头,文字“OKR 写好了吗?”。一只小狗坐在电脑前,文字“PPT 做好了吗?”。 操作步骤: 打开即梦 AI:https://jimeng.jianying.com/aitool/home 。 点击 AI 作图中的图片生成。 填写绘图提示词,选择生图模型 2.1,点击立刻生成。 3. 无界 AI: 网址:https://www.wujieai.cc/ 。 做图逻辑类似于 SD,其作为出图工具的优势在于:国内网络即可稳定使用,有免费出图点数,支持中文关键词输入,无需额外下载风格模型,可直接取用。 使用模型:皮克斯卡通。本案例提供的应用场景为朋友圈 po 图,因此画幅比例选择 1:1。无界 AI 的皮克斯卡通模型位置,根据指引找到:二次元模型》模型主题》皮克斯卡通。 关键词类别:场景(向日葵花田、面包店等)、氛围(温馨、温暖等)、人物(父亲和女儿、父亲和儿子)、造型(发型、发色、服饰、配饰等)、情绪(笑得很开心、大笑、对视等)、道具(童话书等)、构图(半身、中景等)、画面(色彩明艳)、特殊等。
2025-02-15
图片转视频
以下是关于图片转视频的相关内容: 一、用 AI 做 3d 新年表情包 1. 生成场景 可直接生成 1:1 的新年场景,或先将角色抠出合成绿幕,再生成无人物的场景图,方便后期控制。 背景是重要元素,输入“新年、中国新年、喜庆热闹、恭喜发财”等关键词获得合适背景。 在即梦图片生成界面中,选项为智能参考,导入参考图,模型选择图片 2.0 Pro,输入提示词生成图片后选择高清放大。 提示词示例:“戴着醒狮帽,双手抱拳,红色背景,新年喜庆。背景中有金粉,碎花,3d 爆竹显得热闹而喜庆”“拿着‘福’字,新年气氛,红色背景,新年喜庆。背景中有金粉,碎花,3d 爆竹显得热闹而喜庆” 2. 图转视频 使用可灵 AI 1.6 图生视频工具,抽卡性价比不错,简单效果一般抽两三次即可。 提示词:可爱的拟人小鹿拿着红包对你说谢谢老板,非常开心忍不住跳舞,背后下着红包雨 二、Joey 的创作思路分享 1. 让想象来到现实 制定分镜,定画面风格和人物是相对难的环节,需与团队达成共识。 定下风格和人物后进行常规的 AI 出图。 2. 动画与代码共舞 图片转视频主要用到了 runway 的笔刷,即梦的前后帧,Pixverse、pika 等。 介绍了三个转场画面: 360 人物环绕:先用 MJ 做不同角度的人物站立图,通过 comfyui 的首尾帧进行视频制作。 母亲的影子:在 SDXL 工作流中加入两个 controlnet,先在 base 里控制构图,再在 refiner 里控制母亲在画面中的强度。 上帝之手:先出一张伸手的图,用 runway 跑相互接近,转视频序列帧后在 comfyui 里用 controlnet 控制构图,按顺序自动出图跑一晚上,最后剪辑序列帧。 三、离谱村的共创故事 1. 出图 图片用 Midjourney 生产,AI 离谱村黄社长业务水平高且高产,其他小伙伴辅助。 2. 图转视频 每张图片转视频进行了大量尝试,各种工具如 pika,runway,Pixverse 轮番上场。 中间找 ZHO 做技术指导,用 SVD1.1 做出精美的视频,甚至上了 stablevideo.com 的首页官方推荐。 3. 配音部分 配音用 Audiobox 捏出来,每个人物角色有专属声音,用 GPTsovits 对离谱熊的声音做专属训练。
2025-02-13
非计算机专业出身,怎样快速入门ai
对于非计算机专业出身想要快速入门 AI 的人,以下是一些建议: 1. 了解 AI 基本概念: 阅读「」部分,熟悉 AI 的术语和基础概念,包括其主要分支(如机器学习、深度学习、自然语言处理等)以及它们之间的联系。 浏览入门文章,了解 AI 的历史、当前的应用和未来的发展趋势。 2. 开始 AI 学习之旅: 在「」中,您能找到为初学者设计的课程,特别推荐李宏毅老师的课程。 通过在线教育平台(如 Coursera、edX、Udacity)上的课程,按照自己的节奏学习,并有机会获得证书。 3. 选择感兴趣的模块深入学习: AI 领域广泛,比如图像、音乐、视频等,您可以根据自己的兴趣选择特定的模块进行深入学习。 掌握提示词的技巧,它上手容易且很有用。 4. 实践和尝试: 理论学习之后,实践是巩固知识的关键,尝试使用各种产品做出您的作品。 在知识库提供了很多大家实践后的作品、文章分享,欢迎您实践后的分享。 5. 体验 AI 产品: 与现有的 AI 产品进行互动,如 ChatGPT、Kimi Chat、智谱、文心一言等 AI 聊天机器人,了解它们的工作原理和交互方式。 此外,对于不会代码的您,20 分钟上手 Python + AI 的方法如下: 在深入学习 AI 时,许多朋友发现需要编程,变得头大。同时,各类教程都默认您会打命令行,导致入门十分困难。鉴于此,就有了这份简明入门,旨在让大家更快掌握 Python 和 AI 的相互调用,并使您在接下来的 20 分钟内,循序渐进的完成以下任务: 1. 完成一个简单程序。 2. 完成一个爬虫应用,抓取公众号文章。 3. 完成一个 AI 应用,为公众号文章生成概述。 一些背景: 1. 关于 Python: Python 就像哆拉 A 梦,它拥有一个百宝袋,装满了各种道具,被称为标准库。当遇到问题时,都可以拿出来直接使用。 如果百宝袋里的道具不够用,还可以打电话给未来百货,去订购新道具。在这里:打电话对应 pip 一类的工具,可以用来订购任何的道具;未来百货对应 GitHub 一类的分享代码的平台,里面啥都有。 Python 被全世界广泛使用,尤其是在 AI 领域,所以遍地是大哥。 2. 关于 OpenAI API: OpenAI 通过两种方式提供服务:其一,通过 ChatGPT,提供开箱即用的服务,直接对话即可,简单直观;其二,通过 OpenAI API,提供更加灵活的服务,通过代码调用,来完成更多自动化任务,比如全自动将本地的 1 万本小说,从中文翻译成英文。 欢迎来到“AI 企业落地应用”专栏,在这里,我们将分享 AI 技术在真实商业场景中落地应用的有趣案例故事和实战经验教训。做为铺垫和开始,这是一篇能带你快速搞懂本轮 AI 大模型革命相关核心知识信息的文章,我们将从历史到今天,从原理到应用,从产业到趋势,用尽可能通俗易懂但又不失专业严谨的方式,带你快速走入 AI 的世界,跟上 AI 大势。阅读提示:为了方便没有计算机学习背景但又热衷学习 AI 应用的伙伴更好的阅读,下面的内容可能会使用打比方、作类比的方式来让那些晦涩枯燥的知识变得更为有趣和更容易入心入脑,帮助于您在学习应用 AI 的路上走得更加顺畅和稳健,但这也势必会一定程度带来专业性上的不严谨,我们将会显性的做出标注提示,方便您识别,您可以关注文末的论文推荐导引,去了解真实的技术细节。此外,文章中可能还会涉及一些相对专业和可能超纲的知识内容,我们也将会显性的做出标注提示,告诉您这部分内容即使不懂,也完全没关系,可以放心跳过,不必焦虑。
2025-02-16
coze专业版
扣子(Coze)是一款基于自然语言处理和人工智能技术的智能助手平台,具有丰富的插件生态,能帮助用户快速实现个性化智能应用,无需编写复杂代码。 扣子专业版的特点包括: 1. 经过一年多用户打磨,插件生态和分发渠道对个人用户够用,上手难度不高,信息获取插件丰富。 2. 推出专业版服务,主要特性有企业级 SLA 保障、高级特性支持(如批量处理、私有数据等)、更优惠的计费项。 关于 Coze 变现模板配置有以下 4 大步骤: 1. 免费获取模板:访问 Zion 无代码平台(zion.functorz.com)注册账号,并填写邀请码“coze”领取价值 229 元的一个月专业版代金券。老用户可在 Zion 公众号发送“coze”联系客服领取,通过 Coze 优惠券可解锁专业版 229 所有权益。 2. 创建模板并升级版本:Coze 变现模板提供 3 种版本,即极简版、一键配置版(此次教程介绍的版本)、多智能体版。可先创建模板体验,再根据需求选择合适模板,使用抵扣券升级以解锁更多功能。 3. 项目预发布:完成项目预发布后,通过点击生成的链接,进入智能体配置流程。目前链接为预发布链接,若要发布上线可点击“去发布”并继续“发布上线”,以完成项目上线流程。Zion 提供免费域名,也可配置自定义域名增强品牌可信度及提升搜索引擎排名。 Coze 今晚上线新功能,能直接“拖拉拽”做网页让 bot 交互可控,从一个玩具变得具有变现能力。进入该功能需有 Coze 账号(专业版或普通版均可),创建时选择“创建应用”,可选择模板或空白应用,正上方选择“用户界面”,大部分人可能没注意到该页面在右上角可调试。更多使用方法等待进一步教程。
2025-02-14
如何进入AI时代,如何寻找和使用AI工具来提高工作和学习效率,以及如何解决个性化和专业化需求的问题
进入 AI 时代并利用 AI 工具提高工作和学习效率、解决个性化和专业化需求问题,可参考以下要点: 1. 对于 AI 发展的态度:不盲目跟风(FOMO),也不消极对待(JOMO)。 2. 成功的 AI 公司可能需要打造自身的数据飞轮,尤其是在 ToC 场景中寻求突破,因为 C 端能带来的数据飞轮效应在 AI 早期可能是决胜关键。 3. 有专业壁垒的垂直模型可能是机会所在,很多高价值、特定领域的工作流程依赖于丰富的专有数据集。 4. 大模型产品的两个方向: 个性化:给 AI 装上“记忆”,使其成为工作助理或陪伴者。 场景化:给 AI 装上“手”和“眼睛”。 5. 在工作中使用 AI 工具的情况: 最常用的是通过自然语言对话完成一次性任务,90%的产品从业者用其辅助文本信息处理生成。 63%的用户用其辅助搜索,甚至优先用 AI 搜索信息。 45%的用户借助其生成图片以及音视频用于快速制作 demo 演示效果,也有少部分用于制作最终产品。 29%的用户将其作为工作创意助手以及数据报告的处理。 6. AI 工具的改进方向: 提高创新性和创新辅助能力,关注产品从业者的工作模式和思维习惯。 提升个性化和智能化程度,理解并适应用户的个性化需求。 更精准识别合适场景,满足不同场景的使用需求。 7. 使用 AI 完成任务时: 对于简单需求,给 AI 下达明确命令完成一次性任务。 了解 AI 编程的边界和限制。 遵循编程准则,能不编尽量不编。优先找线上工具、其次找插件、最后是本地应用;对于 API 功能,先找现成开源工具,然后考虑付费服务,实在找不到才考虑自己编程,且编程要以终为始,聚焦目标。 总之,在 AI 时代,要积极拥抱 AI,用起来并有效迭代,形成正确的底层工作逻辑,设计合理流程,按节奏确定目标和复盘。同时,把握好融资节奏,适应对创始人更高、更全面的要求。
2025-02-11
你是一个专业的AI工具测评师,用过市场上的所有AI工具,请制作一个PPT,介绍一个如何使用AI进行办公提效,并根据你的经验,对使用过的AI工具进行分类对比和测评,对比结果以表格形式呈现,需要包括是否收费,国内是否可用,主要面向对象,优点和缺点,突出功能等
以下是为您制作的关于如何使用 AI 进行办公提效以及 AI 工具分类对比和测评的 PPT 内容: 幻灯片 1:封面 标题:AI 助力办公提效及工具测评 幻灯片 2:目录 AI 在办公中的应用场景 常用 AI 办公工具分类对比 各工具的详细测评 幻灯片 3:AI 在办公中的应用场景 辅助文档处理 自动生成会议记录 办公文件分类管理 语言学习纠错 幻灯片 4:常用 AI 办公工具分类对比(表格形式) |工具名称|是否收费|国内是否可用|主要面向对象|优点|缺点|突出功能| |||||||| |平安好医生 APP|部分功能收费|是|医疗工作者和患者|辅助医生诊断,提高准确性|可能存在误判|辅助疾病诊断| |腾讯会议|部分高级功能收费|是|企业和个人|自动生成会议记录,方便回顾|语音识别准确性有待提高|会议记录生成| |字体管家 APP|部分字体收费|是|设计和文字工作者|生成多种书法字体|字体版权问题|书法字体生成| |醒图 APP|部分功能收费|是|摄影爱好者|提供构图建议,提升照片质量|对复杂场景的建议有限|摄影构图建议| |游戏内商城推荐功能|部分游戏收费|是|游戏玩家|根据需求推荐道具|推荐的精准度因人而异|游戏道具推荐| |彩云天气分时预报|部分功能收费|是|出行人群|提供精准分时天气预报|天气变化的不确定性|分时天气预报| |医渡云病历分析系统|收费|是|医疗机构|分析病历辅助诊断|数据安全性|病历分析| |讯飞听见会议总结功能|部分功能收费|是|企业和个人|自动总结会议发言内容|对复杂语言理解有限|会议发言总结| |书法临摹软件|部分功能收费|是|书法爱好者|提供临摹指导和评价|对不同书法风格的适应性|临摹辅助| |下厨房口味调整功能|部分功能收费|是|烹饪爱好者|根据反馈调整菜谱口味|口味调整的局限性|菜谱口味调整| |英语流利说纠错功能|部分课程收费|是|语言学习者|帮助纠正错误|对口语表达的纠错有限|语言学习纠错| |豆瓣电影剧情分析工具|免费|是|电影爱好者|提供剧情深度解读|分析的主观性|剧情分析| |腾讯文档分类功能|部分高级功能收费|是|企业和个人|自动分类办公文件|分类准确性依赖数据|文件分类| |美丽修行定制方案功能|部分功能收费|是|美容护肤人群|定制个性化护肤方案|方案的普适性|护肤方案定制| 幻灯片 5:总结 强调 AI 在办公领域的重要性和潜力 鼓励根据实际需求选择合适的 AI 工具提升办公效率 以上 PPT 内容仅供参考,您可以根据具体需求进行修改和完善。
2025-02-10
我是科研人员,有什么方法能构建自己专业领域的知识库吗?请给出详细的操作步骤,并说明需要什么样的软硬件设备?预算多少?
构建自己专业领域的知识库可以按照以下步骤进行: 步骤一:明确知识库的目标和范围 首先,确定您想要涵盖的专业领域的具体范围和知识库的主要目标,例如是为了内部研究使用、对外分享知识还是其他特定用途。 步骤二:收集和整理资料 收集相关的文献、研究报告、实验数据、案例等各种资料,并对其进行分类和整理。 步骤三:选择合适的技术架构 1. 考虑使用数据库管理系统,如 MySQL、Oracle 等。 2. 或者采用知识图谱技术来构建更直观的知识关系。 步骤四:确定软硬件设备 1. 硬件方面,需要一台性能较好的计算机,具备足够的内存和存储空间。预算大约在 5000 10000 元,具体取决于配置要求。 2. 软件方面,需要操作系统(如 Windows 或 Linux)、数据库管理软件、文本编辑工具等。 步骤五:设计知识库的结构 规划好知识的分类体系、标签系统和索引方式,以便于快速检索和查找。 步骤六:数据录入和维护 将整理好的资料录入到知识库中,并定期更新和维护,确保知识的准确性和时效性。 步骤七:测试和优化 在初步构建完成后,进行测试,检查检索功能是否正常,知识的展示是否清晰,并根据测试结果进行优化。 需要注意的是,实际的预算和设备需求可能会因具体情况而有所不同,您可以根据自己的需求和资源进行调整。
2025-02-06
怎样构建一个自己专业的AI小模型
构建一个自己专业的 AI 小模型可以参考以下步骤: 1. 搭建 OneAPI:这是为了汇聚整合多种大模型接口,方便后续更换使用各种大模型,同时了解如何白嫖大模型接口。 2. 搭建 FastGpt:这是一个知识库问答系统,将知识文件放入,接入上面的大模型作为分析知识库的大脑,最后回答问题。如果不想接到微信,搭建完此系统就可以,它也有问答界面。 3. 搭建 chatgptonwechat 并接入微信,配置 FastGpt 把知识库问答系统接入到微信,建议先用小号以防封禁风险。若想拓展功能,可参考 Yaki.eth 同学的教程,里面的 cow 插件能进行文件总结、MJ 绘画等。 部署和训练自己的 AI 开源模型的主要步骤如下: 1. 选择合适的部署方式,包括本地环境部署、云计算平台部署、分布式部署、模型压缩和量化、公共云服务商部署等,根据自身的资源、安全和性能需求进行选择。 2. 准备训练所需的数据和计算资源,确保有足够的训练数据覆盖目标应用场景,并准备足够的计算资源,如 GPU 服务器或云计算资源。 3. 选择合适的预训练模型作为基础,可以使用开源的预训练模型如 BERT、GPT 等,也可以自行训练一个基础模型。 4. 针对目标任务进行模型微调训练,根据具体应用场景对预训练模型进行微调训练,优化模型结构和训练过程以提高性能。 5. 部署和调试模型,将训练好的模型部署到生产环境,并对部署的模型进行在线调试和性能优化。 6. 注意安全性和隐私保护,大模型涉及大量数据和隐私信息,需要重视安全性和合规性。 大模型的构建过程包括: 1. 收集海量数据:像教孩子成为博学多才的人一样,让模型阅读大量的文本数据,如互联网上的文章、书籍、维基百科条目、社交媒体帖子等。 2. 预处理数据:清理和组织收集到的数据,如删除垃圾信息,纠正拼写错误,将文本分割成易于处理的片段。 3. 设计模型架构:为模型设计“大脑”结构,通常是一个复杂的神经网络,如使用 Transformer 架构。 4. 训练模型:让模型“阅读”提供的数据,通过反复尝试预测句子中的下一个词等方式,逐渐学会理解和生成人类语言。
2025-01-29