直达「 通往AGI之路 」飞书知识库 →
首页/问答列表/问答详情

识别图形的大模型有哪些

回答

以下是一些用于识别图形的大模型:

  1. 在 ControlNet 中,大模型选择如 Toonyou 的二次元卡通风格。ControlNet 具有多种预处理器,如 canny 边缘检测适用于线条精细的图片,scribble 涂鸦适合粗犷画风,softedge 软边缘检测在保留轮廓边缘进行绘图时对边缘细节保留更多。
  2. 对于生成真实场景下的字体等任务,可选择如真人效果卓绝的大模型 lofi.v2。
  3. 图像 Embeddings 方面,使用卷积神经网络(CNN)进行图像特征提取得到的特征向量即为图像嵌入。
  4. 还有音频 Embeddings,在语音识别和声纹识别中将声音信号转化为有意义的向量表示;用户/物品 Embeddings 在推荐系统中用于将用户行为或物品属性映射到低维空间进行协同过滤或基于内容的推荐;图 Embeddings 用于学习图结构的表示学习方法,将图中的节点和边映射到低维向量空间中,可通过 DeepWalk、Node2Vec、GraphSAGE 等算法实现,在图分析、社交网络分析、推荐系统等领域广泛应用。
内容由 AI 大模型生成,请仔细甄别(powered by aily)

参考资料

【SD】最强控制插件ControlNet(1)附模型下载

大模型选择Toonyou的二次元卡通风格,在ControlNet中导入库里的照片,预处理器选择openpose,点击预处理器右侧的爆炸标志,就可以看到提炼出来的骨骼结构。接下来,使用同样名为openpose的模型,调试参数,点击生成。可以看到,这张AI绘图就采用我们提供给它的动作参考画了出来,效果相当不错。那ControlNet的预处理器有多少种呢?我们打开下拉列表就可以看到,目前最新的ControlNet v1.1.150版本,一共有37种。很多同学看到这里估计要懵了,我怎么知道该使用哪一种预处理,并且它会变成什么效果呢?接下来。我们将这些预处理器做一个分类理解。线条约束类:它可以通过轮廓线来规定绘图的范围。canny边缘检测:还是用库里的动作图作为例子,可以看到预处理器精确地找到了人物的轮廓边缘,并且进行了重绘,适用于线条比较精细的图片。scribble涂鸦:适合粗犷的画风,灵魂画手的拯救器。softedge软边缘检测:同样是保留轮廓边缘进行绘图,相比于canny,可以看到线条较粗且有柔化的部分,这样的处理对边缘的细节保留得更多,特别是有头发这类细节的时候,但未必有canny刻画的那么细。

SD的优势区间,ControlNet做字体!(实战篇)

插件暂时简单的设置完毕,要选择生图模型了,大模型决定了我们的最终的风格,是真实系,是动画二次元,还是什么,这决定你对模型熟悉程度。生成一个真实场景下的字体,文章开始图片相似的风格,是我的目标,以此为例:经过一些尝试,我选了真人效果卓绝的大模型lofi.v2,(还有一些其他比较真实的模型都可以备选,只是会有一些参数变化需要注意)不同的大模型,会对CN模型的控制力有不同的适应度,所以需要微调参数。

认识大模型 Embedding 技术加实战

图像Embeddings:使用卷积神经网络(CNN)进行图像特征提取,得到的特征向量即为图像嵌入。音频Embeddings:在语音识别和声纹识别中,将声音信号转化为有意义的向量表示。用户/物品Embeddings:在推荐系统中,将用户行为或物品属性映射到低维空间以进行协同过滤或基于内容的推荐。还有一种图Embeddings:是用于学习图结构的表示学习方法,将图中的节点和边映射到低维向量空间中。通过学习图嵌入,可以将复杂的图结构转化为向量表示,以捕捉节点之间的结构和关联关系。这些方法可以通过DeepWalk、Node2Vec、GraphSAGE等算法来实现。图嵌入在图分析、社交网络分析、推荐系统等领域中广泛应用,用于发现社区结构、节点相似性、信息传播等图属性。下面以OpenAI为例继续展开介绍

其他人在问
AI 辅助高中美术学生 进行创意图形的生成
以下是关于如何利用 AI 辅助高中美术学生进行创意图形生成的相关内容: 在不同的教学场景中,对 AI 的应用和态度有所不同。例如在艺术教学中,对于 AI 生成的图像可能有不同的需求。在历史课中,学生制作信息图表展示对宏观经济学原理的理解时,可能会接受 AI 生成的图像;而在美术课上,可能不太希望直接使用 AI 生成的图像。 在学习 AI 绘画方面,其在广告设计、游戏开发、影视制作、建筑设计等领域都有应用。比如在广告设计中可快速生成创意概念图,为策划提供灵感和初稿;在游戏开发中用于创建场景和角色形象,提高开发效率等。 对于小学课堂中的 AI 绘图课程设计,可先准备关键词并输入 Mid Journey 生成图片存下来展示,围绕 AI 绘图的好处展开,如创意增强,像“夜晚的未来城市风景,霓虹灯和飞行汽车”“超现实主义风景,漂浮的岛屿和瀑布云”等能创造独特且富有想象力的场景;效率提升,如“现代智能手机设计的快速草图”“新咖啡机概念的快速原型”能快速生成复杂多变的设计;降低技能门槛,像“简单卡通角色,微笑着,大眼睛”“基础的风景画,夕阳下的宁静湖泊”能帮助非专业者创作;探索新的艺术形式,如“数字抽象艺术,鲜明的色彩和几何形状”“算法生成的艺术作品,具有分形图案”能探索全新艺术形式的潜力。 综合以上,对于高中美术学生进行创意图形的生成,可借鉴上述思路和应用场景,注重培养学生的创意、效率和对新艺术形式的探索。
2024-09-25
有哪些免费 好用的图形AI工具
以下是一些免费好用的图形 AI 工具: 1. PlantUML:文本到 UML 的转换工具,可通过编写描述生成序列图、用例图、类图等,辅助创建逻辑视图。 2. Gliffy:基于云的绘图工具,能创建各种架构图,包括逻辑视图和部署视图。 3. Archi:免费开源工具,用于创建 ArchiMate 和 TOGAF 模型,支持逻辑视图创建。 4. Rational Rose:IBM 的 UML 工具,支持多种视图创建,包括逻辑视图和部署视图。 在图生图方面,以下产品较为好用: 1. Artguru AI Art Generator:在线平台,生成逼真图像,为设计师提供灵感。 2. Retrato:将图片转换为非凡肖像,有 500 多种风格选择,适合制作个性头像。 3. Stable Diffusion Reimagine:通过稳定扩散算法生成精细、具细节的全新视觉作品。 4. Barbie Selfie Generator:将上传照片转换为芭比风格,适合喜欢梦幻童话风格的人。 另外,在绘制逻辑视图、功能视图和部署视图方面,还有以下工具: 1. Lucidchart:流行的在线绘图工具,支持多种图表创建,包括上述视图,用户可通过拖放界面轻松操作。 2. Visual Paradigm:全面的 UML 工具,提供创建各种架构视图的功能。 3. ArchiMate:开源建模语言,与 Archi 工具配合使用可创建逻辑视图。 4. Enterprise Architect:强大的建模、设计和生成代码工具,支持多种架构视图创建。 5. Microsoft Visio:广泛使用的图表和矢量图形应用程序,提供丰富模板用于创建相关视图。 6. draw.io(现称 diagrams.net):免费在线图表软件,允许创建多种类型图表,包括逻辑视图和部署视图。 需要注意的是,虽然这些工具可以辅助创建架构视图,但不都是基于 AI 的。AI 在绘图工具中的应用通常涉及智能推荐布局、自动生成图表代码或识别图表中的模式和关系。在选择工具时,应考虑具体需求,比如是否需要支持特定建模语言、是否需要与特定开发工具集成、偏好在线工具还是桌面应用程序等。同时,这些 AI 模型可能存在一些局限,如偶尔性能不稳定、生成内容不当等问题。
2024-09-02
ai现在拍摄一本书的图片能够识别到这是什么书么
目前的 AI 技术在拍摄一本书的图片并识别其是什么书方面已经取得了一定的进展。 在图像识别领域,神经网络发挥着重要作用。例如,对于识别印刷体图片,通常会先将图片转换为黑白,调整至固定尺寸,然后与数据库中的内容进行对比以得出结论。但实际情况较为复杂,存在多种字体、不同拍摄角度等多种例外情况,单纯依靠添加规则的方法不可行,而神经网络专门处理这类未知规则的情况。 不过,要准确识别一本书,还面临一些挑战,如书籍的版本、封面设计的多样性等。但随着技术的不断发展和数据的积累,未来 AI 识别一本书的准确性有望不断提高。 同时,也有一些相关的实验和研究,比如通过设计工作流让 AI 自举式地进行创造,从作家的作品中提取名场面并转译成绘画指令等。
2024-10-17
有相关图片识别的相关知识和工具么?
以下是关于图片识别的相关知识和工具: 知识: 图片识别中,对于印刷体图片的识别,可能先将图片变为黑白、调整为固定尺寸,再与数据库对比得出结论。但实际情况复杂,存在多种字体、拍摄角度等例外情况,传统基于规则的方法不可行。 神经网络专门处理未知规则的情况,其发展得益于生物学研究支持和数学方向的指引,能处理如手写体识别等未知情况。 图像融合是将两个或多个图像合成为一个新的图像,以获得更全面和丰富的信息,可通过像素级、特征级和决策级融合等技术实现,在多个领域有应用。 目标检测是在图像或视频中准确识别和定位特定对象,多模态信息融合可提高其性能和鲁棒性。 工具和参考文献: 推荐阅读《这就是 ChatGPT》这本书,有助于深入了解相关内容。 以下是一些相关的参考文献: VisionLanguage Models for Vision Tasks:A Survey Visual Instruction Tuning towards GeneralPurpose Multimodal Model:A Survey ViTs are Everywhere:A Comprehensive StudyShowcasing Vision Transformers in Different Domain Multimodal Foundation Models:From Specialists to GeneralPurpose Assistants VisionLanguage Pretraining:Basics,Recent Advances,and Future Trends An Image is Worth 16x16 Words:Transformers for Image Recognition at Scale COGVLM:VISUAL EXPERT FOR LARGE LANGUAGE MODELS CogAgent:A Visual Language Model for GUI Agents AppAgent:Multimodal Agents as Smartphone Users Gemini:A Family of Highly Capable Multimodal Models QwenVL:A Versatile VisionLanguage Model for Understanding,Localization,Text Reading,and Beyond arxiv:ChatVideo:A Trackletcentric Multimodal and Versatile Video Understanding System arxiv:Video Understanding with Large Language Models:A Survey arxiv:Vid2Seq:LargeScale Pretraining of a Visual Language Model for Dense Video Captioning CSDN 博客:视频理解多模态大模型(大模型基础、微调、视频理解基础) CSDN 博客:逐字稿| 9 视频理解论文串讲(下)【论文精读】_视频理解论文串讲(下) Youtube:Twostream Convolutional Networks for Action Recognition in Videos arxiv:Is SpaceTime Attention All You Need for Video Understanding? 相关算法: 图像融合的相关算法有:小波变换、基于金字塔变换的多分辨率融合、基于区域的图像融合、基于特征的图像融合等。 目标检测的相关算法有:基于深度学习的目标检测算法(如 RCNN、Fast RCNN、Faster RCNN、YOLO、SSD 等)、基于传统计算机视觉技术的目标检测算法(如 HOG、SIFT、SURF 等)。
2024-10-16
如何用ai进行图像算法识别
以下是关于 AI 在图像算法识别方面的相关内容: 在图像识别方面,AI 技术自身带来的造假难题可由其自身的同僚互鉴打假来解决。目前已有不少网站通过对大量图片数据的抓取和分析,给出对画作属性的判断可能性,例如 ILLUMINARTY(https://app.illuminarty.ai/)。但在测试过程中,可能存在一些问题,如结构严谨的真实摄影作品会被误识别为 AI 作图,这是因为鉴定 AI 自身的逻辑算法不能像人类一样综合考虑各种不符合逻辑的表现。 另外,CNN(卷积神经网络)的结构基于两类细胞的级联模型,主要用于模式识别任务,在计算上更有效、快速,已应用于自然语言处理和图像识别等领域。 在汽车行业,AI 也有广泛应用: 1. 自动驾驶技术:利用 AI 进行图像识别、传感器数据分析和决策制定,实现自主导航和驾驶,如特斯拉、Waymo 和 Cruise 等公司在开发和测试。 2. 车辆安全系统:用于增强自动紧急制动、车道保持辅助和盲点检测等系统的性能。 3. 个性化用户体验:根据驾驶员偏好和习惯调整车辆设置。 4. 预测性维护:分析车辆实时数据预测潜在故障和维护需求。 5. 生产自动化:用于汽车制造的生产线自动化,提高效率和质量控制。 6. 销售和市场分析:帮助汽车公司分析市场趋势、消费者行为和销售数据。 7. 电动化和能源管理:优化电动汽车的电池管理和充电策略。 8. 共享出行服务:优化路线规划、车辆调度和定价策略。 9. 语音助手和车载娱乐:如 Amazon Alexa Auto 和 Google Assistant 等。 10. 车辆远程监控和诊断:提供实时诊断和支持。
2024-10-15
用ai进行图像识别
AI 在图像识别方面的应用较为广泛,以下为您介绍一些相关内容: 在自动驾驶技术中,利用 AI 进行图像识别、传感器数据分析和决策制定,使自动驾驶汽车能够自主导航和驾驶,如特斯拉(Tesla)、Waymo 和 Cruise 等公司都在开发和测试自动驾驶汽车。 BERT 理念被应用于机器视觉领域,通过将图片分割处理,ViT 模型得以实现图像识别。 在深度学习中,图像识别实际是将图片转化为大量的图像单个像素点 RGB 值作为输入,再大量标注输出,形成神经网络。
2024-10-15
ai图像识别
以下是关于 AI 图像识别的相关内容: 判断一张图片是否为 AI 生成的方法: 通过画面风格、物品 bug 等细节进行辨别。但需注意,AI 在不断修正作图 bug,相关方法可能随时失效。 利用专门的网站,如 ILLUMINARTY(https://app.illuminarty.ai/),通过对大量图片数据的抓取和分析来判断,但可能存在误判,如将结构严谨的真实摄影作品识别为 AI 作图。 关于鉴别 AIGC 的讨论: 培养鉴别 AI 生成图片的技能需要训练大脑模型。 AI 自身的逻辑算法不能像人类一样综合考虑各种不符合逻辑的表现。 另外,人工智能在汽车行业有广泛应用: 自动驾驶技术:利用 AI 进行图像识别、传感器数据分析和决策制定。 车辆安全系统:如自动紧急制动、车道保持辅助和盲点检测等。 个性化用户体验:根据驾驶员偏好和习惯调整车辆设置。 预测性维护:分析车辆实时数据预测潜在故障和维护需求。 生产自动化:用于汽车制造的自动化生产线。 销售和市场分析:分析市场趋势、消费者行为和销售数据。 电动化和能源管理:优化电动汽车电池管理和充电策略。 共享出行服务:优化路线规划、调度车辆和定价策略。 语音助手和车载娱乐:如 Amazon Alexa Auto 和 Google Assistant 等。 车辆远程监控和诊断:远程监控车辆状态并提供实时诊断和支持。
2024-10-15
有哪些AI可以识别纠正法语写作中的语法错误
以下是一些可以识别纠正法语写作中语法错误的 AI 工具和应用: 1. OpenAI 的相关模型,例如可以通过特定的提示将输入的法语文本进行语法矫正。 2. Claude 转换器,能够在保留原意的基础上对输入的法语文本进行语法、拼写等方面的纠正。 3. 大型语言模型,擅长将输入的文本转换为不同格式,包括对法语文本进行语法矫正和格式转换。 此外,像 ChatGPT 也可以用于校对包括法语在内的文章。
2024-10-15
个人使用可以通过对话微调的大模型
大模型是指输入大量语料,使计算机获得类似人类的“思考”能力,能够进行文本生成、推理问答、对话、文档摘要等工作。可以用“上学参加工作”来类比大模型的训练和使用过程: 1. 找学校:训练大模型需要大量计算,GPU 更合适,只有购买得起大量 GPU 的才有资本训练。 2. 确定教材:大模型需要的数据量特别多,几千亿序列(Token)的输入基本是标配。 3. 找老师:用合适的算法让大模型更好理解 Token 之间的关系。 4. 就业指导:为让大模型更好胜任某一行业,需要进行微调(fine tuning)指导。 5. 搬砖:完成就业指导后,进行如翻译、问答等工作,在大模型里称为推导(infer)。 在 LLM 中,Token 被视为模型处理和生成的文本单位,能代表单个字符、单词、子单词等,具体取决于分词方法。将输入分词时会数字化形成词汇表。 个人动手实验方面: macOS 系统可采用 GGML 量化后的模型。有名的项目如 ggerganov/llama.cpp:Port of Facebook's LLaMA model in C/C++ ,首先编译,利用 Metal 的 GPU 用相应命令编译,然后去下载模型,还提供了 WebUI,启动 server 后默认监听 8080 端口,打开浏览器可对话。 Whisper 与 llama 类似,用 make 命令编译,去指定地址下载量化好的模型,转换音频,目前只接受 wav 格式,可用 ffmpeg 转化。 张梦飞的教程《用聊天记录克隆自己的 AI 分身》全程本地操作,目标是把微信聊天记录导出,用其微调模型,最终接入微信替你回复消息。
2024-10-18
国内能通过对话微调的语言大模型
以下是国内一些能通过对话微调的语言大模型: 教育领域:桃李(Taoli) 地址: 简介:在国际中文教育领域数据上进行了额外训练的模型,基于国际中文教育教材等构建资源库和问答数据集,并利用数据进行指令微调,让模型习得将知识应用到具体场景中的能力。 数学领域:chatglmmaths 地址: 简介:基于 chatglm6b 微调/LORA/PPO/推理的数学题解题大模型,样本为自动生成的整数/小数加减乘除运算,可 gpu/cpu 部署,开源了训练数据集等。 文化领域:Firefly 地址: 简介:中文对话式大语言模型,构造了许多与中华文化相关的数据,如对联、作诗、文言文翻译、散文、金庸小说等,以提升模型在这方面的表现。 金融领域: Cornucopia(聚宝盆) 地址: 简介:开源了经过中文金融知识指令精调/指令微调的 LLaMA7B 模型。通过中文金融公开数据+爬取的金融数据构建指令数据集,并在此基础上对 LLaMA 进行了指令微调,提高了 LLaMA 在金融领域的问答效果。基于相同的数据,后期还会利用 GPT3.5 API 构建高质量的数据集,另在中文知识图谱金融上进一步扩充高质量的指令数据集。 BBTFinCUGEApplications 地址: 简介:开源了中文金融领域开源语料库 BBTFinCorpus,中文金融领域知识增强型预训练语言模型 BBTFinT5 及中文金融领域自然语言处理评测基准 CFLEB。 XuanYuan(轩辕) 地址: 简介:国内首个开源的千亿级中文对话大模型,同时也是首个针对中文金融领域优化的千亿级开源对话大模型。在 BLOOM176B 的基础上针对中文通用领域和金融领域进行了针对性的预训练与微调,不仅可以应对通用领域的问题,也可以解答金融相关的各类问题,为用户提供准确、全面的金融信息和建议。
2024-10-18
我的app应用想要对接大语言模型,结合APP用户自身的数据,实现更精准的对话,是否有行业比较成功的案例可以借鉴
以下是一些在 APP 应用对接大语言模型方面比较成功的案例,可供您借鉴: 1. Poe: 由 Quora 开发,有 APP 版本,支持跨端使用。 集成了 Chat GPT、GPT4、Claude+、Claude、Dragonfly 等模型,同时支持用户自建 Chatbot。 不同语言模型回复效果有差异,适合需要调用多种大语言模型的用户。 Dragonfly 擅长给出较短的回答,并擅长在输入中给出示例时遵循指示。 Claude 更擅长创造性回复,配合 Poe 中的提问引导,非常适合在查阅资料时使用。 支持分享用户和模型的对话内容,但 GPT4、Claude+产品需要付费订阅使用。 访问地址: Poe 中的提问引导真的能够启发到用户,midjourney prompt 扩写 Chatbot 能力很惊人。 2. Perplexity.ai: 本质是个可联网的搜索引擎,完全免费,支持网页版、APP(目前支持 iOS,安卓即将推出)、Chrome 插件。 网页版能力全面,能够根据提问从互联网上搜寻信息并给出总结后的答案。 很多 Chat GPT 中调用插件才能解决的事情(联网查询、旅行、住宿、商品推荐)靠 Perplexity 就可以解决。 能给出信息来源网址,并根据搜索内容给出继续对话的问题建议。 最新推出的 Copilot 能力支持根据搜索内容进行信息补充,每 4h 内使用 5 次,调用 GPT4。 支持分享聊天内容到多渠道。 首页推荐当下流行的新闻、搜索内容。 支持筛选 Academic(包含不同领域的学术研究论文)、Wolfram|Alpha(包含数学、科学、经济学、语言学、工程学、社会科学、文化等领域的知识库)、Wikipedia(维基百科)、Youtube、Reddit(娱乐、社交和新闻网站)、News 进行搜索。 Chrome 插件可针对当前页面给出即时摘要。 访问地址:
2024-10-18
大模型合规
大模型的安全问题包括以下方面: 1. 对齐保障:通过对齐(指令调优),如 ChatGPT 从 GPT3 经过对齐而来,使其更好地理解人类意图,增加安全保障,确保不输出有害内容。对齐任务可拆解为监督微调及获取奖励模型和进行强化学习来调整输出分布。例如 LLAMA2 使用安全有监督微调确保安全,强化学习能让模型根据人类反馈更细粒度思考答案的安全性,面对训练分布外数据也能拒绝不当回答。 2. 数据过滤:在预训练阶段对数据进行过滤,如 baichuan2 采用此技术减少有害输出,但因数据关联性,仅靠此方法可能不够,模型仍可能从关联中学到有害内容,且面对不良信息时可能因缺少知识而处理不当。 3. 越狱问题:用户可能通过越狱(Jailbreak)使模型的对齐失效,重新回答各种问题。 大模型的特点包括: 1. 架构:分为 encoderonly、encoderdecoder、decoderonly 三类,目前熟知的 AI 助手多为 decoderonly 架构,由 transformer 衍生而来。 2. 规模:预训练数据量大,来自互联网的多种来源,且参数众多,如 GPT3 已达 170B 的参数。 GPT3 与 ChatGPT 相比,除形式不同外,安全性也有差别。
2024-10-18
大模型安全相关资料
以下是关于大模型安全的相关资料: 大模型的架构:包括 encoderonly、encoderdecoder 和 decoderonly 三种类型。其中,我们熟知的 AI 助手基本采用 decoderonly 架构,这些架构都是由谷歌 2017 年发布的“attention is all you need”论文中提出的 transformer 衍生而来。 大模型的特点:预训练数据量大,往往来自互联网上的论文、代码、公开网页等,通常用 TB 级别的数据进行预训练;参数非常多,如 Open 在 2020 年发布的 GPT3 就已达到 170B 的参数。 大模型的安全性保障:通过对齐(指令调优),包括监督微调、获取 reward model 与进行强化学习来调整语言模型的输出分布,以保证语言模型不会输出有害内容和信息。例如 LLAMA2 专门使用了安全有监督微调确保安全。但 Alignment 并不足以防护所有安全问题,存在越狱(Jailbreak)现象,会使模型对齐失效。此外,还有隐私问题。 相关资源:如果想进一步了解大语言模型安全,可以访问 Github awesomellmsafety 项目:https://github.com/ydyjya/AwesomeLLMSafety
2024-10-18
目前最好用的机关公文写作大模型或智能体
目前在机关公文写作方面表现较好的大模型或智能体有: 智谱清言:由智谱 AI 和清华大学推出,基础模型为 ChatGLM 大模型。在工具使用排名国内第一,在计算、逻辑推理、传统安全能力上排名国内前三。更擅长专业能力,但在代码能力上还有优化空间,知识百科方面稍显不足。可应用场景广泛,在 AI 智能体方面相关的应用,包括任务规划、工具使用及长文本记忆相关场景表现出色,在较复杂推理应用上效果不错,也适用于广告文案、文学写作等。 此外,在大模型中,智能体是大模型的一个重要发展方向。智能体可以理解为在大模型(如 LLM)基础上增加了工具、记忆、行动、规划等能力。目前行业里主要用到的如 langchain 框架,能通过代码或 prompt 的形式将 LLM 与 LLM 之间以及 LLM 与工具之间进行串接。
2024-10-18