直达「 通往AGI之路 」飞书知识库 →
首页/问答列表/问答详情

识别图形的大模型有哪些

回答

以下是一些用于识别图形的大模型:

  1. 在 ControlNet 中,大模型选择如 Toonyou 的二次元卡通风格。ControlNet 具有多种预处理器,如 canny 边缘检测适用于线条精细的图片,scribble 涂鸦适合粗犷画风,softedge 软边缘检测在保留轮廓边缘进行绘图时对边缘细节保留更多。
  2. 对于生成真实场景下的字体等任务,可选择如真人效果卓绝的大模型 lofi.v2。
  3. 图像 Embeddings 方面,使用卷积神经网络(CNN)进行图像特征提取得到的特征向量即为图像嵌入。
  4. 还有音频 Embeddings,在语音识别和声纹识别中将声音信号转化为有意义的向量表示;用户/物品 Embeddings 在推荐系统中用于将用户行为或物品属性映射到低维空间进行协同过滤或基于内容的推荐;图 Embeddings 用于学习图结构的表示学习方法,将图中的节点和边映射到低维向量空间中,可通过 DeepWalk、Node2Vec、GraphSAGE 等算法实现,在图分析、社交网络分析、推荐系统等领域广泛应用。
内容由 AI 大模型生成,请仔细甄别(powered by aily)

参考资料

【SD】最强控制插件ControlNet(1)附模型下载

大模型选择Toonyou的二次元卡通风格,在ControlNet中导入库里的照片,预处理器选择openpose,点击预处理器右侧的爆炸标志,就可以看到提炼出来的骨骼结构。接下来,使用同样名为openpose的模型,调试参数,点击生成。可以看到,这张AI绘图就采用我们提供给它的动作参考画了出来,效果相当不错。那ControlNet的预处理器有多少种呢?我们打开下拉列表就可以看到,目前最新的ControlNet v1.1.150版本,一共有37种。很多同学看到这里估计要懵了,我怎么知道该使用哪一种预处理,并且它会变成什么效果呢?接下来。我们将这些预处理器做一个分类理解。线条约束类:它可以通过轮廓线来规定绘图的范围。canny边缘检测:还是用库里的动作图作为例子,可以看到预处理器精确地找到了人物的轮廓边缘,并且进行了重绘,适用于线条比较精细的图片。scribble涂鸦:适合粗犷的画风,灵魂画手的拯救器。softedge软边缘检测:同样是保留轮廓边缘进行绘图,相比于canny,可以看到线条较粗且有柔化的部分,这样的处理对边缘的细节保留得更多,特别是有头发这类细节的时候,但未必有canny刻画的那么细。

SD的优势区间,ControlNet做字体!(实战篇)

插件暂时简单的设置完毕,要选择生图模型了,大模型决定了我们的最终的风格,是真实系,是动画二次元,还是什么,这决定你对模型熟悉程度。生成一个真实场景下的字体,文章开始图片相似的风格,是我的目标,以此为例:经过一些尝试,我选了真人效果卓绝的大模型lofi.v2,(还有一些其他比较真实的模型都可以备选,只是会有一些参数变化需要注意)不同的大模型,会对CN模型的控制力有不同的适应度,所以需要微调参数。

认识大模型 Embedding 技术加实战

图像Embeddings:使用卷积神经网络(CNN)进行图像特征提取,得到的特征向量即为图像嵌入。音频Embeddings:在语音识别和声纹识别中,将声音信号转化为有意义的向量表示。用户/物品Embeddings:在推荐系统中,将用户行为或物品属性映射到低维空间以进行协同过滤或基于内容的推荐。还有一种图Embeddings:是用于学习图结构的表示学习方法,将图中的节点和边映射到低维向量空间中。通过学习图嵌入,可以将复杂的图结构转化为向量表示,以捕捉节点之间的结构和关联关系。这些方法可以通过DeepWalk、Node2Vec、GraphSAGE等算法来实现。图嵌入在图分析、社交网络分析、推荐系统等领域中广泛应用,用于发现社区结构、节点相似性、信息传播等图属性。下面以OpenAI为例继续展开介绍

其他人在问
你可以帮我识别图形并打标吗
以下是为您提供的关于图形识别和打标的相关信息: 有一些工具和资源可以帮助进行图形打标,例如: 图像打标助手:上传任意一张或多张图片,打标助手就会自动识别图像内容,并返回适用于 AI 模型训练标注的图像描述。 基于 GPT4Vision 做的免费批量打标工具:支持一次性给 100 张图像打标、批量下载标注文件、批量增加/删除前缀、手动改标注。但需添加自己的 OpenAI API Key。 关于图形认知题: 图形认知题是一种教育活动或测试,旨在帮助孩子们识别、区分和理解不同的图形和图案,常用于儿童早期教育,促进视觉和认知发展。 其特点包括图形识别、颜色识别、大小和比较、排序和分类、图形与现实世界的关联、空间关系、图形的绘制与再现等。 创作时可以结合手工方式,让家长和孩子在互动中完成。 还可以让 GPT 根据场景生成五个场景中常见的事物,以制作完整的图片。
2024-10-22
AI 辅助高中美术学生 进行创意图形的生成
以下是关于如何利用 AI 辅助高中美术学生进行创意图形生成的相关内容: 在不同的教学场景中,对 AI 的应用和态度有所不同。例如在艺术教学中,对于 AI 生成的图像可能有不同的需求。在历史课中,学生制作信息图表展示对宏观经济学原理的理解时,可能会接受 AI 生成的图像;而在美术课上,可能不太希望直接使用 AI 生成的图像。 在学习 AI 绘画方面,其在广告设计、游戏开发、影视制作、建筑设计等领域都有应用。比如在广告设计中可快速生成创意概念图,为策划提供灵感和初稿;在游戏开发中用于创建场景和角色形象,提高开发效率等。 对于小学课堂中的 AI 绘图课程设计,可先准备关键词并输入 Mid Journey 生成图片存下来展示,围绕 AI 绘图的好处展开,如创意增强,像“夜晚的未来城市风景,霓虹灯和飞行汽车”“超现实主义风景,漂浮的岛屿和瀑布云”等能创造独特且富有想象力的场景;效率提升,如“现代智能手机设计的快速草图”“新咖啡机概念的快速原型”能快速生成复杂多变的设计;降低技能门槛,像“简单卡通角色,微笑着,大眼睛”“基础的风景画,夕阳下的宁静湖泊”能帮助非专业者创作;探索新的艺术形式,如“数字抽象艺术,鲜明的色彩和几何形状”“算法生成的艺术作品,具有分形图案”能探索全新艺术形式的潜力。 综合以上,对于高中美术学生进行创意图形的生成,可借鉴上述思路和应用场景,注重培养学生的创意、效率和对新艺术形式的探索。
2024-09-25
有哪些免费 好用的图形AI工具
以下是一些免费好用的图形 AI 工具: 1. PlantUML:文本到 UML 的转换工具,可通过编写描述生成序列图、用例图、类图等,辅助创建逻辑视图。 2. Gliffy:基于云的绘图工具,能创建各种架构图,包括逻辑视图和部署视图。 3. Archi:免费开源工具,用于创建 ArchiMate 和 TOGAF 模型,支持逻辑视图创建。 4. Rational Rose:IBM 的 UML 工具,支持多种视图创建,包括逻辑视图和部署视图。 在图生图方面,以下产品较为好用: 1. Artguru AI Art Generator:在线平台,生成逼真图像,为设计师提供灵感。 2. Retrato:将图片转换为非凡肖像,有 500 多种风格选择,适合制作个性头像。 3. Stable Diffusion Reimagine:通过稳定扩散算法生成精细、具细节的全新视觉作品。 4. Barbie Selfie Generator:将上传照片转换为芭比风格,适合喜欢梦幻童话风格的人。 另外,在绘制逻辑视图、功能视图和部署视图方面,还有以下工具: 1. Lucidchart:流行的在线绘图工具,支持多种图表创建,包括上述视图,用户可通过拖放界面轻松操作。 2. Visual Paradigm:全面的 UML 工具,提供创建各种架构视图的功能。 3. ArchiMate:开源建模语言,与 Archi 工具配合使用可创建逻辑视图。 4. Enterprise Architect:强大的建模、设计和生成代码工具,支持多种架构视图创建。 5. Microsoft Visio:广泛使用的图表和矢量图形应用程序,提供丰富模板用于创建相关视图。 6. draw.io(现称 diagrams.net):免费在线图表软件,允许创建多种类型图表,包括逻辑视图和部署视图。 需要注意的是,虽然这些工具可以辅助创建架构视图,但不都是基于 AI 的。AI 在绘图工具中的应用通常涉及智能推荐布局、自动生成图表代码或识别图表中的模式和关系。在选择工具时,应考虑具体需求,比如是否需要支持特定建模语言、是否需要与特定开发工具集成、偏好在线工具还是桌面应用程序等。同时,这些 AI 模型可能存在一些局限,如偶尔性能不稳定、生成内容不当等问题。
2024-09-02
有没有视觉识别的模型
以下是一些视觉识别的模型: 1. siglipso400mpatch14384:由 Google 开发的视觉特征提取模型,负责理解和编码图像内容。工作流程包括接收输入图像、分析图像的视觉内容(如物体、场景、颜色、纹理等)、将这些视觉信息编码成一组特征向量。可在 ComfyUI\models\clip 中下载,若因环境问题,也可在网盘中下载。下载好后,目录的文件包括 image_adapter.pt(适配器),其连接视觉模型和语言模型,优化数据转换。工作流程包括接收来自视觉模型的特征向量、转换和调整这些特征使其适合语言模型处理、进行一些特定任务的优化或微调(如图片到文字)。可通过 https://huggingface.co/spaces/fancyfeast/joycaptionprealpha/tree/main/wpkklhc6 下载,放到 models 的 Joy_caption 文件夹里,若该文件夹不存在,新建一个。 2. Comfyui IPAdapter 中的图像模型: ,下载并重命名。 ,下载并重命名。下载后放入/ComfyUI/models/clip_vision。需要注意的是,clip vison 只能编码 224x224 大小的正方形图片,后续使用时若图片不是正方形,需进行裁剪。
2024-12-19
我想找关于视觉识别相关的api
很抱歉,目前知识库中没有关于视觉识别相关 API 的具体信息。但您可以通过以下途径寻找: 1. 一些知名的云服务提供商,如阿里云、腾讯云、百度云等,它们通常提供视觉识别相关的 API 服务。 2. 专门的人工智能和计算机视觉技术公司的官方网站,可能会有相关的 API 介绍和使用文档。 3. 技术社区和开发者论坛,例如 CSDN、掘金等,您可以在这些地方与其他开发者交流,获取相关的推荐和经验分享。
2024-12-19
音乐识别
以下是一些与音乐识别相关的人工智能音频初创公司: :人工智能驱动的音乐相似性搜索和自动标记,适合以音乐发现为业务的人。 :用于音频和声音目录的直观音频搜索引擎。 :发现将音乐从歌曲和播放列表束缚中解放出来的艺术家。 :每次播放公平报酬。 (被 SoundCloud 收购):使用人工智能帮助自动化工作流程。 (被 Spotify 收购):构建人工智能驱动的音乐应用程序。 :用于音乐标记和相似性搜索的人工智能。 (被 SongTradr 收购):B2B AI 音乐元数据服务,例如自动标记、元数据丰富和语义搜索。 :基于歌词的音乐发现、推荐和搜索的算法和工具。 :寻找最好的音乐,讲述更好的故事,扩大听众。人工智能驱动的引擎可帮助找到正确的配乐。 :音乐识别和版权合规性。音频指纹、大规模翻唱识别。 :AI 音乐分析,包括歌词摘要、主题提取和音乐特征。 此外,关于 GPT4 在音乐方面的情况:其训练数据中包含以 ABC 符号表示的音乐信息。当被指示生成简短曲调时,能够生成有效的 ABC 符号,有清晰结构、一致节拍和音符模式,但似乎未获得理解和声的技能。用音乐术语描述曲调时,能给出结构的技术描述,但和声和和弦描述与音符不一致。能按指示改写旋律,如将上升序列改为下降序列,将曲调转换为二重唱并添加低音声部,但两个声部之间缺乏和声。总之,能生成有效 ABC 符号曲调并解释和操纵结构,但无法产生非平凡形式的和声,也无法以 ABC 符号产生知名曲调或识别这些曲调。
2024-12-18
哪个ai可以识别心电图并给出诊断
以下是一些可以识别心电图并给出诊断的 AI 相关产品: 1. PM Cardio:这是一款由人工智能驱动的、获得 IIb 类医疗设备认证的产品,可以帮助您像专业心脏病学家一样准确诊断和治疗 38 种心血管疾病。 2. BeamO:四合一生命监护仪,整合了数字听诊器、心电图、血氧仪和体温计。心房颤动检测,心率和体温通知,血氧饱和度监测。一分钟内完成健康检查,数据可由医生或 AI 解读。
2024-12-16
支持识别图片内容物的ai软件
以下是一些支持识别图片内容物的 AI 软件: 1. PixelLLM Google 的新视觉语言模型: 能提供对图片内容的详细描述及每个词汇的具体位置。 可以识别图片中的物体,并精确指出其位置。 特别适用于图像和文字紧密结合的任务。 相关链接:https://jerryxu.net/PixelLLM/ 、https://arxiv.org/abs/2312.09237 2. EmbedAI 定制您自己的 ChatGPT: 支持使用各种数据源训练 ChatGPT,包括文件、网站、Notion 文档和 YouTube。 应用范围广泛,如智能客服、个性化学习助手等。 无代码平台,适合非编程背景用户。 相关链接:https://thesamur.ai 、https://x.com/xiaohuggg/status/1736336780876742873?s=20 此外,还有用于判断一张图片是否为 AI 生成的网站,如 ILLUMINARTY(https://app.illuminarty.ai/)。但在测试过程中可能存在一些误判情况。
2024-12-14
支持识别图片内容物的ai软件
以下为一些支持识别图片内容物的 AI 软件: 1. PixelLLM Google 的新视觉语言模型: 能提供对图片内容的详细描述及每个词汇的具体位置。 可以识别图片中的物体,并精确指出其位置。 特别适用于图像和文字紧密结合的任务。 相关链接:https://jerryxu.net/PixelLLM/ 、https://arxiv.org/abs/2312.09237 2. EmbedAI 支持使用各种数据源训练 ChatGPT,包括文件、网站、Notion 文档和 YouTube。应用范围广泛,如智能客服、个性化学习助手等。无代码平台,适合非编程背景用户。 相关链接:https://thesamur.ai 、https://x.com/xiaohuggg/status/1736336780876742873?s=20 此外,还有用于鉴别图片是否为 AI 生成的网站,如 ILLUMINARTY(https://app.illuminarty.ai/),但在测试过程中可能存在一些误判情况。
2024-12-14
推荐一个AI工具,帮助我每天自动执行以下步骤:从本地上传文件给大模型,该文件内含有新闻网页链接,大模型读取链接并汇总内容
以下为您推荐的 AI 工具可能有助于您实现每天自动执行从本地上传文件给大模型,并让大模型读取文件内新闻网页链接并汇总内容的需求: 1. AI 拍立得(Pailido): 特点:即拍即得,简化流程,操作直观高效。 体验方式:微信小程序搜索“Pailido”。 交互逻辑:用户选择拍摄场景类型并拍照,AI 自动识别和分析照片内容信息,依据预设场景规则迅速生成符合情境的反馈。 实现场景: 图片转成文本:用户上传图片后,大模型根据选择的场景生成相关文字描述或解说文本,可用于生成美食点评、朋友圈发布文案、闲鱼上架示例模版等。 图片转绘图片:用户上传图片后,大模型按照指定风格快速生成图像的转绘版本,适应不同风格和场景需求,如图片粘土风、图片积木风、图片像素风等。 2. 内容仿写 AI 工具: 秘塔写作猫:https://xiezuocat.com/ ,是 AI 写作伴侣,能推敲用语、斟酌文法、改写文风,实时同步翻译,支持全文改写、一键修改、实时纠错并给出修改建议,智能分析文章属性并打分。 笔灵 AI 写作:https://ibiling.cn/ ,是智能写作助手,支持多种文体写作,如心得体会、公文写作、演讲稿、小说、论文等,支持一键改写/续写/扩写,智能锤炼打磨文字。 腾讯 Effidit 写作:https://effidit.qq.com/ ,由腾讯 AI Lab 开发的智能创作助手,能提升写作者的写作效率和创作体验。 更多 AI 写作类工具可以查看:https://www.waytoagi.com/sites/category/2 。请注意,内容由 AI 大模型生成,请仔细甄别。
2024-12-21
如何利用AGI创建3D打印的模型
利用 AGI 创建 3D 打印模型的方法如下: 1. 将孩子的画转换为 3D 模型: 使用 AutoDL 部署 Wonder3D:https://qa3dhma45mc.feishu.cn/wiki/Pzwvwibcpiki2YkXepaco8Tinzg (较难) 使用 AutoDL 部署 TripoSR:https://qa3dhma45mc.feishu.cn/wiki/Ax1IwzWG6iDNMEkkaW3cAFzInWe (小白一学就会) 具体实物(如鸟/玩偶/汽车)的 3D 转换效果最佳,wonder3D 能智能去除背景(若效果不佳,需手动扣除背景) 对于一些非现实类玩偶类作品,wonder3D 识别效果不佳时,可先使用 StableDiffusion 将平面图转换为伪 3D 效果图再生成模型。以 usagi 为例,先通过 SD 生成 3D 的 usagi,再将 usagi 输入 wonder3D。 2. 生成特定模型,如创建一个乐高 logo 的 STL 文件: 设计乐高 logo:使用矢量图形编辑软件(如 Adobe Illustrator 或 Inkscape)创建或获取矢量格式的乐高 logo,确保符合标准。 导入 3D 建模软件:将矢量 logo 导入到 3D 建模软件(如 Blender、Fusion 360 或 Tinkercad)中。 创建 3D 模型:在 3D 建模软件中根据矢量图形创建 3D 模型,调整尺寸和厚度以适合打印。 导出 STL 文件:将完成的 3D 模型导出为 STL 文件格式。 以下是在 Blender 中使用 Python 脚本创建简单 3D 文本作为乐高 logo 并导出为 STL 文件的步骤: 打开 Blender,切换到“脚本编辑器”界面。 输入脚本,点击“运行脚本”按钮,Blender 将创建 3D 文本对象并导出为 STL 文件。 检查生成的 STL 文件,可根据需要调整脚本中的参数(如字体、位置、挤压深度等)以获得满意的乐高 logo 3D 模型。 此外,还有一些其他动态: 阿里妈妈发布了:https://huggingface.co/alimamacreative/FLUX.1TurboAlpha ,演示图片质量损失小,比 FLUX schell 本身好很多。 拓竹旗下 3D 打印社区 Make World 发布 AI:https://bambulab.com/zh/signin ,3D 生成模型找到落地和变现路径。 上海国投公司搞了一个:https://www.ithome.com/0/801/764.htm ,基金规模 100 亿元,首期 30 亿元,并与稀宇科技(MiniMax)、阶跃星辰签署战略合作协议。 智谱的:https://kimi.moonshot.cn/ 都推出基于深度思考 COT 的 AI 搜索。 字节跳动发布:https://mp.weixin.qq.com/s/GwhoQ2JCMQwtLN6rsrJQw ,支持随时唤起豆包交流和辅助。 :https://x.com/krea_ai/status/1844369566237184198 ,集成了海螺、Luma、Runway 和可灵四家最好的视频生成模型。 :https://klingai.kuaishou.com/ ,现在可以直接输入文本指定对应声音朗读,然后再对口型。
2024-12-20
如何通过提示词提高模型数据对比和筛选能力
以下是一些通过提示词提高模型数据对比和筛选能力的方法: 1. 选择自定义提示词或预定义话题,在网站上使用如 Llama3.1 8B Instruct 模型时,输入对话内容等待内容生成,若右边分析未刷新可在相关按钮间切换。由于归因聚类使用大模型,需稍作等待,最终结果可能因模型使用的温度等因素而不同。 2. 在写提示词时不能依赖直觉和偷懒,要实话实说,补充详细信息以避免模型在边缘情况上犯错,这样也能提高数据质量。 3. 在分类问题中,提示中的每个输入应分类到预定义类别之一。在提示末尾使用分隔符如“\n\n\n\n”,选择映射到单个 token 的类,推理时指定 max_tokens=1,确保提示加完成不超过 2048 个 token,每班至少有 100 个例子,可指定 logprobs=5 获得类日志概率,用于微调的数据集应在结构和任务类型上与模型使用的数据集相似。例如在确保网站广告文字正确的案例中,可微调分类器,使用合适的分隔符和模型。
2024-12-20
通过提示词可以提高模型的数学计算能力吗
通过提示词可以在一定程度上提高模型的数学计算能力。例如 PoT 技术,它是思维链技术的衍生,适用于数值推理任务,会引导模型生成一系列代码,再通过代码解释器工具进行运算,这种方式能显著提升模型在数学问题求解上的表现。PoT 作为 CoT 的衍生技术,遵循零样本和少样本的学习范式,零样本 PoT 与 CoT 方法相似,不需要大量样本即可进行有效推理,少样本 PoT 也通过较少样本优化模型表现。但需要注意的是,大模型在解决数学问题时可能存在不够可靠的情况。
2024-12-20
哪一个开源大语言模型对中文支持比较好?
以下是一些对中文支持较好的开源大语言模型: 1. OpenChineseLLaMA: 地址: 简介:基于 LLaMA7B 经过中文数据集增量预训练产生的中文大语言模型基座,对比原版 LLaMA,该模型在中文理解能力和生成能力方面均获得较大提升,在众多下游任务中均取得了突出的成绩。 2. BELLE: 地址: 简介:开源了基于 BLOOMZ 和 LLaMA 优化后的一系列模型,同时包括训练数据、相关模型、训练代码、应用场景等,也会持续评估不同训练数据、训练算法等对模型表现的影响。 3. Panda: 地址: 简介:开源了基于 LLaMA7B,13B,33B,65B 进行中文领域上的持续预训练的语言模型,使用了接近 15M 条数据进行二次预训练。 4. Llama2Chinese13bChat: 地址: 5. Gemma7bit: 地址: 此外,AndesGPT 在语言理解与抽取、角色扮演能力上排名国内前一,在代码、生成与创作、上下文对话能力上排名国内前三,各项能力较为均衡,聚焦在移动设备端的应用。Baichuan213BChat 是百川智能自主训练的开源大语言模型,是中文开源模型的主导力量。
2024-12-20
说明jetson orin nano可以使用什么模型?Grok-1模型可以吗?
目前没有关于 Jetson Orin Nano 是否可以使用 Grok1 模型的明确信息。但一般来说,Jetson Orin Nano 可以支持多种常见的深度学习模型,如基于 TensorFlow、PyTorch 框架开发的模型等。具体能够使用哪些模型,还需要考虑模型的计算需求、内存占用以及 Jetson Orin Nano 的硬件配置和性能限制等因素。
2024-12-20