基于边缘检测的分割-WayToAGI

回答

基于边缘检测的分割，以下是相关信息：

在 Controlnet 中，可用的预处理/模型包括：

canny：用于识别输入图像的边缘信息。
depth：用于识别输入图像的深度信息。
hed：用于识别输入图像的边缘信息，但边缘更柔和。
mlsd：用于识别输入图像的边缘信息，是一种轻量级的边缘检测，对横平竖直的线条非常敏感，更适用于室内图的生成。
normal：用于识别输入图像的法线信息。
openpose：用于识别输入图像的动作信息，OpenPose Editor 插件可以自行修改姿势，导出到文生图或图生图。
scribble：将输入图像作为线稿识别，如果线稿是白色背景，务必勾选“Invert Input Color”。
fake_scribble：识别输入图像的线稿，然后再将它作为线稿生成图像。
segmentation：识别输入图像各区域分别是什么类型的物品，再用此构图信息生成图像。如果想绘制一张符合 segmentation 规范的图像，可以使用以下色表绘制：color_coding_semantic_segmentation_classes - Google 表格

在 ComyfUI 蒙版中，关于 Segment Anything 语言分割转蒙版，SAM 和 G-Dino 有以下区别：

SAM：
- 主要用途：图像分割，即识别和分割图像中的各种对象。
- 技术特点：支持通过各种输入提示（如点击、框选或文本）来快速生成分割掩码，适用于多种图像分割任务。
- 应用场景：从简单的对象边缘检测到复杂的场景分析，SAM 都能提供支持。
G-Dino：
- 主要用途：零样本物体检测，能够识别训练数据中未明确出现的对象类别。
- 技术特点：结合了自然语言处理，能够根据文本提示识别和定位图像中的特定对象。
- 应用场景：除了标准的物体检测任务，还能进行复杂的引用表达理解（REC），即根据给定的文本描述定位图像中的对象。

这两个模型在功能和应用上互补：SAM 更侧重于图像的像素级处理和分割，适用于需要精确图像分割的应用；GroundingDino 则侧重于通过文本描述理解和识别图像内容，适用于需要语言交互的对象检测场景。

内容由 AI 大模型生成，请仔细甄别（powered by aily）

参考资料

SD新手：入门图文教程

canny用于识别输入图像的边缘信息。depth用于识别输入图像的深度信息。hed用于识别输入图像的边缘信息，但边缘更柔和。mlsd用于识别输入图像的边缘信息，一种轻量级的边缘检测。它对横平竖直的线条非常敏感，因此更适用于于室内图的生成。normal用于识别输入图像的法线信息。openpose用于识别输入图像的动作信息。OpenPose Editor插件可以自行修改姿势，导出到文生图或图生图。scribble将输入图像作为线稿识别。如果线稿是白色背景，务必勾选“Invert Input Color”fake_scribble识别输入图像的线稿，然后再将它作为线稿生成图像。segmentation识别输入图像各区域分别是什么类型的物品，再用此构图信息生成图像。如果想绘制一张符合segementation规范的图像，可以使用以下色表绘制。[color_coding_semantic_segmentation_classes - Google表格](https://link.zhihu.com/?target=https%3A//docs.google.com/spreadsheets/d/1se8YEtb2detS7OuPE86fXGyD269pMycAWe2mtKUj2W8/edit%23gid%3D0)

ComyfUI 蒙版

1.SAM：主要用途：图像分割，即识别和分割图像中的各种对象。技术特点：支持通过各种输入提示（如点击、框选或文本）来快速生成分割掩码，适用于多种图像分割任务。应用场景：从简单的对象边缘检测到复杂的场景分析，SAM都能提供支持。1.GroundingDino：主要用途：零样本物体检测，能够识别训练数据中未明确出现的对象类别。技术特点：结合了自然语言处理，能够根据文本提示识别和定位图像中的特定对象。应用场景：除了标准的物体检测任务，还能进行复杂的引用表达理解（REC），即根据给定的文本描述定位图像中的对象。这两个模型在功能和应用上互补：SAM更侧重于图像的像素级处理和分割，适用于需要精确图像分割的应用。GroundingDino则侧重于通过文本描述理解和识别图像内容，适用于需要语言交互的对象检测场景。