Navigate to WaytoAGI Wiki →
Home/Question List/Question Detail

国内文生图模型

Answer

以下是关于国内文生图模型的相关信息:

  • Recraft 模型:用 8 个月自研模型,包含处理数据的模型、标注工作、训练 OCR 模型、新构建的数据集等。Recraft 生成带有长文本图像的流程图解,但存在生成默认是外国面孔而非亚洲面孔且生成的亚洲人不太自然的情况,可能与数据集有关。只有少数公司真正从头训练模型,创建自己的模型困难且成本高,需要超强团队和资金。
  • 模型能力方面:
    • 文本编码器的能力是文生图模型语义理解能力的关键。一开始大部分模型使用 CLIP 作为文本编码器,但存在一些问题。新的模型纷纷优化文本编码器能力,如引入更大更强的 T5-XXL 或结合多个特征,但开源模型在中文生图方面能力一般。
    • 腾讯开源的 Hunyuan-DiT 是较可用的中文生图模型,但仍存在优化空间。
    • Kolors 是最近开源的给力文生图模型,改进全面,技术实力强。
Content generated by AI large model, please carefully verify (powered by aily)

References

Recraft爆红,我们和创始人聊了聊 |The Prompt

这中间包含了很多不同的模型和工作,比如帮助处理数据的模型,由非专业设计师的标注人员和专业设计师参与的标注工作,训练OCR模型,新构建的数据集等等。我们是第一家这样做的公司。我相信其他模型提供商也会尝试构建类似的东西,我们对此很开放。我们愿意与所有人分享这些信息,所以其他公司可能也会使用相同的技术来生成文本。●Recraft生成带有长文本图像的流程图解镜相工作室:你知道中国公司字节跳动最近也发布了长文本生成功能的文生图模型吗?他们也允许用户生成带有中英文文本的图像。Dorogush:我不确定有多少公司能复制(replicate)我们。现在图像生成领域非常拥挤,有很多公司在微调Stable Diffusion,通过API使用现有模型,用户看到很多工具却不知道该尝试哪个。但实际上只有少数几家公司,包括我们在内,真正在从头训练模型,能够提供极高质量的图像生成。对Recraft来说,主要挑战是要突破这些噪音,让人们开始尝试它。镜相工作室:为什么这么少公司选择创建自己的模型,是因为太难了还是成本太高?Dorogush:两者都是。这确实非常困难,你需要有一个超强的团队,组建这样的团队就很难,而且训练自己的模型也很贵。你要么已经是一家大公司,要么需要从投资者那里筹集资金,向投资者证明你有一个团队,能够利用这些钱提供世界最好的模型,这很有挑战性。镜相工作室:我们注意到,Recraft生成默认是外国面孔而不是亚洲面孔,而且生成的亚洲人有点不自然。这和数据集有关吗?

模型能力简介

文本编码器的能力是文生图模型的语义理解能力的关键。一开始,大部分文生图模型使用CLIP(如SD、DALL-E 2)来作为文本编码器。CLIP目标通过图文对比学习训练,来建模视觉语言联合表征空间,是多模态学习领域里程碑式的工作,用于文生图模型的文本编码是很自然的想法。然而,受到训练目标监督粒度的限制,CLIP对于一张图中有多个物体,有不同属性、位置的复杂情况通常理解得较差。表现在生图模型上,就会出现生图结果属性绑定错乱的问题。另外,原始CLIP模型文本编码的最大长度也很有限,只有77。为了提升文生图模型的语义理解能力,Imagen首先提出了使用T5作为文本编码器,并指出了scaling文本编码器比scaling生图UNet带来的提升要显著得多。自此,新的文生图模型纷纷优化文本编码器的能力,有的引入更大更强的T5-XXL(如Imagen、Pixart),有的将多个CLIP或T5的特征结合起来(如SDXL、SD3)作为文本条件。然而,现有的开源模型在中文生图方面的能力还比较一般。直到最近腾讯开源出的Hunyuan-DiT,才有了一个比较可用的中文生图模型。Hunyuan-DiT使用了双语的CLIP模型加多语言的T5模型来作为文本编码器。但是由于多语言T5的训练预料中中文占比太少(只有2%),而CLIP又受限于本身训练目标,细粒度的文本理解能力较差。因此,目前开源界中文、细粒度文生图模型的文本编码器仍存在较大的优化空间。

模型能力简介

Kolors可以说是最近开源的文生图模型中最给力的一个了。从技术报告来看,改进也是很全面的,更强的中文文本编码器、机造的高质量文本描述、人标的高质量图片、强大的中文渲染能力,以及巧妙的noise schedule解决高分辨率图加噪不彻底的问题。可以说是目前主流的文生图训练技巧都用上了,实测效果也确实很不错。在看到Kling视频生成的强大表现,不得不让人赞叹快手的技术实力。

Others are asking
文生成图的ai工具
以下是一些文生成图的 AI 工具: 1. DALL·E:由 OpenAI 推出,能根据输入的文本描述生成逼真的图片。 2. StableDiffusion:开源的文生图工具,可生成高质量图片,支持多种模型和算法。 3. MidJourney:因高质量的图像生成效果和用户友好的界面设计而受欢迎,在创意设计人群中流行。 您还可以在 WaytoAGI 网站(https://www.waytoagi.com/category/104 )查看更多文生图工具。 如果您想将小说做成视频,可以参考以下步骤和工具: 步骤:通常包括文本分析、角色与场景生成、视频编辑与合成等。 工具与网址: 1. Stable Diffusion(SD):AI 图像生成模型,基于文本描述生成图像。网址:https://github.com/StabilityAI 2. Midjourney(MJ):适用于创建小说中的场景和角色图像。网址:https://www.midjourney.com 3. Adobe Firefly:Adobe 的 AI 创意工具,可生成图像和设计模板。网址:https://www.adobe.com/products/firefly.html 4. Pika AI:文本生成视频的 AI 工具,适合动画制作。网址:https://pika.art/waitlist 5. Clipfly:一站式 AI 视频生成和剪辑平台。网址:https://www.aihub.cn/tools/video/clipfly/ 6. VEED.IO:在线视频编辑工具,具有 AI 视频生成器功能。网址:https://www.veed.io/zhCN/tools/aivideo 7. 极虎漫剪:结合 Stable Diffusion 技术的小说推文视频创作提效工具。网址:https://tiger.easyartx.com/landing 8. 故事 AI 绘图:小说转视频的 AI 工具。网址:https://www.aihub.cn/tools/video/gushiai/
2025-01-19
我想做一个猫咪做饭的短视频,有五个分镜头。我先用文生图生成图片,在用图片生成视,最后剪辑在一起。问题是文生图的时候,生成的图片,效果不太理想
以下是为您提供的一些可能有助于改善文生图效果不理想问题的建议: 1. 仔细检查您输入的画面描述,确保描述清晰、具体、准确,包含足够的细节和特征,以便模型更好地理解您的需求。 2. 尝试调整关键词和描述的侧重点,突出您想要的关键元素,比如猫咪做饭的动作、表情、厨房环境等。 3. 更换不同的文生图模型或工具,有些模型可能在某些特定类型的图像生成上表现更出色。 4. 参考其他优秀的类似主题的图像,学习其构图、色彩、光影等方面的处理方式,从而优化您的画面描述。 5. 多次尝试生成,并对每次生成的结果进行分析和总结,找出问题所在,逐步改进描述。
2025-01-17
有哪些好用的文生图ai
目前好用的文生图 AI 工具主要有以下几种: 1. Artguru AI Art Generator:在线平台,能生成逼真图像,为设计师提供灵感,丰富创作过程。 2. Retrato:AI 工具,可将图片转换为非凡肖像,有 500 多种风格可选,适合制作个性头像。 3. Stable Diffusion Reimagine:新型 AI 工具,通过稳定扩散算法生成精细、具细节的全新视觉作品。 4. Barbie Selfie Generator:专为喜欢梦幻童话风格的人设计,能将上传照片转换为芭比风格,效果很好。 此外,还有一些受欢迎的文生图工具: 1. DALL·E:由 OpenAI 推出,能根据输入文本描述生成逼真图片。 2. StableDiffusion:开源工具,可生成高质量图片,支持多种模型和算法。 3. MidJourney:因高质量图像生成效果和用户友好界面设计而受欢迎,在创意设计人群中流行。 您可以在 WaytoAGI 网站(https://www.waytoagi.com/category/104)查看更多文生图工具。但这些工具仍存在一些局限,如偶尔性能不稳定、生成内容不当等问题。
2025-01-17
现在国内最好用的文生视频工具是什么,主要专注于一段文字转换成视频,文档字数300字左右,制作出的视频长度在一分钟左右
以下是一些国内好用的文生视频工具: 1. Pika:出色的文本生成视频 AI 工具,擅长动画制作且支持视频编辑。 2. SVD:若熟悉 Stable Diffusion,可安装此最新插件,能在图片基础上生成视频,由 Stability AI 开源。 3. Runway:老牌 AI 视频生成工具,提供实时涂抹修改视频功能,但收费。 4. Kaiber:视频转视频 AI,能将原视频转换成各种风格。 5. Sora:由 OpenAI 开发,可生成长达 1 分钟以上的视频。 此外,还有以下工具: 1. ChatGPT + 剪映:ChatGPT 生成视频小说脚本,剪映根据脚本自动分析并生成素材和文本框架。 2. PixVerse AI:在线 AI 视频生成工具,支持多模态输入转化为视频。 3. Pictory:允许用户提供文本描述生成相应视频内容。 4. VEED.IO:提供 AI 图像和脚本生成器,帮助规划视频内容。 5. 艺映 AI:专注人工智能视频领域,提供文生视频等服务。 国内的还有: 1. Hidreamai:有免费额度,支持文生视频、图生视频,提示词中文、英文均可,能控制运镜等,可生成 5 秒和 15 秒的视频。 2. ETNA:由七火山科技开发,能根据简短文本描述生成 8 15 秒的视频,画质可达 4K,支持中文,时空理解。 您可以根据自己的具体需求和使用场景进行选择。更多的文生视频网站可查看:https://www.waytoagi.com/category/38 。请注意,内容由 AI 大模型生成,请仔细甄别。
2025-01-15
剪映能识别文生视频的脚本后生成视频吗
剪映可以与 ChatGPT 结合使用来根据视频脚本生成视频。ChatGPT 生成视频脚本,剪映则能自动分析脚本中的场景、角色、镜头等要素,并生成对应的素材和文本框架,从而实现从文字到画面的转化,节省时间和精力。 此外,还有以下一些根据视频脚本生成短视频的工具: 1. PixVerse AI:在线 AI 视频生成工具,支持将多模态输入(如图像、文本、音频)转化为视频。8s 的视频生成需要花费 30Credits,5s 的视频生成需要花费 15Credits,且只能使用 PixVerse V2 模型,目前仅支持 16:9 画面比例的视频生成。PixVerse V2 支持多风格的视频生成,您可以通过在提示词中加入“Anime”“Realistic”等词语做到这点。 2. Pictory:这是一个 AI 视频生成器,允许用户轻松创建和编辑高质量视频,无需视频编辑或设计经验。用户可以提供文本描述,Pictory 将帮助生成相应的视频内容。 3. VEED.IO:提供了 AI 图像生成器和 AI 脚本生成器,帮助用户从图像制作视频,并规划从开场到结尾的内容。 4. Runway:这是一个 AI 视频创作工具,能够将文本转化为风格化的视频内容,适用于多种应用场景。 5. 艺映 AI:专注于人工智能视频领域,提供文生视频、图生视频、视频转漫等服务,用户可以根据文本脚本生成视频。 这些工具各有特点,适用于不同的应用场景和需求,能够帮助内容创作者、教育工作者、企业和个人快速生成吸引人的视频内容。内容由 AI 大模型生成,请仔细甄别。
2025-01-14
国内目前文生视频比较好的软件有哪些
国内目前文生视频比较好的软件有以下几种: 1. 可灵:在视频生成质量、生成速度和国内用户的可访问性方面表现出色。其生成的视频质量高,能与国际顶级模型媲美,处理效率高,为国内用户提供了便捷稳定的使用体验。 2. Pika:是一款出色的文本生成视频AI工具,擅长动画制作,并支持视频编辑。 3. Runway:老牌AI视频生成工具,提供实时涂抹修改视频的功能,但需要收费。 此外,还有一些相关的工具和网站,如: 1. GigaStudio:创作者可申请免费会员,文生视频效果好。 2. Dreamina:剪映旗下,动作幅度有很大升级。 更多的文生视频的网站可以查看这里: 。需要注意的是,以上内容由AI大模型生成,请仔细甄别。
2025-01-09
SD模型
Stable Diffusion(SD)模型是由 Stability AI 和 LAION 等公司共同开发的生成式模型,参数量约 1B,可用于文生图、图生图、图像 inpainting、ControlNet 控制生成、图像超分等任务。 文生图任务是将文本输入到 SD 模型,经过一定迭代次数生成符合描述的图片。例如输入“天堂,巨大的,海滩”,模型生成美丽沙滩图片。 图生图任务在输入文本基础上再输入一张图片,模型根据文本提示重绘输入图片使其更符合描述,如在沙滩图片上添加“海盗船”。 输入的文本信息需通过“桥梁”CLIP Text Encoder 模型转换为机器数学信息。该模型作为 SD 模型中的前置模块,将输入文本编码生成 Text Embeddings 特征矩阵,用于控制图像生成。 目前 SD 模型使用的是中的 Text Encoder 模型,其只包含 Transformer 结构,由 12 个 CLIPEncoderLayer 模块组成,模型参数大小为 123M,输出 Text Embeddings 的维度为 77x768。 以下是相关资源获取方式: SD 模型权重:关注 Rocky 的公众号 WeThinkIn,后台回复“SD 模型”,可获得包含多种模型权重的资源链接。 SD 保姆级训练资源:关注 Rocky 的公众号 WeThinkIn,后台回复“SDTrain”,可获得包含数据处理、模型微调训练及基于 SD 的 LoRA 模型训练代码等全套资源。 Stable Diffusion 中 VAE、UNet 和 CLIP 三大模型的可视化网络结构图:关注 Rocky 的公众号 WeThinkIn,后台回复“SD 网络结构”,即可获得网络结构图资源链接。
2025-01-22
到今天,大语言模型还会产生“幻觉”吗
截至今天,大语言模型仍会产生“幻觉”。 大语言模型偶尔会根据输入输出一些荒谬或不符合事实的内容,目前各家大语言模型在该问题上的表现都不尽如人意。产生“幻觉”的原因包括: 1. 样本存在错误(Imitative Falsehoods):如果大语言模型学习的“教材”中有错误,它也容易给出错误回答。缓解该问题的一个办法是上采样(Up Sampling)。 2. 信息过时(Outdated Factual Knowledge):以前正确的信息现在可能过时了。 此外,大语言模型通过训练数据猜测下一个输出结果,可能因错误数据导致给出错误答案,优质数据集对其很重要。如果在其训练过程中,模型被暴露于大量知识之中,它并没有完美地记忆所见到的信息,并不十分清楚自己的知识边界,可能会尝试回答有关深奥话题的问题,并虚构听起来有道理但实际不正确的内容。 在构建应用程序时,可以使用一些技术来避免这种情况,例如要求模型先从文本中找到相关引文,然后使用引文回答问题,并将答案追溯回源文件,这通常有助于减少“幻觉”的发生。
2025-01-22
本地部署大模型
以下是关于本地部署大模型的详细步骤: 1. 部署大语言模型: 下载并安装 Ollama: 根据电脑系统,从 https://ollama.com/download 下载 Ollama。 下载完成后,双击打开,点击“Install”。 安装完成后,将 http://127.0.0.1:11434/ 复制进浏览器,若出现相关字样则表示安装完成。 下载 qwen2:0.5b 模型(若设备充足可下载更大模型): Windows 电脑:点击 win+R,输入 cmd 点击回车。 Mac 电脑:按下 Command(⌘)+Space 键打开 Spotlight 搜索,输入“Terminal”或“终端”,选择“终端”应用程序。 复制相关命令行,粘贴进入并回车,等待自动下载完成。 2. ComfyUI ollama 本地大模型部署: 先下载 ollama 安装,安装完成后可在电脑桌面右下角或隐藏图标中找到。 下载对应的模型,选择模型并复制对应的命令。 打开命令行界面,输入对应的模型获取命令,等待下载完成。 模型下载后会保存到 D:\\ollama\\blobs 。 进行 docker 安装,安装会下载一些文件,安装后更改目录,不要放在 C 盘。 进行 Open webui 安装,输入相关命令,安装成功后回到 docker,点击会自动打开网页,第一次使用需注册账号,选择下载好的模型即可开始使用。 3. 错误解决: 端口占用问题,在 Windows 上可能出现,运行相关两条命令可解决。 4. 相关链接: comfyuiollama:https://github.com/stavsap/comfyuiollama?tab=readmeovfile Ollama:https://ollama.com/ docker:https://www.docker.com/ Open webui:https://openwebui.com/ 此外,还有一篇思路来源于视频号博主黄益贺的相关内容,作者按照其视频进行了实操并附加了一些关于 RAG 的额外知识。文中提到读完本文可以学习到如何使用 Ollama 一键部署本地大模型、通过搭建本地聊天工具了解 ChatGPT 信息流转、RAG 的概念及核心技术、通过 AnythingLLM 软件搭建完全本地化的数据库等内容。虽然大多数人不需要自己部署大模型,但期望通过本文的指导能够折腾一遍,从而做到知其然且知其所以然。
2025-01-22
大模型评分
大模型评分通常会根据不同的赛事或评估体系有所差异。 在金融行业的大模型挑战赛中,评测任务形式为给定一组参考文档和问题,要求模型按指定格式生成答案。赛事主办方会根据选手提供的回答与参考答案对比,并根据关键字段命中情况进行评分。评分公式涉及关键词命中总次数、关键词总数、小题数和得分等参数。例如在示例问题中,根据每个小题的回答正确情况计算得分,完全正确得满分 1 分,部分正确则根据命中比例计算得分。 在其他的大模型评估方面: FlagEval(天秤)大模型评测体系及开放平台,旨在建立科学、公正、开放的评测基准、方法、工具集,创新构建了“能力任务指标”三维评测框架,细粒度刻画基础模型的认知能力边界,可视化呈现评测结果。地址:https://github.com/FlagOpen/FlagEval 。 CEval 构造了一个覆盖多个学科的中文知识和推理型测试集,并给出了当前主流中文 LLM 的评测结果。地址:https://github.com/SJTULIT/ceval 。 SuperCLUElyb 是中文通用大模型匿名对战评价基准,以众包方式提供匿名、随机的对战,并发布了初步结果和基于 Elo 评级系统的排行榜。地址:https://github.com/CLUEbenchmark/SuperCLUElyb 。 斯坦福发布的大模型排行榜 AlpacaEval 支持两种模式的模型评估方式:alpaca_eval 和 alpaca_eval evaluate_from_model 。评测过程分为选择评估集并计算输出、计算 golden 输出、通过指定的自动标注器计算胜率等步骤。相对于人工标注,全自动化的 AlpacaEval 具有较低的经济成本和时间成本。
2025-01-22
有哪些能够本地部署的AI视频生成模型
以下是一些能够本地部署的 AI 视频生成模型: 1. Stable Video Diffusion 模型: 准备工作:手动下载相关内容,分别放到指定路径。 模型选择:点击下拉箭头选择不同模型版本,勾选 load Model。 视频创作:支持图生视频,图片来源可选择 Midjourney、Stable Diffusion 等生成的图片,上传到 SVD 进行视频生成,可调节左侧参数控制效果。 保存路径:生成的视频在 outputs 下。 2. LTXVideo 模型: 基于 2B 参数 DiT,能够以 768x512 分辨率生成 24 FPS 的视频,速度比观看还快。 专为 RTX 4090 等 GPU 优化,使用 bfloat16 精度,实现高效内存使用且不影响质量。 ComfyUI 现已支持该模型,用户只需下载模型文件并获取工作流即可在本地运行。 3. Sora 模型: 功能:文生视频、图生视频、视频生视频,支持多种视频定制选项,如分辨率、视频长度和视频风格;具有故事板功能,允许用户通过时间线指导视频中的多个动作;提供混音和编辑功能,包括视频混音、延伸和剪辑、创建循环视频等;还有混合功能,可将两个视频场景合并成一个新的场景。 费用和订阅套餐:对于拥有 OpenAI Plus 或 Pro 账户的用户,使用包含在现有订阅中。OpenAI Plus 订阅每月 50 次视频生成次数,OpenAI Pro 订阅无限次慢速队列生成,500 次正常速度的视频生成次数。用户可根据需要选择更高分辨率的视频生成,但可能会减少每月使用次数。发布初期,某些地区(如欧洲和英国)可能会有延迟。
2025-01-21
吴恩达大模型教程
以下是一些与吴恩达大模型相关的教程和资源: 面向开发者的 LLM 入门课程: 地址: 简介:一个中文版的大模型入门教程,围绕吴恩达老师的大模型系列课程展开,包括吴恩达《ChatGPT Prompt Engineering for Developers》课程中文版等。 提示工程指南: 地址: 简介:基于对大语言模型的兴趣编写的全新提示工程指南,介绍了相关论文研究等。 LangChain🦜️🔗中文网,跟着 LangChain 一起学 LLM/GPT 开发: 地址: 简介:由两位 LLM 创业者维护的 Langchain 中文文档。 LLM 九层妖塔: 地址: 简介:包含 ChatGLM 等实战与经验。 目录:吴恩达讲 Prompt https://github.com/zard1152/deepLearningAI/wiki Coze 复刻:吴恩达开源的 AI 翻译项目 复刻步骤:包括配置反思优化的提示词、结合反思优化建议再次翻译、选择输出方式等。 大语言模型分为基础 LLM 和指令微调 LLM 两类。基础 LLM 经过训练可根据文本预测下一个词,指令微调 LLM 经过训练能遵循指令,为让系统更有帮助并遵循指令,通常会使用人类反馈强化学习(RLHF)技术优化。提示的关键原则包括尽可能保证下达的指令“清晰、没有歧义”,给大模型思考的时间以及足够的时间去完成任务。
2025-01-21
在中国国内,AI编程最好的解决方案
在中国国内,以下是一些关于 AI 编程的较好解决方案: 1. 字节发布的全新 AI IDE:Trae。它具有免费无限量使用 Claude 的特点,但目前存在一些小问题,如无法及时调整 Prompt 模块等,不过随着产品的快速迭代有望得到修复。其官网为:https://www.trae.ai/ 。 2. MCP 理念:工具应适应 AI 的认知方式,让 AI 理解要做的事,然后自主寻找合适的工具和方法,而非按固定步骤执行。 3. 中国的一些模型在 LMSYS 排行榜上表现优异,如 DeepSeek、零一万物、知谱 AI 和阿里巴巴开发的模型,在数学和编程方面有出色表现。中国模型更注重计算效率,以弥补 GPU 访问限制,并有效利用资源。例如 DeepSeek 在推理过程中通过多头隐式注意力减少内存需求,改进 MoE 架构;零一万物更关注数据集建设。
2025-01-22
国内哪款AI应用在咨询解答方面比较好
以下是国内在咨询解答方面表现较好的一些 AI 应用: 1. 抖音搜索:是一个独立 App,增加了 AI 问答功能。字节旗下还有“豆包”这一国民级的 AI 应用入口。 2. 小红书: 点点:独立的 AI 搜索 App,基于小红书和少量外部数据,回答用户提出的攻略、美食、经验等问题。 问点点:小红书 App 内的 AI 问答页面,从检索框可以进入。 3. 作业帮智能辅导:为学生提供个性化学习辅导,使用机器学习、自然语言处理技术,市场规模百亿美元以上。 4. 法信智能法律咨询:解答法律问题提供法律咨询,使用自然语言处理、知识图谱技术,市场规模数亿美元。 此外,国内免费的大模型 APP 有 Kimi 智能助手(Moonshot AI 出品)、文心一言(百度出品)、通义千问(阿里云开发)。
2025-01-21
国内有哪些开源ai可以调用?
国内有以下一些开源 AI 可供调用: MiniMax 推出的 Hailuo Audio HD 此外,还有一些应用于不同领域的 AI 技术和产品,如: 在游戏领域,有根据玩家需求推荐游戏道具的 AI 游戏道具推荐系统。 在天气领域,彩云天气的分时预报利用了 AI 提供精准的分时天气预报。 在医疗领域,医渡云的病历分析系统利用 AI 分析医疗病历,辅助诊断。 在会议领域,讯飞听见的会议总结功能利用 AI 自动总结会议发言内容。 在书法领域,书法临摹软件利用 AI 识别书法作品的笔画和结构,为用户提供临摹指导和评价。
2025-01-20
现在有哪些好用的图片生成,或者是修改美化的人工智能,尽量少要一些国内的
目前比较成熟的国外图片生成或修改美化的 AI 产品主要有: 1. Artguru AI Art Generator:在线平台,能生成逼真图像,为设计师提供灵感,丰富创作过程。 2. Retrato:AI 工具,可将图片转换为非凡肖像,有 500 多种风格可选,适合制作个性头像。 3. Stable Diffusion Reimagine:新型 AI 工具,通过稳定扩散算法生成精细、具细节的全新视觉作品。 4. Barbie Selfie Generator:专为喜欢梦幻童话风格的人设计的 AI 工具,能将上传的照片转换为芭比风格,效果很好。 这些 AI 模型通过组合技术如扩散模型、大型视觉转换器等,可根据文本或参考图像生成有创意且质量不错的相似图像输出,但仍存在一些局限,如偶尔性能不稳定、生成内容不当等问题。
2025-01-20
国内哪个AI翻译工具最好用
以下是一些国内好用的 AI 翻译工具: 1. DeepL(网站):点击页面「翻译文件」按钮,上传 PDF、Word 或 PowerPoint 文件即可。 2. 沉浸式翻译(浏览器插件):安装插件后,点击插件底部「更多」按钮,选择「制作双语 BPUB 电子书」、「翻译本地 PDF 文件」、「翻译 THML/TXT 文件」、「翻译本地字幕文件」。 3. Calibre(电子书管理应用):下载并安装 calibre,并安装翻译插件「Ebook Translator」。 4. 谷歌翻译(网页):使用工具把 PDF 转成 Word,再点击谷歌翻译「Document」按钮,上传 Word 文档。 5. 百度翻译(网页):点击导航栏「文件翻译」,上传 PDF、Word、Excel、PPT、TXT 等格式的文件,支持选择领域和导出格式(不过进阶功能基本都需要付费了)。 6. 彩云小译(App):下载后点击「文档翻译」,可以直接导入 PDF、DOC、DOCX、PPT、PPTX、TXT、epub、srt 等格式的文档并开始翻译(不过有免费次数限制且进阶功能需要付费)。 7. 微信读书(App):下载 App 后将 PDF 文档添加到书架,打开并点击页面上方「切换成电子书」,轻触屏幕唤出翻译按钮。 内容由 AI 大模型生成,请仔细甄别。
2025-01-19
国内优秀Agent应用案例
以下是一些国内优秀的 Agent 应用案例: 1. Coze:新一代一站式 AI Bot 开发平台,适用于构建基于 AI 模型的各类问答 Bot,集成丰富插件工具拓展 Bot 能力边界。 2. 文心智能体:百度推出的基于文心大模型的智能体平台,支持开发者根据需求打造产品能力。 3. 斑头雁:2B 基于企业知识库构建专属 AI Agent 的平台,适用于客服、营销、销售等多种场景,提供多种成熟模板,功能强大且开箱即用。 4. 钉钉 AI 超级助理:依托钉钉强大的场景和数据优势,在处理高频工作场景如销售、客服、行程安排等方面表现出色,提供更深入的环境感知和记忆功能。
2025-01-19