Navigate to WaytoAGI Wiki →
Home/Question List/Question Detail

图片底下生成字幕的工具

Answer

以下为一些可以生成图片底下字幕的工具及相关方法:

  1. Trae 多模态复刻产品:
    • 创意来自@南瓜博士,具体原文可看其复现的文章:https://mp.weixin.qq.com/s/CEJ6ite843M4hPuyT5jB6Q 。
    • 核心策略是使用截图让 Trae 理解后生成功能描述,修改后再让 Trae 完成开发和优化。
    • 开始时需在本地新建一个文件夹,再用 Trae 打开该文件夹。
    • 将图片发给 Trae,并带上相应提示词。
    • 开发完成后在本地文件夹打开 index.html ,可能需要继续优化,如添加每行字幕之间的分割线、切割图片底部等。
    • 公众号回复“字幕图片”,获取源代码。保存成.html 文件,在浏览器打开就能用。
  2. 某软件(未提及具体名称):
    • 在显示区域,拖动背景图的一个角将图片放大到适合尺寸,如覆盖视频窗口,并将数字人拖动到合适位置。
    • 点击文本 - 智能字幕 - 识别字幕,点击开始识别,软件会自动将文字智能分段并形成字幕。
    • 数字人视频完成后,点击右上角的“导出”按钮,导出视频以作备用。若要换脸,需使用另一个工具。
Content generated by AI large model, please carefully verify (powered by aily)

References

AI编程与炼金术:Build on Trae

该创意来自@南瓜博士具体原文可以看南瓜博士复现的文章:https://mp.weixin.qq.com/s/CEJ6ite843M4hPuyT5jB6Q在她的文章里有详细的需求描述和开发过程,大家照着做就能复现了。那今天黄叔想教会大家的,其实是另外一个技巧:[heading2]用Trae多模态复刻产品[content]核心策略是,使用截图让Trae理解后生成功能描述,修改后再让Trae完成开发和优化!开始的第一步,还是在本地新建一个文件夹,再用Trae打开该文件夹,我们在上一节已经都做过演示,这里就不再展开了,如果你忘记了,可以点击会回看:[第一步:在你的电脑上新建一个文件夹](https://waytoagi.feishu.cn/wiki/UspJwJk95iKoegkoUdWcmX7rnib#share-H75HdPiFbow8l3xdiYEcuYGnnnb)[第二步:使用Trae打开这个文件夹](https://waytoagi.feishu.cn/wiki/UspJwJk95iKoegkoUdWcmX7rnib#share-QYVodXqiTokZoKxsrMFciW1rnPf)继续,按照这个流程,我们一开始需要将上面的图片,发给Trae,并带上下面的提示词:大体是这样的:然后发送给Trae。没想到Trae直接就开始复刻了:等待一会后,开发完成,到本地文件夹打开index.html后,是这样的:这次就完成了!下载后是这样的:可以说基本是完成了,不过仔细看,底部字幕是每行之间没有分割线,另外也没有切割图片底部,我们可以继续优化:这回好了:

用 Trae 开发一个小小小工具

点击右上角应用。然后在文件夹找到它,双击浏览器打开,测试。效果不太对,生成的图片如下,重叠的部分盖住了之前的图片~~把结果贴给AI,把错误现象和期望的表现描述一下。让AI再迭代。AI第一次改把程序改得更糟糕了,可能是忘了最开始的要求是啥。于是把最初的图片也贴给它做对比。这下成功了。还有个小问题,再改。三轮对话终于搞定。接下来做保存功能。再调整细节:后面这几步,对程序员来说是宁可直接撸代码的。但测功能嘛总得测全了,看技术小白是不是也能搞定。实验下来很顺畅。是的,就这么简单。公众号回复“字幕图片”,获取源代码。保存成.html文件,在浏览器打开就能用。我是在技术和教育圈来回串的贪玩的好奇星人。欢迎点赞点收藏关注加星。也期待多多评论区交流。我曾写过的与AI编程有关的文章

实战: 每个人都可以用10分钟轻松制作AI换脸、AI数字人视频的方法!

在显示区域,拖动背景图的一个角,将图片放大到适合的尺寸,比如覆盖视频窗口。并将数字人拖动到合适的位置:3.3增加字幕点击文本-智能字幕-识别字幕,点击开始识别:软件会自动将文字智能分段并形成字幕:至此,数字人视频就完成了。点击右上角的“导出”按钮,导出视频以作备用。如果你希望数字换成自己希望的面孔,比如这个:就需要用另一个工具来进行换脸了。

Others are asking
视频字幕翻译
以下是为您推荐的视频自动字幕工具: 1. Reccloud:免费的在线 AI 字幕生成工具,可直接上传视频精准识别,能翻译字幕并自动生成双语字幕,已处理 1.2 亿+视频,识别准确率接近 100%。 2. 绘影字幕:一站式专业视频自动字幕编辑器,提供简单、准确、快速的字幕制作和翻译服务,支持 95 种语言,准确率高达 98%,可自定义字幕样式。 3. Arctime:能对视频语音自动识别并转换为字幕,支持自动打轴,支持 Windows 和 Linux 等主流平台及 SRT 和 ASS 等字幕功能。 4. 网易见外:国内知名语音平台,支持视频智能字幕功能,转换正确率较高,支持音频转写功能。 此外,还有以下相关内容: TecCreative 创意工具箱中的 AI 字幕功能,智能识别视频语言并生成对应字幕,满足海外多国投放场景需求。操作指引:点击上传视频——开始生成——字幕解析完成——下载 SRT 字幕。注意支持 MP4 文件类型,大小上限为 50M。 Translate.Video 网站,可将视频自动生成字幕并翻译成 75 多种语言,提供自动字幕生成、翻译字幕、AI 配音以及编辑等一站式视频服务。 您可以根据自己的需求选择最适合的工具。内容由 AI 大模型生成,请仔细甄别。
2025-03-19
需要一个能在看YouTube英语视频的时候把每句话都实时翻译成中文 挂在字幕上的ai工具
以下为您推荐一款可能满足您需求的 AI 工具:Memo AI (https://memo.ac/zh/)。它可以对 YouTube、播客、本地音频视频轻松进行转文字、字幕翻译、语音合成,还可以由多种 AI 模型提炼内容精华总结,生成思维导图。并且支持中文、英语等多语言。
2025-03-19
AI 去视频字幕
以下是关于 AI 去视频字幕的相关信息: VSR 字幕去除工具:利用 AI 去除视频和图片中的字幕,支持智能填充处理,确保视觉质量。链接: 对于有字幕的 B 站视频,若视频栏下有字幕按钮,说明视频作者已上传字幕或后台适配了 AI 字幕。可安装油猴脚本,安装后刷新浏览器,点击字幕会多出“下载”按钮,可选择多种字幕格式,然后将字幕文字内容全选复制发送给 GPTs 进行总结。 【TecCreative】的创意工具箱中有智能识别视频语言并生成对应字幕的功能,满足海外多国投放场景需求。操作指引:点击上传视频——开始生成——字幕解析完成——下载 SRT 字幕。注意:支持 MP4 文件类型,大小上限为 50M。
2025-03-13
AI 去字幕
以下是关于 AI 去字幕的相关信息: 一种解决方案是: 用 whisper 生成原视频的英文字幕(预设 whisper 生成的字幕没问题,whisper 的问题不探讨)。 让 GPT 结合字幕全文翻译,并让其根据原英文字幕的拆分,将译文进行同样行数的拆分。 将 GPT 译文拆分的结果插入到原英文字幕文件中形成一个新的双语字幕文件。这个过程中所有的执行脚本都是让 GPT 写的。 另外,VSR 字幕去除工具可以利用 AI 去除视频和图片中的字幕,并支持智能填充处理,确保视觉质量。 还有一种方式是,在某些平台如【TecCreative】中,智能识别视频语言并生成对应字幕,满足海外多国投放场景需求。操作指引为:点击上传视频——开始生成——字幕解析完成——下载 SRT 字幕。但需注意支持 MP4 文件类型,大小上限为 50M。
2025-03-13
ai消除字幕
以下是为您找到的关于 AI 消除字幕的相关信息: VSR 字幕去除工具:利用 AI 去除视频和图片中的字幕,支持智能填充处理,确保视觉质量。链接:
2025-03-05
有没有能自动提取视频的英文字幕的 AI 工具?
以下是一些能够自动提取视频英文字幕的 AI 工具: Whisper:可以生成原视频的英文字幕。 360AI 浏览器:不仅能帮用户观看 B 站的字幕视频,短短几秒就能总结概要生成脑图,告诉用户视频的重点和高潮剧情在哪,还可以对英文字幕进行翻译,帮助用户理解内容。同时可通过 AI 助手对话,就视频内容进行追问和扩展提问。
2025-03-05
如何用coze创建工作流 采集生成视频号内容
以下是使用 Coze 创建工作流采集生成视频号内容的步骤: 1. 安装 Coze Scraper 扩展程序至浏览器,完成安装后可手动采集要上传到扣子知识库的内容。更多关于知识库的内容,详情请参考。 登录。 在左侧菜单栏,选择一个工作区。 在工作区内,单击知识库页签。 创建一个知识库或点击一个已存在的知识库。 在知识库页面,单击新增单元。 在文本格式页签下,选择在线数据,然后单击下一步。 单击手动采集,然后在弹出的页面点击权限授予完成授权。 在弹出的页面输入要采集内容的网址,然后单击确认。 在弹出的页面上,点击页面下方文本标注按钮,开始标注要提取的内容,然后单击文本框上方的文本或链接按钮。 单击查看数据查看已采集的内容,确认无误后再点击完成并采集。 2. 创建工作流: 登录到您的 Coze 账户,导航至个人空间页面。 在个人空间页面上,点击“工作流”按钮,系统会展示之前创建的工作流列表。 在页面的右上角,点击“创建工作流”按钮,打开创建工作流的界面。 在创建工作流的页面上,填写工作流的名称(必须使用英文字符)和描述(一段简洁的文本,帮助模型理解工作流的功能和用途以及触发情境)。 完成必填项后,系统将自动跳转到工作流的编辑页面,其中预设并配置了开始节点和结束节点。开始节点是用户输入内容的起点,结束节点是收尾角色,无论工作流中进行了哪些操作,最终都必须通过结束节点来完成。系统强制要求在工作流的最后步骤中包含结束节点,只有当整个流程的最终动作指向结束节点时,工作流才能够进行试运行和正式发布。 在工作流编辑页面的左侧,有组件库,包括大模型组件(用于执行复杂的数据处理任务)、代码组件(允许运行自定义代码段)、消息组件(用于发送或接收消息)、数据库组件(与数据库交互,执行查询或更新操作)、选择器组件(用于在工作流中进行条件判断和分支选择)。
2025-03-25
帮忙生成一副山水画,提现田园冬天春节的柔和风景
以下是为您生成体现田园冬天春节柔和风景的山水画的相关教程: 模型: revAnimated v1.2.2 版本 majicmixRealistic_v7 尺寸:生成的尺寸和您的草稿图保持一致。 正关键词: there is a crane standing in the water,reflection,a tree covered in frost,the river flows quietly,In the early morning of Xiaohan,the sky showed a light blue color,as if it had been dyed by the cold air of winter.The mountains in the distance look more magnificent and peaceful under the morning glow.Crystal frost flowers hang on the branches,shining with silvery white light.,<lora:SCHH:0.8>,SCHH ,springtime,the branches have sprouted new shoots,the stream's water is flowing,snow removal,xuan phong lightpink,soft colors and tones,no humans,outdoors,the background perspective is that the grass is full of flowers,photography,blurry 负面关键词: NSFW,Negative,,watermark,ng_deepnegative_v1_75t,character,people ,watermark,fuzzy,gaussian blur ControlNet 设置: 预处理器:tile_resample 模型:control_v11f1e_sd15_tile,权重:0.7 Module:softedge_pidinet,Model:control_v11p_sd15_softedge,Weight:0.85 总批次数可根据您的电脑配置进行调整,电脑配置不太好的可以先跑一张看看。多抽几张,选一张喜欢的。
2025-03-25
你是一个财务总监,市场分析师,但是你没有数据,现在需要你寻找一下有没有可以自动查找数据,并且根据数据生成饼状图的 AI工具
以下是为您推荐的可以自动查找数据并根据数据生成饼状图的 AI 工具: 1. Claude Financial Data Analyst:可视化金融数据分析工具,能生成多种图表,包括饼图。上传文档后可快速生成动态图表,适用于趋势分析和分布分析。详细介绍:https://xiaohu.ai/p/14811 ,GitHub:https://github.com/anthropics/anthropicquickstarts/tree/main/financialdataanalyst ,https://x.com/imxiaohu/status/1847617781594030583 。 2. PandasAI:让 Pandas DataFrame“学会说人话”的工具,用户可以以 Pandas DataFrame 的形式提出有关数据的问题,会以自然语言、表格或者图表等形式进行回答,目前仅支持 GPT 模型,OpenAI API key 需自备。示例:pandas_ai.run 。GitHub 链接:https://github.com/gventuri/pandasai 。 3. DataSquirrel:自动进行数据清理并可视化执行过程,帮助用户在无需公式、宏或代码的情况下快速将原始数据转化为可使用的分析/报告的数据分析工具。平台符合 GDPR/PDPA 标准。链接:https://datasquirrel.ai/ 。
2025-03-25
思维导图生成ai
以下是一些与思维导图相关的 AI 工具: 1. GitMind:免费的跨平台思维导图软件,可通过 AI 自动生成思维导图,支持多种模式,如提问、回答、自动生成等。 2. ProcessOn:国内的思维导图与 AIGC 结合的工具,能利用 AI 生成思维导图。 3. AmyMind:轻量级在线 AI 思维导图工具,无需注册登录,支持自动生成节点。 4. Xmind Copilot:Xmind 推出的基于 GPT 的 AI 思维导图助手,可一键拓展思路,生成文章大纲。 5. TreeMind:“AI 人工智能”思维导图工具,输入需求后由 AI 自动完成思维导图生成。 6. EdrawMind:提供一系列 AI 工具,包括 AI 驱动的头脑风暴功能,有助于提升生产力。 总的来说,这些工具都能通过 AI 技术自动生成思维导图,提高制作效率,为知识工作者带来便利。 此外,还有一些关于思维导图生成的相关信息: 在使用 flowith 时,可通过引用节点技巧让 AI 根据特定参照输出高关联度内容,还可对比不同模型输出择优深挖,在满意内容节点添加“文本编辑器显示”进行精加工。 12 月更新的生成式 AI 年终数据中,思维导图相关的如 Whimsical Al 等也有相关流量等数据统计。
2025-03-25
想咨询一下有没有可以自动查找数据,并且根据数据生成饼状图的 AI工具
以下是一些可以自动查找数据并根据数据生成饼状图的 AI 工具: 1. PandasAI:这是一个让 Pandas DataFrame“学会说人话”的工具,用户可以以 Pandas DataFrame 的形式提出有关数据的问题,它会以自然语言、表格或者图表等形式进行回答,目前仅支持 GPT 模型,OpenAI API key 需自备。链接:https://github.com/gventuri/pandasai 2. DataSquirrel:能够自动进行数据清理并可视化执行过程,帮助用户在无需公式、宏或代码的情况下快速将原始数据转化为可使用的分析/报告,平台符合 GDPR/PDPA 标准。链接:https://datasquirrel.ai/ 此外,在一些特定的文档中还提到了通过代码生成和特定操作生成堆叠条形图、堆叠柱状图、百分比堆条形图等用于展示数据的方式。
2025-03-25
想咨询一下有没有可以自动查找数据生成饼状图的 AI工具
以下是一些可以自动查找数据生成饼状图的 AI 工具: 1. 对于一般的数据统计和图表生成,清华的智谱清言 Chatglm.cn 可能具备相关功能。 2. 在 CAD 领域,虽然主要是针对 CAD 图的生成,但也有一些工具可能适用于您的需求,例如: CADtools 12:这是一个 Adobe Illustrator(AI)插件,添加了 92 个绘图和编辑工具,包括图形绘制、编辑、标注、尺寸标注、转换、创建和实用工具。 Autodesk Fusion 360:是 Autodesk 开发的一款集成了 AI 功能的云端 3D CAD/CAM 软件,能创建复杂的几何形状和优化设计。 nTopology:基于 AI 的设计软件,可创建复杂的 CAD 模型,包括拓扑优化、几何复杂度和轻量化设计等。 ParaMatters CogniCAD:基于 AI 的 CAD 软件,能根据用户输入的设计目标和约束条件自动生成 3D 模型,适用于拓扑优化、结构设计和材料分布等领域。 一些主流 CAD 软件,如 Autodesk 系列、SolidWorks 等,提供了基于 AI 的生成设计工具,可根据用户输入的设计目标和约束条件自动产生多种设计方案。 需要注意的是,这些工具通常需要一定的相关知识和技能才能有效使用。对于初学者,建议先学习基本技巧,然后尝试使用这些工具来提高效率。同时,内容由 AI 大模型生成,请仔细甄别。
2025-03-25
我想用ai生成图片,有什么工具
目前市场上有许多用于生成图片的工具,以下为您介绍: 1. 文生图工具: DALL·E:由 OpenAI 推出,可根据输入的文本描述生成逼真的图片。 StableDiffusion:开源的文生图工具,能生成高质量图片,支持多种模型和算法。 MidJourney:因高质量的图像生成效果和用户友好的界面设计而受欢迎,在创意设计人群中流行。 您还可以在 WaytoAGI 网站(https://www.waytoagi.com/category/104)查看更多文生图工具。 2. 图片生成 3D 建模工具: Tripo AI:VAST 发布的在线 3D 建模平台,能利用文本或图像在几秒钟内生成高质量且可立即使用的 3D 模型。 Meshy:功能全面,支持文本生成 3D、图片生成 3D 以及 AI 材质生成。 CSM AI:支持从视频和图像创建 3D 模型,Realtime Sketch to 3D 功能支持通过手绘草图实时设计 3D 形象,再转换为 3D 模型。 Sudo AI:支持通过文本和图像生成 3D 模型,适用于游戏领域的模型生成。 VoxCraft:由生数科技推出的免费 3D 模型生成工具,能将图像或文本快速转换成 3D 模型,并提供多种功能。 这些工具通常具有用户友好的界面,允许用户通过简单操作生成图片或 3D 模型,无需专业技能。它们可广泛应用于游戏开发、动画制作、3D 打印、视觉艺术等领域。请注意,以上内容由 AI 大模型生成,请仔细甄别。
2025-03-25
根据产品平面图片可以生成产品360度3D视频
以下是一些根据产品平面图片生成产品 360 度 3D 视频的相关信息: ViggleAI:由 15 人团队打造,创始人是在多家知名公司工作过的华人 AI 研究员。其核心能力是将视频中的角色替换成其他形象,依赖自家训练的 3D 视频模型「JST1」,能够根据一张角色图片生成 360 度角色动画。目前支持 Discord 访问和网页版访问,Discord 平台已积累超 400 万用户。网页版访问:https://www.viggle.ai/ 官方推特:https://x.com/ViggleAI 。Move 模式能使图像角色移动,原始图像背景保持不变,擅长将特定角色融入动作场景,视频生成稳定性和角色前后一致性强。 Sora:可以将 2D 照片生成三维的 360 度景致,视频效果逼真,例如赛车在旧金山街道的视频、厨房照片生成的 360 度环视效果等。 工具汇总: MakeACharacter:一键生成 3D 数字人,可自定义面部特征,基于真实人类扫描数据,使用 Unreal Engine 渲染,支持中英文提示,兼容多个行业应用。链接:https://x.com/xiaohuggg/status/1743986486780076279?s=20 Rodin Gen1:3D 原生生成模型,拥有 1.5B 参数,可实现 3Dto3D 生成,生成 3D 模型及物理基础渲染材质,支持 3D LoRA 技术。链接:https://x.com/xiaohuggg/status/1743638052097184102?s=20 Skybox AI 0.9 版本更新:可以从文本提示或草图生成 360 度 3D 世界,使用 NeRF 技术,增强图像的空间深度和真实感,提供不同分辨率的 3D 网格下载。链接:https://x.com/xiaohuggg/status/1739926702158225859?s=20 扫描物体生成 3D 模型:使用 APP 扫描物体,完成 3D 全貌捕获,创建 AR QR 码,展示物体于任何地点,苹果新品官网展示中应用此技术。链接:https://x.com/xiaohuggg/status/1739259052448944139?s=20
2025-03-25
可以为我找到在线更换图片颜色服务的AI网站吗
以下是一些可以在线更换图片颜色服务的 AI 网站相关信息: 启用 MutiDiffusion 插件,不开放大倍数,仅使用分块渲染的功能,能在显存不够的情况下将图片放大到足够的倍数。 在最近新上线的 controlnet 模型中,Recolor 新模型可将黑白图片重新上色。 对于人物照片还原,可选择 realisian 的写实大模型,通过提示词描述颜色和对应内容,如黑色的头发、黄色的皮肤、深蓝色的衣服、浅蓝色的背景等。ControlNet 选择 Recolor,预处理器选择“recolor_luminance”效果较好。 您可以通过以下网址获取更详细内容:https://mp.weixin.qq.com/s/hlnSTpGMozJ_hfQuABgLw
2025-03-25
图片信息提取
图片信息提取主要包括以下几个方面: 1. 实现工作流: 上传输入图片。 理解图片信息,提取图片中的文本内容信息。 场景提示词优化/图像风格化处理。 返回文本/图像结果。 零代码版本:选择 Coze 平台,将本地图片转换为在线 OSS 存储的 URL 以便调用,封装图片理解大模型和图片 OCR 为工作流插件。 2. 银海的工程视角 TrickleOnWeChat 方案: 设计信息整合和提炼的 Prompt 提示词,将 OCR 文本信息与图片识别信息关联整合,按信息分类分析方法整理并按指定格式输出,增加标签分类。 3. 星流一站式 AI 设计工具: 左侧图片案例板块包含大量图像例图与生图信息,滑动鼠标到“info”区域可直接将图像发送到画布与生图信息调取。 图像筛选功能包括推荐(根据生图参数推荐)、热门(推荐浏览量最高的图片)、搜索(输入描述进行图像搜索)。 图像调取包括点击“发送到画布”直接将图像发送到“无限画布”,生图参数调取包括整体调取(点击“发送到生成器”调取全部参数)和单个调取(点击右侧单独的发动键调取单个参数)。
2025-03-24
关于agent,图片生成
以下是关于 agent 和图片生成的相关信息: 关于 Agent Scheduler 插件用于图片生成: 点击排队设置任务,可在控制面板查看处理生成中的任务。 不想立即运行可点击暂停,也可在设置中勾选“禁用队列自动处理”。 可设置多个任务,完成后在任务历史中查看参数和结果,不满意可重新生成。 如需该插件,可添加公众号【白马与少年】回复【SD】获取。 Agent 相关比赛: 赛道包括图文创作赛道、实用工具赛道、互动创意赛道。 参考方向有内容生成、图像标注、图文匹配、数据可视化、设计辅助、自动化排版、图文识别、新闻和社交媒体、艺术创作、智能产品设计等。 AIGC 相关: Meta 开源了名为 Image Bind 的 AI 模型,是首个能同时绑定六种模式数据的模型,能推进人工智能在跨模式检索、嵌入空间算法、生成等方面的发展。 HuggingFace Transformers Agent 使编码 LLM 能动态组合其他 HF 模型解决多模态任务,提供自然语言 API,具有可扩展性,有单次运行和聊天执行两种方法,预定义工具包括文档问答、文本问答、图像生成等。
2025-03-24
去除图片水印工具
以下是一些去除图片水印的工具推荐: 1. AVAide Watermark Remover:这是一个在线工具,运用AI技术去除图片水印。它支持多种图片格式,如JPG、JPEG、PNG、GIF等。操作简便,上传图片、选择水印区域,然后保存并下载处理后的图片即可。还提供去除文本、对象、人物、日期和贴纸等功能。 2. Vmake:提供AI去除图片水印功能,用户可上传最多10张图片,AI自动检测并移除水印,处理完成后可选择保存生成的文件,适合需快速去水印并在社交媒体分享图片的用户。 3. AI改图神器:具备AI智能图片修复去水印功能,可一键去除图片中的多余物体、人物或水印,不留痕迹。支持直接粘贴图像或上传手机图像,操作简单。 此外,还有以下工具可供选择: 对于去除图片中特定物体(如右手手串),除了PS,SD局部重绘、Firefly、canva、Google photo、微软Designer等都有局部重绘功能。 ProPainter:可一键移除视频内物体或水印,基于E2FGVI实现。 收费但效果较好的工具如:https://anieraser.media.io/app。 效果一般的免费工具:https://onlinevideocutter.com/removelogo。 这些工具各有特点,您可以根据具体需求选择最适合的去水印工具。请注意内容由AI大模型生成,请仔细甄别。
2025-03-23