Navigate to WaytoAGI Wiki →
Home/Question List/Question Detail

文本转markdown工具有哪些

Answer

以下是一些文本转 Markdown 的工具:

  • ShowMeAI 周刊提到的好用的转换工具,但未具体指明。
  • XiaoHu.AI 日报中提到的 Zerox OCR 工具,它是开源的 GPT OCR 工具,支持将 PDF、DOCX 转换为 Markdown,可并发处理,还能选择特定页面及模型选项。详细介绍可参考:https://xiaohu.ai/p/14778https://getomni.ai/ocr-demo
Content generated by AI large model, please carefully verify (powered by aily)

References

ShowMeAI周刊 No.13 | 上周最有讨论度的9个AI话题:AI教育谷歌扳回一局、阶跃终于摘星辰、大部分人用不起来AI…

1.Learn About:继NotebookLM之后又一个AI Native产品,谷歌真正的AI Native Education尝试2.ima.copilot V.S.秘塔V.S.天工:国区Perplexity青出于蓝而胜于蓝,秘塔一骑绝尘3.Markdown:技术圈(最)常用的文本编辑语言,一种「四通八达」的中转格式⇨附上好用的转换工具4.把17岁高中生涂津豪的Thinking Claude提示词,设置在Cursor里5.两篇优秀的AI编程教程:跟着资深工程师&全栈开发者,挖掘LLM编程能力的极限6.恭喜阶跃星辰!step-2在LiveBench榜单杀进前5,斩获国产大模型第1名⇨顺带聊聊榜单和测评的「内幕」7.举个栗子:当把大模型「开源」用「做饭-吃饭」来解释,一起都豁然开朗起来⇨甚至还玩起了谐音梗8.很有共鸣:为什么大部分人用不起来AI?可能还没体验到效率飞升的Aha Moment9.集体讨论:大家都是怎么快速处理长视频、长音频、长文本材料的?都有哪些工作流和工具的配合应用?

XiaoHu.AI日报

🔔Xiaohu.AI日报「10月20日」✨✨✨✨✨✨✨✨1⃣️🖥️Zerox OCR工具:开源GPT OCR工具,支持PDF、DOCX转换为Markdown。可并发处理,选择特定页面及模型选项。详细介绍🔗[https://xiaohu.ai/p/14778](https://xiaohu.ai/p/14778)🔗[https://getomni.ai/ocr-demo](https://getomni.ai/ocr-demo)2⃣️📈BrightEdge数据揭示:OpenAI的SearchGPT以150%增长速度成竞争对手。YouTube内容引用增长310%,促进品牌搜索表现。🔗[https://x.com/imxiaohu/status/1847491108642963573](https://x.com/imxiaohu/status/1847491108642963573)3⃣️🗣️ChatGPT高级语音模式:即将上线,但应用场景有限,API成本降低将拓展用途。🔗[https://x.com/imxiaohu/status/1847575551424548931](https://x.com/imxiaohu/status/1847575551424548931)4⃣️🎥Viggle视频生成:文字描述生成动态视频,基于JST-1模型理解物理运动。可控制角色动作和场景,创建3D角色和场景。🔗[http://viggle.ai](http://viggle.ai)🔗[https://discord.gg/5kk5SKwTWd](https://discord.gg/5kk5SKwTWd)🔗[https://x.com/imxiaohu/status/1771173928591093940](https://x.com/imxiaohu/status/1771173928591093940)

XiaoHu.AI日报

🔔Xiaohu.AI日报「10月20日」✨✨✨✨✨✨✨✨1⃣️🖥️Zerox OCR工具:开源GPT OCR工具,支持PDF、DOCX转换为Markdown。可并发处理,选择特定页面及模型选项。详细介绍🔗[https://xiaohu.ai/p/14778](https://xiaohu.ai/p/14778)🔗[https://getomni.ai/ocr-demo](https://getomni.ai/ocr-demo)2⃣️📈BrightEdge数据揭示:OpenAI的SearchGPT以150%增长速度成竞争对手。YouTube内容引用增长310%,促进品牌搜索表现。🔗[https://x.com/imxiaohu/status/1847491108642963573](https://x.com/imxiaohu/status/1847491108642963573)3⃣️🗣️ChatGPT高级语音模式:即将上线,但应用场景有限,API成本降低将拓展用途。🔗[https://x.com/imxiaohu/status/1847575551424548931](https://x.com/imxiaohu/status/1847575551424548931)4⃣️🎥Viggle视频生成:文字描述生成动态视频,基于JST-1模型理解物理运动。可控制角色动作和场景,创建3D角色和场景。🔗[http://viggle.ai](http://viggle.ai)🔗[https://discord.gg/5kk5SKwTWd](https://discord.gg/5kk5SKwTWd)🔗[https://x.com/imxiaohu/status/1771173928591093940](https://x.com/imxiaohu/status/1771173928591093940)

Others are asking
我现在需要根据一系列的 yaml 和 markdown 构建一个知识库,并且需要支持 AI 问答,每次 AI 问答的结果都要保存成一个新的内容放到知识库中,请问从经济效益来看,有哪些服务可以使用?
目前从经济效益的角度来看,以下一些服务可能有助于您构建这样的知识库并支持 AI 问答以及结果保存: 1. 云服务提供商,如阿里云、腾讯云、AWS 等,它们提供可扩展的计算和存储资源,您可以根据实际需求灵活配置,避免过度投入硬件成本。 2. 开源的知识管理和问答系统框架,例如使用 Elasticsearch 结合相关插件来实现问答功能,成本相对较低,但可能需要一定的技术投入进行搭建和维护。 3. 一些专门针对知识管理和 AI 应用的 SaaS 服务,它们通常按使用量计费,初期投入较小,适合小规模应用。 需要注意的是,具体选择哪种服务取决于您的业务规模、技术能力、预算以及对性能和功能的要求。
2025-02-01
怎么在coze的智能体总加入一个使用MARKDOWN编写的代码的prompt?
在 Coze 的智能体中加入使用 Markdown 编写的代码的 prompt 可以参考以下方法: 首先,了解相关的任务和目标,比如像实现输入任意文章链接后,AI 自动生成适合微信分享的文章推荐卡片。为达到这一效果,大模型对话产品通常需要完成网页爬取、内容总结、二维码生成、卡片样式生成等关键步骤。 在编写 prompt 时,可以发现新的词生卡 Prompt 组织方法,把设计要求拆分为“设计规范”和“内容结构”,再细分为“布局与尺寸”“字体规范”“颜色规范”的独立模块,并结合“内容结构”进行要求提示。这种提示词组织方式具有模型通用性、提示简易性和生成稳定性等显著优势。 对于刚入门的朋友,首推 LangGPT 结构化提示词,直观易懂,可以快速上手。对于想要进阶的用户,一方面可以继续选择 LangGPT,另一方面如有额外精力和好奇心,不妨尝试刚哥推崇的 Lisp 伪代码格式,有助于精炼提示词和提升对措辞理解、概念认知的能力。但需要注意的是,真正重要的不是提示词的外在形式,而是内容是否与 AI 的“理解机制”相契合。同时,在实际应用中,还需要经过多次调试,并根据测试 bug 微调提示词,直至稳定运行。
2025-01-19
请将以下提示词改写为markdown格式:“请为我生成一个五子棋游戏的代码,其中,棋盘的大小是10*10”
以下是为您改写的 Markdown 格式的提示词: ``` 请为我生成一个五子棋游戏的代码,其中,棋盘的大小是 1010 ```
2024-12-06
写一个写俄罗斯方块的提示词(用markdown的形式)
以下是一个用 Markdown 形式写俄罗斯方块的提示词示例: 俄罗斯方块游戏提示词 游戏目标: 玩家需要通过操作方块的下落和旋转,使方块填满一行或多行,消除得分,尽可能地获得高分。 操作说明: 方向键:控制方块的左右移动。 上方向键:控制方块的旋转。 下方向键:加速方块下落。 方块类型: I 型方块 J 型方块 L 型方块 O 型方块 S 型方块 T 型方块 Z 型方块 得分规则: 消除一行得 10 分。 连续消除多行得分翻倍。 游戏结束条件: 方块堆积到顶部,无法再放置新的方块。 希望以上提示词对您有所帮助,您可以根据实际需求进行修改和完善。
2024-12-06
markdown模式写提示词
以下是关于用 Markdown 模式写提示词的相关内容: 平时写提示词用的更多的是 Markdown 语法,它简单且大语言模型能很好“理解”标题、列表、加粗强调等语法。 例如专业书评人的提示词,要求以 Markdown 格式展示,每个要点单独一行,包括书名、ISBN、作者、出版社等。 用 Lisp 构建 prompt 让 Claude 输出情绪营销语句,也可用一直倡导的 Markdown 格式,效果一样。但 GPT 等模型在卡片生成这步需要调整,不稳定,最好自定义 html/css 样式进行强约束。 极简版输出(GPT o1 系列,需一步步思考推理)。 可直接打开 Claude 首页发送提示词进行初始化后使用。
2024-12-01
AI应用于信息展示除了以下这段还能写啥?人工智能对演示文稿、网页、微信公众号和Markdown工具都有影响,正重塑信息展示领域。例如,AI可以简化演示文稿设计布局的调整;通过AI能分析用户行为,优化网页内容和结构;在微信公众号利用AI实现个性化推送和智能回复,提升响应和互动质量。Markdown也可利用AI实现智能化编辑和检查。
以下是 AI 应用于信息展示的其他方面: 1. GPT4VAct 作为多模态 AI 助手,能够模拟人类通过鼠标和键盘进行网页浏览,基于 AI 的能力、项目目标人群和服务内容类型,可实现未来互联网项目产品原型设计的自动化生成,使效果更符合用户使用习惯,同时优化广告位的出现位置、时机和频率。 2. 在电影制作方面,可综合应用 AI 工具,如使用 ChatGPT 撰写脚本、分镜、人物设定和旁白,使用 Midjourney 生成静态分镜图片,使用 Runway 生成动态分镜片段,使用 AI 配音软件制作旁白。 3. 在写作方面,AI 可用于草拟各类初稿,如博客文章、论文、宣传材料、演讲、讲座等。还能帮助改进已有的文本,以不同风格创建草稿,激发作者创作出更好的作品,以及协助完成如写邮件、创建销售模板、提供商业计划下一步等任务。
2024-08-15
文本打标工具
以下是关于文本打标工具的相关信息: OpenAI API 可应用于多种自然语言、代码或图像任务,提供不同能力级别的模型,可微调自定义模型,适用于内容生成、语义搜索和分类等领域。模型通过将文本分解为标记(Token)来理解和处理,Token 可以是单词或字符块,在给定的 API 请求中处理的 Token 数量取决于输入和输出长度,可查看分词器工具了解更多。 对于某些文本打标任务,如根据问题的主要主题为文本打标签,有相应的指示和选项,如根据问题围绕的对象选择不同的标签类别。 在语音合成中,标注是常见问题,一般利用文本前端产生基线的音素序列和音素时长,再由人类参与检查,包括音素层级、单词层级、句子层级等方面,标注人员可采用 Praat 进行可视化标注和检查,不同场景的标注可能有细微变化。
2025-02-18
文本检查提示词
以下是关于文本检查提示词的相关内容: 在输入侧的防御方面,传统防御手段可用,结合大模型特性可进行意图识别、语义匹配、提示词语义结构分析等,综合判断用户输入是否恶意。 模型侧的防御,对于有能力的厂商应增强安全性,如对抗训练、安全微调、多任务学习、上下文动态感知等,但要平衡安全性与性能。对于开发者,应在开发中带着安全意识优化应用和系统的提示词,加入安全引导和禁止内容。 输出侧的防御,传统防御和内容过滤手段均可使用,基于大模型特点可进行提示词、私有数据泄露等检查,以及针对大模型幻觉问题,判断是否有事实性错误、脱离话题、乱码文本、不正确格式、错误代码等。 此外,如Claude2可用于多种类型文本的分析,包括评估文本相似度和回答有关文本的问题。 OpenAI API中,设计提示词本质是对模型进行“编程”,通过提供指令或示例完成,其模型通过将文本分解为标记(Token)来理解和处理文本,处理的Token数量取决于输入和输出长度,有一定的限制。
2025-02-18
有免费好用的文本转语音工具吗
以下是一些免费好用的文本转语音工具: 1. Eleven Labs:https://elevenlabs.io/ 这是一款功能强大且多功能的 AI 语音软件,能生成逼真、高品质的音频,可高保真地呈现人类语调和语调变化,并能根据上下文调整表达方式。 2. Speechify:https://speechify.com/ 这是一款人工智能驱动的文本转语音工具,可将文本转换为音频文件,能作为 Chrome 扩展、Mac 应用程序、iOS 和 Android 应用程序使用,适用于收听网页、文档、PDF 和有声读物。 3. Azure AI Speech Studio:https://speech.microsoft.com/portal 这是一套服务,赋予应用程序“听懂、理解并与客户进行对话”的能力,提供了支持 100 多种语言和方言的语音转文本和文本转语音功能,还提供了自定义的语音模型。 4. Voicemaker:https://voicemaker.in/ 这一 AI 工具可将文本转换为各种区域语言的语音,并允许创建自定义语音模型,易于使用,适合为视频制作画外音或帮助视障人士。 此外,还有日语文本转语音软件 VOICEVOX,它提供多种语音角色,适用于不同场景,可调整语音的语调、速度、音高,开源且可商用。链接: 内容由 AI 大模型生成,请仔细甄别。
2025-02-12
我现在通过ai文本输出这一幅画的描述,那我通过什么软件或者是网站能让它形成一幅图,那最关键的是我形成的这幅图可以在ai或者是ps这种绘图软件上直接进行每一个元素的编辑。怎样我才能最快的做出来。
以下是一些可以根据您的 AI 文本描述生成图片,并能在 AI 或 PS 等绘图软件上直接编辑每个元素的软件和网站: 1. Stable Diffusion 模型:可以根据您输入的文本指令生成图片,生成的图片样式取决于您输入的提示词。 2. Anifusion:这是一款基于人工智能的在线工具,您只需输入文本描述,其 AI 就能将其转化为完整的漫画页面或动漫图像。具有以下功能和特点: AI 文本生成漫画:根据输入的描述性提示生成漫画。 直观的布局工具:提供预设模板,也支持自定义漫画布局。 强大的画布编辑器:可在浏览器中直接优化和完善生成的艺术作品。 多种 AI 模型支持:高级用户可访问多种 LoRA 模型实现不同艺术风格和效果。 商业使用权:用户对创作的作品拥有完整商业使用权。 在进行 AI 作图时,还需注意以下创作要点: 1. 注重趣味性与美感的结合,趣味性可通过反差、反逻辑、超现实方式带来视觉冲击,美感要在美术基础不出错的前提下实现形式与内容的结合。 2. 像纹身图创作要强调人机交互,对输出图片根据想象进行二次和多次微调,确定情绪、风格等锚点再发散联想。 3. 编写提示词时要用自然语言详细描述画面内容,避免废话词,例如 Flux 对提示词的理解和可控性较强。
2025-02-11
长文本理解能里较强的AI
以下是一些长文本理解能力较强的 AI 模型: 1. 智谱·AI 的 ChatGLM26B32k:这是第二代 ChatGLM 长上下文对话模型,在 ChatGLM26B 的基础上进一步强化了对于长文本的理解能力,能够更好地处理最多 32K 长度的上下文。在实际使用中,如果上下文长度基本在 8K 以内,推荐使用 ChatGLM26B;如果需要处理超过 8K 的上下文长度,推荐使用 ChatGLM26B32K。此外,还有 ChatGLM26B32kint4 版本,它是 ChatGLM26B32K 的 int4 版本。 2. 通义千问的 Qwen2.51M:推出 7B、14B 两个尺寸,在处理长文本任务中稳定超越 GPT4omini,同时开源推理框架,在处理百万级别长文本输入时可实现近 7 倍的提速。首次将开源 Qwen 模型的上下文扩展到 1M 长度。在上下文长度为 100 万 Tokens 的大海捞针任务中,Qwen2.51M 能够准确地从 1M 长度的文档中检索出隐藏信息。其开源平台包括 Huggingface(https://huggingface.co/spaces/Qwen/Qwen2.51MDemo)和 Modelscope(https://www.modelscope.cn/studios/Qwen/Qwen2.51MDemo)。
2025-02-09
文本整理
以下是关于文本整理的相关内容: 总结类应用: 大型语言模型在概括文本方面的应用令人兴奋,可在 Chat GPT 网络界面中完成,也可通过代码实现。包括对产品评论的摘要任务,还介绍了文字总结的不同类型,如 4.1 文字总结、4.2 针对某种信息总结、4.3 尝试“提取”而不是“总结”、4.4 针对多项信息总结。 创建并使用知识库: 创建知识库并上传文本内容的上传方式及操作步骤: Notion:在文本格式页签下选择 Notion,依次进行授权、登录选择页面、选择数据、设置内容分段方式(自动分段与清洗或自定义)等操作,最后完成内容上传和分片。 自定义:在文本格式页签下选择自定义,输入单元名称,创建分段并输入内容,设置分段规则,最后保存。 本地文档:在文本格式页签下选择本地文档,拖拽或选择要上传的文档(支持.txt、.pdf、.docx 格式,每个文件不大于 20M,一次最多上传 10 个文件),选择内容分段方式(自动分段与清洗或自定义),完成上传和分片。
2025-02-07
有哪些好用的ai可视化工具
以下是一些好用的 AI 可视化工具: 1. Lucidchart:流行的在线绘图工具,支持多种图表创建,包括逻辑视图、功能视图和部署视图,用户可通过拖放界面轻松创建架构图。 2. Visual Paradigm:全面的 UML 工具,提供创建各种架构视图的功能,如逻辑视图(类图、组件图)、功能视图(用例图)和部署视图(部署图)。 3. ArchiMate:开源的建模语言,专门用于企业架构,支持逻辑视图的创建,可与 Archi 工具配合使用,该工具提供图形化界面创建模型。 4. Enterprise Architect:强大的建模、设计和生成代码的工具,支持创建多种架构视图,包括逻辑、功能和部署视图。 5. Microsoft Visio:广泛使用的图表和矢量图形应用程序,提供丰富模板用于创建逻辑视图、功能视图和部署视图等。 6. draw.io(现称为 diagrams.net):免费的在线图表软件,允许创建各种类型的图表,包括软件架构图,支持创建逻辑视图和部署视图等。 7. PlantUML:文本到 UML 的转换工具,通过编写描述性文本自动生成序列图、用例图、类图等,帮助创建逻辑视图。 8. Gliffy:基于云的绘图工具,提供创建各种架构图的功能,包括逻辑视图和部署视图。 9. Archi:免费的开源工具,用于创建 ArchiMate 和 TOGAF 模型,支持逻辑视图的创建。 10. Rational Rose:IBM 的 UML 工具,支持创建多种视图,包括逻辑视图和部署视图。 此外,Google DeepMind 发布了一套可视化工具,可用于了解语言模型的内部工作原理,提取有意义的特征,揭示语言模型内部的激活状态。详细原理解释:https://xiaohu.ai/p/12186 链接:https://x.com/imxiaohu/status/1818825233778061560 。
2025-02-22
我是一位德语老师,我想用ai帮我备课生成教案,可以用什么工具
以下为您推荐一款可用于生成教案的工具——COZE 应用: 1. 访问地址:https://www.coze.cn/s/iDsBwYLF/ 2. 首页说明:启动页面有相关说明。 3. 生成教案:进入设计教案页面,等待执行完成后即可看到教案,教案是以下三个功能的基础,所有功能都以教案为中心。 4. 趣味课堂:进入趣味课堂,可根据课文内容设计课堂问答卡和针对性的教学活动,采用寓教于乐的方式激发孩子学习兴趣,比如通过 5 个问题贯穿全文与故事主线,还有课堂互动游戏。 5. 课后作业:基于教学大纲和课本重点内容设计题目,包括生字词运用、阅读理解、写作。 6. 教案 PPT:PPT 内容基于前面生成的教学大纲,您需要手动进行少许内容修正。如果对大纲内容不满意,可以重新生成大纲和 PPT。首先复制大纲内容,打开 kimi,选择 PPT;然后复制教案,在对话框粘贴,KIMI 会帮您优化大纲。点击进去后,选择喜欢的模版生成。但友情提醒,下载需要充值。
2025-02-22
语音处理 视频处理工具
以下是一些语音处理和视频处理工具的相关信息: Notebook LM: 文字文档处理:可导入人工智能相关的 PDF 格式论文,左侧栏快速加载,提供常见问题解答、学习指南、目录、时间轴、简报文档等功能,对不相关问题会拒绝回复。 视频处理:可复制 YouTube 视频网址链接进行处理,操作与文字文档类似,但文本输出格式存在问题。 音频播客处理:可自定义或使用默认设置生成音频播客,能控制时长范围,最长约 15 分钟,最短 1 2 分钟,生成内容自然。 老金:Voice 语音识别与发送语音 音频处理工具 ffmpeg:点击地址进行安装 讯飞 API key 申请:讯飞免费一年,量很大,足够用。在讯飞上申请一个 API Key,网址为:https://www.xfyun.cn/services/rtasr 。进入控制台创建应用,获取 3 个要用到的 Key。 配置 Cow:打开根目录的 config.json 进行总开关配置,按需配置,开启是 true,关闭是 false。因发送语音不能是语音条,所以只开了语音识别。配置讯飞的 key,进入/chatgptonwechat/voice/xunfei 下的 config.json,把对应的 key 配置进来即可。配置完成,重新扫码登录。 MMVid:一个集成的视频理解系统,能处理和理解长视频内容并进行问答。应用场景包括快速的视频剪辑、快速的图生视频、快速诊断等。由 Microsoft Azure AI 开发,结合了 GPT4V 的能力和其他视觉、音频和语音处理工具,能处理和理解长视频和复杂任务。能够自动识别和解释视频中的元素,如人物行为、情感表达、场景变化和对话内容,从而实现对视频故事线的理解。其核心功能是将视频中的多模态信息(如视觉图像、音频信号和语言对话)转录成详细的文本脚本,这样大语言模型就能够理解视频内容。
2025-02-22
如何权构建个人AI知识库,请提供详尽的方案,并提供相关工具应用案例。
以下是构建个人 AI 知识库的详尽方案及相关工具应用案例: 方案: 1. 知识收集:学习如何有效地收集、整理和检索信息,例如分新闻、观点、访谈、论文翻译来进行提炼。 2. 知识管理:通过实际操作,体验工具在知识管理方面的应用。 3. 数据处理:使用工具对数据进行转换、提取和呈现,如从图像和图形中提取数据。 4. 内容总结:总结视频内容、翻译和改换风格等。 工具应用案例: 1. 知识收集与整理: 通义听悟整理录音笔记:https://tingwu.aliyun.com 用 React 实现选中即解释 本机跑大语言模型工具:https://ollama.com 选词翻译、解读、拓展:https://snapbox.app 与各种 AI 机器人聊天:https://opencat.app 、https://chathub.gg/ 、https://www.elmo.chat/ 定义提示语,根据不同类型提取有用信息:https://memo.ac/zh/ 2. 数据获取与处理: 下载视频:Mac 用 Downie,Windows 推荐 IDM 淘宝数码荔枝店购买 开源免费屏幕录制工具 OBS:https://obsproject.com/ 用 losslessCut 快速切块 3. 构建知识库: 将文本转换成向量(如使用 embeddings API),先把大文本拆分成若干小文本块(chunk),将小文本块转换成 embeddings 向量并在向量储存库中保存,当用户提问时,通过比对向量提取关联度最高的文本块与问题组合成新的 prompt 发送给 GPT API。 例如对于一篇包含多个文本块的文章,如“文本块 1:本文作者:越山。xxxx。”“文本块 2:公众号越山集的介绍:传播效率方法,分享 AI 应用,陪伴彼此在成长路上,共同前行。”等,当提问“此文作者是谁?”时,可通过比较 embeddings 向量找出关联度最高的文本块。 4. 工具入门: 提示词:现成好用的 Prompt: AI Agent:Agent 工具 小白的 Coze 之旅: AI Pic:现在主流的 AI 绘图工具网站:
2025-02-22
表情包生成网站或工具
以下为您推荐一些表情包生成的网站或工具及相关使用方法: 1. 即梦(https://jimeng.jianying.com/):可以生成类似的猫咪表情包,您可以输入相关提示词,生成图片后用 PPT 加文字制作成可发布的表情包。 具体过程:如生成“我觉得我又行了”的相关猫咪表情包。 2. 可灵 AI 1.6 图生视频工具:用于让生成的场景动起来。 提示词示例:可爱的拟人小鹿拿着红包对你说谢谢老板,非常开心忍不住跳舞,背后下着红包雨。 此外,在生成统一角色的插画海报时,也可以参考以下步骤: 1. 生成基础的第一套图形:写明确的关键词,如“Flat illustration design,a man,black hair,half body,face front,front view,sitting at the table,working,using computer or holding mobile phone,yellow and white clothes,blue solid color background,emoticon pack 6 emoji tables,red and white clothes,multiple poses and expressions,anthropomorphic style,different emotions,multiple poses and expressions,8kar 3:4niji 5style expressives 180”,多生成几套并挑选满意的。 2. 局部重绘不满意的区域:从得到的结果里挑选合适的放大,用 PS 抠出来。
2025-02-22
我想把人物老照片转彩色并生成视频动起来,用什么工具
以下是一些可以将人物老照片转彩色并生成视频动起来的工具和方法: 1. 对于给老照片上色,可以使用 Stable Diffusion 及其相关插件,如 MutiDiffusion 插件。在显存不够的情况下,可利用分块渲染功能放大图片。还可以加入第二个 controlnet 来控制颜色,使用 t2ia_color 的模型,通过简单的关键词如“蓝天、绿树、灰石砖”来匹配色调。同时,将照片放入后期处理,使用 GFPGAN 算法将人脸变清晰。 2. 对于生成视频让图片动起来,可以使用即梦进行图生视频。只需上传图片至视频生成模块,用简单提示词描绘画面中的动态内容,能生成时长为 3 秒钟的画面,运镜类型可根据剧本中的镜头描绘设置,以随机运镜为主,生成速度可选择慢速。
2025-02-22