Navigate to WaytoAGI Wiki →

Home/Question List/Question Detail

有图片文字翻译输出图片的应用吗？

Answer

目前市面上有一些能够实现图片文字翻译并输出图片的应用。例如，百度翻译、腾讯翻译君等，它们在一定程度上具备这样的功能。但具体的效果可能会因图片的清晰度、文字的复杂程度等因素而有所不同。

Content generated by AI large model, please carefully verify (powered by aily)

Others are asking

可以增强图片清晰的的ai

以下是一些可以增强图片清晰度的 AI 工具： 1. Magnific：https://magnific.ai/ 2. ClipDrop：https://clipdrop.co/imageupscaler 3. Image Upscaler：https://imageupscaler.com/ 4. Krea：https://www.krea.ai/ 更多工具可以查看网站的图像放大工具库：https://www.waytoagi.com/category/17 此外，PMRF 也是一种全新的图像修复算法，它具有以下特点：擅长处理去噪、超分辨率、着色、盲图像恢复等任务，生成自然逼真的图像。不仅提高图片清晰度，还确保图片看起来像真实世界中的图像。能够应对复杂图像退化问题，修复细节丰富的面部图像或多重损坏的图片，效果优质。详细介绍：在线体验：项目地址：这些 AI 画质增强工具都具有不同的特点和功能，可以根据您的具体需求选择合适的工具进行使用。

图片提取文字

以下是关于图片提取文字的相关信息：大模型招投标文件关键数据提取方案：输入模块设计用于处理各种格式的文档输入，包括 PDF、Word、Excel、网页等，转换成可解析的结构化文本。多种文件格式支持，对于图片，可以借助 OCR 工具进行文本提取，如开放平台工具：。网页可以使用网页爬虫工具抓取网页中的文本和表格数据。谷歌 Gemini 多模态提示词培训课：多模态技术可以从图像中提取文本，使从表情包或文档扫描中提取文本成为可能。还能理解图像或视频中发生的事情，识别物体、场景，甚至情绪。 0 基础手搓 AI 拍立得：实现工作流包括上传输入图片、理解图片信息并提取图片中的文本内容信息、场景提示词优化/图像风格化处理、返回文本/图像结果。零代码版本选择 Coze 平台，主要步骤包括上传图片将本地图片转换为在线 OSS 存储的 URL 以便调用，以及插件封装将图片理解大模型和图片 OCR 封装为工作流插件。

图片变清晰

以下是关于图片变清晰的相关内容：使用清影大模型：输入一张图片和相应提示词，清影大模型可将图片转变为视频画面，也可只输入图片让模型自行发挥想象生成有故事的视频。选用尽可能清晰的图片，上传图片比例最好为 3:2（横版），支持上传 png 和 jpeg 图像。如果原图不够清晰，可采用分辨率提升工具将其变清晰。提示词要简单清晰，可选择不写 prompt 让模型自行操控图片动起来，也可明确想动起来的主体，并以“主体+主题运动+背景+背景运动”的方式撰写提示词。常见的 AI 画质增强工具： Magnific：https://magnific.ai/ ClipDrop：https://clipdrop.co/imageupscaler Image Upscaler：https://imageupscaler.com/ Krea：https://www.krea.ai/ 更多工具可查看网站的图像放大工具库：https://www.waytoagi.com/category/17 用 AI 给老照片上色并变清晰：将照片放入后期处理，使用 GFPGAN 算法将人脸变清晰。然后将图片发送到图生图中，打开 stableSR 脚本，放大两倍。切换到 sd2.1 的模型进行修复，vae 选择 vqgan，提示词可不写以免对原图产生干扰。

怎么让图片动起来

要让图片动起来，可以参考以下几种方法： 1. 使用即梦进行图生视频：只需上传图片至视频生成模块，提示词简单描绘画面中的动态内容即可生成时长为 3 秒钟的画面。运镜类型可根据剧本中的镜头描绘设置，主要设置以随机运镜为主。生成速度根据视频节奏选择，比如选择慢速。 2. 使用 Camera Motion：上传图片：点击“Add Image”上传图片。输入提示词：在“Prompt”中输入提示词。设置运镜方向：选择想要的运镜方向，输入运镜值。设置运动幅度：运动幅度和画面主体运动幅度有关，与运镜大小无关，可以设置成想要的任意值。其它：选择好种子（seed），是否高清（HD Quality），是否去除水印（Remove Watermark）。生成视频：点击“create”，生成视频。 3. 对于复杂的图片，比如多人多活动的图：图片分模块：把长图分多个模块。抠出背景图：智能抠图，用工具把要动的内容去除掉，用 AI 生成图片部分。绿幕处理前景图：将要拿来动起来的部分抠出，放在绿幕背景里或者画的背景颜色，导出图片。前景图动态生成视频：用 AI 视频生成工具写入提示词让图片动起来，比如即梦、海螺、混元等。不停尝试抽卡。生成视频去掉背景：用剪映把抽卡合格的视频放在去掉内容的背景图片，视频的背景用色度抠图调整去掉。多个视频放在背景图片，一起动即可。

图片文字转文档

图片文字转文档可以通过以下方式实现： coze 插件中的 OCR 插件：插件名称：OCR 插件分类：实用工具 API 参数：Image2text，图片的 url 地址必填用途：包括文档数字化、数据录入、图像检索、自动翻译、文字提取、自动化流程、历史文献数字化等。例如将纸质文档转换为可编辑的电子文档，自动识别表单、票据等中的信息，通过识别图像中的文字进行搜索和分类，识别文字后进行翻译，从图像中提取有用的文字信息，集成到其他系统中实现自动化处理，保护和传承文化遗产。插件的使用技巧：暂未提及。调用指令：暂未提及。 PailidoAI 拍立得（开源代码）：逻辑：用户上传图片后，大模型根据所选场景生成相关的文字描述或解说文本。核心：包括图片内容识别，大模型需要准确识别图片中的物体、场景、文字等信息；高质量文本生成，根据图片生成的文字不仅需要准确，还需符合专业领域的要求，保证文字的逻辑性、清晰性与可读性。场景应用：产品文档生成（电商/零售）：企业可以利用该功能将商品的图片（如电器、服饰、化妆品等）上传到系统后，自动生成商品的详细描述、规格和卖点总结，提高电商平台和零售商的商品上架效率，减少人工编写文案的工作量。社交媒体内容生成（品牌营销）：企业可使用图片转文本功能，帮助生成社交媒体平台的营销文案。通过上传产品展示图片或品牌活动图片，模型可自动生成具有吸引力的宣传文案，直接用于社交媒体发布，提高营销效率。法律文件自动生成（法律行业）：法律行业可以使用图片转文本技术，自动提取合同、证据材料等图片中的文本信息，生成法律文件摘要，辅助律师快速进行案件分析。

如何去除图片中的文字内容

以下是去除图片中文字内容的方法： 1. 图像预处理：图像去噪：使用去噪算法（如高斯滤波、中值滤波）去除图像中的噪声。图像增强：通过增强算法（如直方图均衡化、对比度增强）提升图像的清晰度和对比度。 2. 图像分割：使用图像分割算法将图片中的文字和背景分离。常用的分割算法包括阈值分割、边缘检测和基于区域的分割方法。 3. 文字检测：在分割后的图像中，使用文字检测算法（如基于深度学习的文本检测模型）识别出文字区域。 4. 文字识别：对检测到的文字区域进行文字识别，将文字内容转换为计算机可处理的文本数据。常用的文字识别技术包括基于深度学习的端到端文本识别模型和传统的 OCR（Optical Character Recognition）技术。 5. 后处理：根据需求进行后处理，如去除残余的噪点、填补文字区域的空白等。 6. 机器学习模型训练（可选）：如有足够的数据，可以采用机器学习技术训练模型，通过学习样本中的文字特征来自动去除图片上的文字。 7. 优化算法：对整个处理流程进行优化，提高处理速度和准确度。可以采用并行计算、硬件加速等方法提升算法的效率。 8. 移动端集成：将设计好的算法和模型集成到移动应用程序中，以实现去除图片文字的功能。可以使用移动端开发框架（如 iOS 的 Core ML、Android 的 TensorFlow Lite）来实现模型的部署和调用。此外，像 Gemini 2.0 Flash 等工具也可以通过自然语言指令来去除图片中的文字，指令如“去掉 XXX”。DALL·E 也能实现去掉图片中的错误文字等操作。

图像翻译具有以下特点和功能：多语言支持：涵盖 18 种语言，包括中文、英文、法语、日语、韩语和西班牙语。保护图像主体：可选择不翻译品牌名称或重要信息，避免影响关键内容。高分辨率处理：支持高达 4000×4000 像素的图像，确保翻译后画质清晰。原始排版恢复：保留原字体、大小及对齐方式，确保设计一致性。多行文本合并：将多行文本合并为段落翻译，避免逐行翻译造成误解。清除文本痕迹：翻译后干净移除原文本，并恢复图像空白区域。

自动翻译英文文档

以下是关于您提出的“自动翻译英文文档”的相关内容：一个基于 Python 的网页截图工具具有自动翻译英文内容为中文的功能。在 Cursor 编辑器中，可直接在 Cursor Chat 里提出将中文版博客翻译成英文的要求，它会给出英文版本的文章，还能自动对比中英文文档并高亮差别，方便对英文进行直观修改，最终完成翻译。

找一下翻译插件

以下为您介绍一些翻译插件和方法： 1. 提示词翻译副本 Alekpet：插件地址：安装后重启 ComfyUI 即可。将 CLIP 文本编码器转换为输入，连接翻译文本节点即可使用。链接：https://github.com/kingzcheung/ComfyUI_kkTranslator_nodes 2. 提示词翻译副本 Prompt_Translate_to_English：用的百度翻译 API 方法如下：下载节点压缩包，并将它放在 custom_nodes 文件夹。去百度翻译 Api 和登记册开发人员的帐户中得到您的 appid 和 secretKey。百度翻译平台地址：https://fanyiapi.baidu.com/manage/developer 。打开文件 config.py 在记事本/其他编辑，填您的 secretKey 在引号的 secretKey =""，保存文件重启 Comfy 即可。 3. 翻译一份英文 PDF 完整地翻译成中文的方法： DeepL（网站）：点击页面「翻译文件」按钮，上传 PDF、Word 或 PowerPoint 文件即可。沉浸式翻译（浏览器插件）：安装插件后，点击插件底部「更多」按钮，选择「制作双语 BPUB 电子书」、「翻译本地 PDF 文件」、「翻译 THML/TXT 文件」、「翻译本地字幕文件」。 calibre（电子书管理应用）：下载并安装 calibre，并安装翻译插件「Ebook Translator」。谷歌翻译（网页）：使用工具把 PDF 转成 Word，再点击谷歌翻译「Document」按钮，上传 Word 文档。百度翻译（网页）：点击导航栏「文件翻译」，上传 PDF、Word、Excel、PPT、TXT 等格式的文件，支持选择领域和导出格式（不过进阶功能基本都需要付费了）。彩云小译（App）：下载后点击「文档翻译」，可以直接导入 PDF、PDF、Word、Excel、PPT、TXT、epub、srt 等格式的文档并开始翻译（不过有免费次数限制且进阶功能需要付费）。微信读书（App）：下载 App 后将 PDF 文档添加到书架，打开并点击页面上方「切换成电子书」，轻触屏幕唤出翻译按钮。浏览器自带的翻译功能：如果一些 PDF 太大，翻译工具不支持，除了将 PDF 压缩或者切分外，还可以转成 HTML 格式，然后使用浏览器自带的网页翻译功能。

实时翻译视频语音

以下是为您整理的相关信息：实时翻译视频语音的工具： StreamSpeech：这是一个实时语言翻译模型，能够实现流媒体语音输入的实时翻译，输出目标语音和文本，具有同步翻译、低延迟的特点，还能展示实时语音识别结果。给视频配音效的 AI 工具：支持 50 多种语言的配音，音质自然流畅，提供实时配音功能，适用于直播和演讲，能将语音转录为文本，方便后期字幕制作和编辑。 Vidnoz AI：支持 23 多种语言的配音，音质高保真，支持文本转语音和语音克隆功能，提供语音参数自定义和背景音乐添加工具，提供面向个人和企业的经济实惠的定价方案。在选择视频配音工具时，请考虑支持的语言数量、语音质量、自定义选项和价格等因素。

以下是一些将英文 PDF 完整翻译成中文的方法和相关的 AI 产品： 1. DeepL（网站）：点击页面「翻译文件」按钮，上传 PDF、Word 或 PowerPoint 文件即可。 2. 沉浸式翻译（浏览器插件）：安装插件后，点击插件底部「更多」按钮，选择「制作双语 BPUB 电子书」、「翻译本地 PDF 文件」、「翻译 THML/TXT 文件」、「翻译本地字幕文件」。 3. Calibre（电子书管理应用）：下载并安装 Calibre，并安装翻译插件「Ebook Translator」。 4. 谷歌翻译（网页）：使用工具把 PDF 转成 Word，再点击谷歌翻译「Document」按钮，上传 Word 文档。 5. 百度翻译（网页）：点击导航栏「文件翻译」，上传 PDF、Word、Excel、PPT、TXT 等格式的文件，支持选择领域和导出格式（不过进阶功能基本都需要付费了）。 6. 彩云小译（App）：下载后点击「文档翻译」，可以直接导入 PDF、DOC、DOCX、PPT、PPTX、TXT、epub、srt 等格式的文档并开始翻译（不过有免费次数限制且进阶功能需要付费）。 7. 微信读书（App）：下载 App 后将 PDF 文档添加到书架，打开并点击页面上方「切换成电子书」，轻触屏幕唤出翻译按钮。 8. 浏览器自带的翻译功能：如果一些 PDF 太大，翻译工具不支持，除了将 PDF 压缩或者切分外，还可以转成 HTML 格式，然后使用浏览器自带的网页翻译功能。此外，在文档翻译工程侧还有以下方案架构和效果提升小技巧：方案架构：文件解析：从用户上传的 PDF 等格式的文档中解析出文字，智谱开放平台提供了限时免费的文件解析服务 API。预处理：提取出的文本可能会包含一些不必要的空格、特殊字符或者格式信息，需要对这些文本进行预处理，清除格式，标准化空格，以便于进行翻译。片段切分：当页面内容较长时，可以通过切分片段，并通过高并发请求大模型来减少整体耗时。模型调用：将预处理后的文本拼到 Prompt 模板中请求智谱模型 API。结果整合：翻译完成后，将翻译后的译文按照期望的样式展示在用户交互界面中。效果提升小技巧：自定义专业术语：同一词语在不同行业、场景的含义不同，推荐以 KV 对的形式进行专有名词的翻译。未来，随着大模型的不断迭代，GLM 等大语言模型将成为多语言翻译的主流核心底层技术，为全球用户带来更加精准、流畅的翻译体验。

ten可以安装在电脑里，然后电脑上可以看视频进行实时翻译吗？这个功能可以怎么去实现？

目前 Ten 不太明确是指何种具体的软件或工具。一般来说，如果您想在电脑上实现观看视频实时翻译的功能，可以考虑使用以下几种常见的方法： 1. 利用浏览器插件：例如谷歌浏览器的某些翻译插件，能够在您观看在线视频时提供翻译服务。 2. 专业的翻译软件：部分专业的翻译软件具备屏幕取词和实时翻译视频的功能。 3. 操作系统自带的功能：某些操作系统可能提供了相关的辅助功能来实现类似的效果。但需要注意的是，不同的方法可能在翻译的准确性、支持的语言种类以及适用的视频平台等方面存在差异。

coze搭建工作流调用deepseek如何把模型的输出存入到多维表中

以下是将模型的输出存入到多维表中的步骤： 1. 逐步搭建 AI 智能体：搭建整理入库工作流。设置大模型节点提取稍后读元数据，使用 MiniMax 6.5s 245k，设置最大回复长度至 50000，以确保能完整解析长内容网页。进行日期转时间戳，后续的飞书多维表格插件节点在入库日期字段时只支持 13 位时间戳，需要使用「日期转时间戳time_stamp_13」插件进行格式转化。把稍后读元数据转换为飞书多维表格插件可用的格式，飞书多维表格插件目前（2024 年 08 月）只支持带有转义符的 string，以 Array<Object>格式输入，所以必须将之前得到的元数据数组进行格式转换。添加「飞书多维表格add_records」插件，只需要设置{{app_token}}与{{records}}参数，将元数据写入飞书表格。 2. 搭建 Coze 工作流：打开 Coze 的主页，登录后，在【工作空间】创建一个智能体。在编排页面，给智能体编辑好人设，可先写一个简单的，然后点右上角自动优化，系统会自动补全更精细的描述。点击工作流的+，创建一个工作流。大模型节点把 input 给到 DeepSeek，让 DeepSeek 按照提前规定的输出框架生成对应文案。生图节点将输出给到图像生成组件画图。结束输出时，两个输出给到最终的 end 作为最终的输出。注意在编写系统提示词时，如果需要 input 可被 DeepSeek 调用，需要用{{input}}作为参数引入，不然大模型不知道自己需要生成和这个 input 相关的结果。编排完，点击【试运行】，调试至满意后点击发布。

公共议题:AI如何助力HR业务? 研讨目标：深入理解:深入探讨 AI在人力资源管理领域的应用、薪酬管理、员工关系、公司文化、包括人才获取与配置、学习与发展、组织与人才培、HR共享与HRIS等各模块的可应用场景机会识别与场景落地:基于组织现状，识别出业务价值高、可落地的 A 应用场景; 研讨成果(输出物)：请输出10个业务价值高、具备可行性的AI应用场景介绍，并说明what(场景是什么)、why(为什么值得做)、How(如何落地);

以下是为您生成的 10 个业务价值高、具备可行性的 AI 应用场景介绍： 1. 人才招聘与筛选 What：利用 AI 技术对求职者的简历进行自动筛选和分析，评估其与岗位的匹配度。 Why：节省 HR 大量的时间和精力，提高招聘效率和准确性。 How：通过自然语言处理和机器学习算法，训练模型识别关键信息和技能。 2. 员工培训与发展 What：根据员工的技能水平和职业发展目标，定制个性化的培训计划。 Why：提升员工的能力和绩效，增强员工对企业的忠诚度。 How：利用大数据分析员工的工作表现和学习需求，推荐相关课程和学习资源。 3. 薪酬福利管理 What：运用 AI 预测市场薪酬趋势，为企业制定合理的薪酬策略。 Why：保持企业薪酬的竞争力，吸引和留住优秀人才。 How：收集和分析行业薪酬数据，结合企业的财务状况和战略目标进行优化。 4. 员工绩效评估 What：借助 AI 实时监测员工的工作表现，提供客观的绩效评估。 Why：减少人为偏差，确保评估的公正性和准确性。 How：利用工作流程数据和行为分析模型进行评估。 5. 员工关系管理 What：通过 AI 分析员工的情绪和满意度，及时发现问题并解决。 Why：营造良好的工作氛围，提高员工的工作积极性和创造力。 How：使用情感分析技术处理员工的反馈和交流信息。 6. 组织架构优化 What：利用 AI 分析企业的业务流程和人员配置，提供组织架构调整建议。 Why：提高企业的运营效率和灵活性，适应市场变化。 How：基于数据分析和模拟优化算法进行评估和推荐。 7. 人力资源规划 What：根据企业的战略目标和业务发展预测人力资源需求。 Why：提前做好人才储备和招聘计划，保障企业的正常运营。 How：运用数据分析和预测模型进行规划。 8. 企业文化传播 What：使用 AI 生成个性化的企业文化宣传内容，提高传播效果。 Why：增强员工对企业文化的认同感和归属感。 How：利用自然语言生成技术和个性化推荐算法。 9. 智能客服 What：在 HR 服务中引入 AI 客服，解答员工常见问题。 Why：快速响应员工需求，提高服务质量。 How：训练智能客服模型，涵盖常见的 HR 问题和解决方案。 10. 人才库管理 What：利用 AI 对人才库进行分类和更新，提高人才库的利用效率。 Why：方便快速找到合适的人才，降低招聘成本。 How：运用数据挖掘和分类算法进行管理。

公共议题:AI如何助力HR业务? 研讨目标：深入理解:深入探讨 AI在人力资源管理领域的应用、薪酬管理、员工关系、公司文化、包括人才获取与配置、学习与发展、组织与人才培、HR共享与HRIS等各模块的可应用场景机会识别与场景落地:基于组织现状，识别出业务价值高、可落地的 A 应用场景; 研讨成果(输出物)：请输出3-5个业务价值高、具备可行性的AI应用场景介绍，并说明what(场景是什么)、why(为什么值得做)、How(如何落地);

以下是为您提供的 3 个业务价值高、具备可行性的 AI 应用场景介绍：场景一：AI 在企业招聘中的应用 What：利用 AI 技术进行简历筛选、人才匹配和面试评估。 Why：能够快速处理大量简历，提高招聘效率和准确性，节省人力和时间成本，同时更精准地找到符合岗位需求的人才。 How：通过引入相关的 AI 招聘软件，与企业现有的招聘系统集成，对简历进行关键词提取和分析，利用机器学习算法进行人才匹配，并通过视频面试中的语音和表情分析辅助评估候选人。场景二：AI 助力个性化人力资源管理 What：根据员工的个人特点和工作表现，提供个性化的培训计划、职业发展建议和绩效评估。 Why：能够充分发挥员工的潜力，提高员工满意度和忠诚度，促进企业的长期发展。 How：收集员工的工作数据、学习记录和绩效表现等信息，运用 AI 算法进行分析和预测，为员工制定专属的发展方案，并通过移动应用或内部系统向员工推送相关建议和培训课程。场景三：AI 打造无人值守的 HR 平台 What：实现 HR 业务的自动化处理，如员工请假审批、薪酬计算和福利发放等。 Why：减少人工操作的错误和繁琐流程，提高 HR 工作的效率和准确性，使 HR 人员能够专注于更有价值的战略工作。 How：整合企业内部的各种 HR 系统和数据，利用 RPA 和 AI 技术实现流程的自动化，同时建立监控和预警机制，确保平台的稳定运行。

输入文本就可以输出视频的免费AI工具

以下是一些输入文本就可以输出视频的免费 AI 工具： 1. Stuart：实践中采用了 GPTSoVITS 和 BertVITS2 两个开源模型，项目免费且好用。可直接找到需要的音色，输入文字，点击“合成语音”生成后就能下载。 GPTSoVITS 在线一键语音生成合集：https://www.modelscope.cn/studios/xzjosh/GPTSoVITS/summary BertVITS2 在线一键语音生成合集：https://www.modelscope.cn/studios/xzjosh/BertVITS2/summary 2. Pika：是一款出色的文本生成视频 AI 工具，擅长动画制作，并支持视频编辑。 3. SVD：如果熟悉 Stable Diffusion，可以安装这款最新的插件，在图片基础上直接生成视频。它是由 Stability AI 开源的 video model。更多的文生视频的网站可以查看：https://www.waytoagi.com/category/38 。请注意，内容由 AI 大模型生成，请仔细甄别。

用扣子的时候怎么让大模型严格按照知识库内容进行输出

以下是关于让大模型严格按照知识库内容进行输出的相关信息：扣子的知识库功能强大，可上传和存储知识内容，提供多种查找方法。在智能体中使用知识库，收集相关内容，当智能体回答用户时会先检索知识库，使回复更准确。在“掘金 x 扣子 Hackathon 活动深圳站”的总冠军工作流中，对于用户向小说人物角色的提问，通过一系列节点，包括开始节点接收问题、知识库节点检索、大模型节点生成答案等，本质上是一个根据用户 query 进行检索增强生成（RAG）的任务，每个工作流中都嵌入了知识库节点，维护了如小说合集等知识库。大模型节点是调用大语言模型，使用变量和提示词生成回复。按需选择基础版或专业版模型，基础版支持扣子预设的一批模型资源，专业版除默认添加的豆包模型外，还支持按需接入火山引擎方舟平台的模型资源。模型选择右下角生成多样性可从多个维度调整不同模型在生成内容时的随机性，有精确模式、平衡模式和创意模式等预置模式。输入方面，开启智能体对话历史后，上下文信息将自动携带进入大模型，参数名可随意设置但建议有规律，变量值可引用前面链接过的节点的输出或进行输入。

计算两个时间差的绝对值，输出相差的完整天数。获得用户输入的两个与时间相关的字符串，两个时间用逗号分隔，每个时间字符串格式示例如下：2018年08月01日17点21分21秒。以此为要求写出python代码

以下是计算两个指定格式时间差的绝对值并输出相差完整天数的 Python 代码： ```python import datetime def calculate_days_difference: 解析时间字符串 time1 = datetime.datetime.strptime time2 = datetime.datetime.strptime 计算时间差 time_difference = abs 转换为天数并返回 return time_difference.days 示例用法 time1_str = "2023年08月01日17点21分21秒" time2_str = "2023年08月10日17点21分21秒" print ```

文字转语音

以下是关于文字转语音的相关内容： DubbingX2.0.3：界面与国内版相同，使用了沉浸式翻译功能，可能看起来较乱。第一个选项是文字转语音，与国内版相同，不做重复演示。重点介绍第二项“创建您的语音克隆”：上传语音（想克隆的声音原始文件）。给声音命名，方便以后配音选择。选择语言。勾选相关选项，点击转变即可生成。注意：原音频若有背景音乐，最好在剪影中去除，以使生成的音色模型效果更好、更纯净。 Hedra：可以直接文字转语音，目前有 6 个语音。也可以直接上传音频。

搭建链接转文字的智能体

搭建链接转文字的智能体可以参考以下步骤： 1. 创建一个智能体，输入人设等信息，并放上相关工作流。 2. 配置完成后进行测试。但注意工作流中【所有视频片段拼接】节点使用的插件 api_token 填的是您的 token，为避免他人调用消耗您的费用，您可以将 api_token 作为工作流最开始的输入，让用户购买后输入使用，然后再发布。 3. 在阿里云百炼平台中，Deepseek R1 模型无需部署可直接使用。使用该模型需要解锁和授权，若没有授权按钮需对阿里云进行实名认证，可通过支付宝扫码或在右上角头像处进行，共学群里有相关指引。 4. 新建智能体应用时，可选择模型并调整参数，如回复字数限制和携带上下文轮数等。 5. 对于模型的连接，可通过模型广场的 API 调用示例获取链接，截断后粘贴到 Chat Box 的设置中，添加自定义提供方，设置模型名称为 Deepseek R1，并获取 API key。还可重置 API key 以方便本地软件连接。

文字生成故事视频

以下是关于文字生成故事视频的相关信息： Sora 具有文字生成视频的功能，时长可达 60 秒，还能进行图片生成视频、扩展视频等操作。案例中有把学生写的函数小故事变成动画视频，如深圳福田区梅山中学梁玉老师使用百度文库的 AI 有声画本导入故事生成。将小说转换成 AI 视频通常包括文本分析、角色与场景生成、视频编辑与合成等步骤。可利用的工具及网址有： Stable Diffusion（SD）：一种 AI 图像生成模型，网址： Midjourney（MJ）：另一个 AI 图像生成工具，网址： Adobe Firefly：Adobe 的 AI 创意工具，网址： Pika AI：文本生成视频的 AI 工具，网址： Clipfly：一站式 AI 视频生成和剪辑平台，网址： VEED.IO：在线视频编辑工具，具有 AI 视频生成器功能，网址：极虎漫剪：结合 Stable Diffusion 技术的小说推文视频创作提效工具，网址：故事 AI 绘图：小说转视频的 AI 工具，网址：