直达「 通往AGI之路 」飞书知识库 →
首页/问答列表/问答详情

带有文字的AI绘画

回答

以下是关于带有文字的 AI 绘画的相关内容:

方法一

  • 先在 PS 中做一张任意文字的图片,黑底白字,文字可做任意变形处理,完成之后适当虚化,让边缘不至于很生硬。
  • 将图片放入 ControlNet 中,预处理器选择 inpaint_global_harmonious 全局重绘,模型选择 lightingBasedPicture。
  • 控制权重设置为 0.7,介入时机为 0.2,终止时机为 0.6。这些参数主要控制文字在画面中的显眼程度,要让文字可以被识别,但是又不能太明显,融合得还要自然,这需要反复调试。
  • 大模型使用 majicmixRealistic,提示词为“1girl,sitting by the window,meditation,soft light,light and shadow,close-up,portrait”,设定好尺寸就可以开始刷图。

方法二

  • 将中文字做成白底黑字,存成图片样式。
  • 使用文生图的方式,使用大模型真实系,如 realisticVisionV20_v20.safetensors[e6415c4892]ControlNet 预设置。
  • 输入关键词,如奶油的英文单词“Cream + Cake”(加强质感),反关键词“Easynegative”(负能量),反复刷机,得到满意的效果即可。
  • 同理可输出 C4D 模型,可自由贴图材质效果,如“3d,blender,oc rendering”。
  • 如果希望有景深效果,也可以打开 depth(增加阴影和质感)。
  • 打开高清修复,分辨率联系 1024 以上,步数:29 - 60。

此外,还有从语言学角度对 AI 艺术的一些探讨,如提示词像“咒语”,具有强目的性、强精确性、强变异性、强符号性和探索本能等特点。AI 艺术的未来可能是生成式空间计算,其使命是创造生命体验。

内容由 AI 大模型生成,请仔细甄别(powered by aily)

参考资料

【SD】隐藏在光里的秘密,AI造字光与影的艺术~

[title]【SD】隐藏在光里的秘密,AI造字光与影的艺术~作者:白马少年介绍:SD实践派,出品精细教程发布时间:2023-07-27 20:03原文网址:https://mp.weixin.qq.com/s/sA1TBkwQxfIb4V7lrpPOoA一张图,正常看是非常美的画面,缩小了看,就能看到画面中隐隐约约透出的几个文字,虽然经不起细细地推敲,但这恰恰就是AI绘画所独有的浪漫。今天我们就来了解一下,这种隐藏在画里的“藏头诗”该怎么做。先在ps中做一张任意文字的图片,黑底白字,文字可做任意变形处理,完成之后适当虚化,让边缘不至于很生硬。将图片放入controlnet中,预处理器选择inpaint_global_harmonious全局重绘,模型选择lightingBasedPicture。控制权重我设置为0.7,介入时机为0.2,终止时机为0.6。这些参数主要控制的是文字在画面中的显眼程度,要让文字可以被识别,但是又不能太明显,融合的还要自然,这就需要反复去调试了。这里用到的一个controlnet的新模型lightingBasedPicture,是一个可以控制画面当中光影关系的模型,使用它你可以按照自己的想法控制画面当中光源的位置和形状。大模型使用majicmixRealistic,提示词为——1girl,sitting by the window,meditation,soft light,light and shadow,close-up,portrait,设定好尺寸就可以开始刷图了。给大家看一些测试过程中的图片,比如这张我调高了controlnet的权重为0.8,这个时候文字就不是光了,而变成了人物服装的一部分。再看这张,画面的感觉挺好的,但是文字的光感不强,比较难以识别。

教程:SD 做中文文字-持续更新中

Nenly同学的视频教程来了:【“牛逼”的教程来了!一次学会AI二维码+艺术字+光影光效+创意Logo生成,绝对是B站最详细的Stable Diffusion特效设计流程教学!AI绘画进阶应用-哔哩哔哩】https://b23.tv/c33gTIQ还有个群友根据下面的教程自己做了个视频教程非常详细1.将中文字做成白底黑字,存成图片样式2.使用文生图的方式,使用大模型真实系,作者用的realisticVisionV20_v20.safetensors[e6415c4892]ControlNet预设置3.输入关键词,如奶油的英文单词,Cream + Cake(加强质感),反关键词:Easynegative(负能量),反复刷机,得到满意的效果即可。4.同理可输出C4D模型,可自由贴图材质效果,3d,blender,oc rendering5.如果希望有景深效果,也可以打开depth(增加阴影和质感)6.打开高清修复,分辨率联系1024以上,步数:29-60本来想方一个b站视频,但是没有按照上面的实测,等看完之后再推荐当然https://firefly.adobe.com/也可以,但是sd感觉可操控性更强,尤其是中文字体

AI艺术的预言 | 菩萨把掌抵在了你的背上

[title]AI艺术的预言|菩萨把掌抵在了你的背上可以从语言学(Linguistics)的角度来研究我们常说提示像“咒语”-高注册(Register)语言应用和自然语言有众多的差异性(Differentiation)比如强目的性(Intentionality),强精确性(Precision)强变异性(Variability),强符号性(Symbolism)探索本能(Exploratory Nature)肢体驱动的画笔,是物理材料之笔语言驱动的画笔,是概念的画笔概念的画笔,描绘观念的织体(Texture)我们掌握着这支笔的雏形创作AI绘画与AI影像但是,这只是握笔的练习,不是创作因为我们没有找到这支笔合适的画布架上绘画已死,电影已死观念,只是偶尔会寄生在它们的残躯上当然,很多人还在膜拜着它们的残躯那么,AI艺术的本体形态是什么AI生成式空间计算(Generative Al Spatial Computing)绘画是有缺损的复现电影是第三者的旁观影像始终是透过一扇窗在观察另一个世界而这扇窗,这面墙,即将被打破很快AI艺术的卢米埃尔(frères Lumière)时刻就会隆隆驶来生成式空间计算的使命是创造生命体验我无法用言语还原这种奇观,只能尽力神说,要有光,你便有了光要有鱼绕着我,你便被鱼围绕要有人类的历史如瀑布下坠般沐浴自己历史就会沐浴你

其他人在问
AI选股
以下是为您提供的关于 AI 选股的相关信息: 1. 2024 年美国融资金额超过 1 亿美元的 AI 公司(截止 2024.10.15): Zephyr AI:2024 年 3 月 13 日融资,融资金额 1.11 亿美元,轮次 A,主营 AI 药物发现和精准医疗。 Together AI:2024 年 3 月 13 日融资,融资金额 1.06 亿美元,轮次 A,估值 12 亿美元,主营 AI 基础设施和开源生成。 Glean:2024 年 2 月 27 日融资,融资金额 2.03 亿美元,轮次 D,估值 22 亿美元,主营 AI 驱动企业搜索。 Figure:2024 年 2 月 24 日融资,融资金额 6.75 亿美元,轮次 B,估值 27 亿美元,主营 AI 机器人。 Abridge:2024 年 2 月 23 日融资,融资金额 1.5 亿美元,轮次 C,估值 8.5 亿美元,主营 AI 医疗对话转录。 Recogni:2024 年 2 月 20 日融资,融资金额 1.02 亿美元,轮次 C,主营 AI 接口解决方案。 2. 2024 年 3 月科技变革与美股投资: AI 将引领新的服务模式,即“智能即服务”,重塑工作和生活,重新赋能芯片和云计算行业,创造新的投资机会,GPU 需求预计持续增长。 企业软件、AI 驱动的金融服务以及 AI 健康技术成为吸引投资的主要领域,机器人行业投资额超过企业软件。 科技巨头通过资本控制 AI 模型公司的趋势明显,如 OpenAI 与微软、Anthropic 与 Google 等的合作。 企业竞争策略主要集中在迅速成长为大型模型公司并寻找强大背书,或保持小规模专注盈利并灵活应对市场变化。 2024 年将是大模型争霸的一年,OpenAI、Gemini、Anthropic、LLama 以及来自法国的 Mistral 是市场上受瞩目的公司。 3. 展望 2025,AI 行业的创新机会: 在 ToP 领域,峰瑞投资的冰鲸科技是一家 AI 智能硬件公司,为全球创作者和专业玩家设计创新的私有云产品,推出集成端侧 GPU 的旗舰产品——ZimaCube。 在 ToB 领域,AI 应用进入企业内部可从纵向的独立业务模块和横向的通用技能模块切入。2024 年 7 月,美国投资机构 A16z 发布文章探讨了人工智能在变革企业销售技术中的潜力,其中提到的多数产品符合上述特点。ToB 和 ToP 存在一定交集。
2024-12-21
openai 12天都有哪些内容
以下是 OpenAI 12 天相关的内容: 12 月 18 日: API 正式版:速度更快,成本降低 60%,支持视觉识别、函数调用、结构化输出等功能。 语音交互升级:引入 WebRTC 支持,12 行代码即可实现实时语音交互,音频处理费用降低 60%。 偏好微调功能:让 AI 回答更具个性化,企业 AI 准确率提升显著。 新增 Go 和 Java 工具包,简化 API 密钥申请流程。 12 月 12 日: 苹果设备深度集成 ChatGPT,可通过 Siri 实现文档总结、任务分配、节日创意等操作。 多平台无缝衔接:支持 iPhone、iPad 和 Mac,涵盖 Siri 集成、写作工具增强、视觉智能分析等多种应用场景。 实用场景:圣诞派对策划、PDF 总结、歌单生成、视觉智能评选毛衣创意等功能演示,体现全新交互体验。 12 月 5 日: OpenAI 近日宣布将举行为期 12 天的活动,期间每天直播展示新功能或工具。 DeepMind 发布了基础世界模型 Genie 2,可以通过一张图片生成可操作的 3D 环境,实现智能体的实时交互与行为预测。 真格基金投资副总裁 Monica 在其播客「OnBoard!」发布的最新一期对谈中,与在一线大模型机构有实际训练大语言模型(LLM)经验的研究员针对 OpenAI o1 模型进行了三个多小时的拆解与解读。强化学习如何给大语言模型带来新的逻辑推理能力?这种能力的来源、实现方式和未来潜力又是怎样的?o1 带来的「新范式」会对行业有怎样的影响?
2024-12-20
有没有能根据哼唱,出伴奏的AI
以下是一些能根据哼唱出伴奏的 AI 相关信息: 在音乐创作中,如果只有词和一小段自己哼唱的旋律,可以上传这段哼唱的旋律,让 AI 扩展出自己喜欢的风格,然后将这段音轨作为动机音轨继续创作。 对于已有简单录音小样,可以利用 REMIX 优化音质与编曲结构,并利用 AI 尝试不同曲风版本,找到最喜欢的风格,然后制作成核心音轨,进而完成全曲创作。 同时,在使用 AI 进行音乐相关处理时也存在一些问题和需要注意的地方: 检查乐谱时,主旋律基本能还原,但可能会把噪声识别成音符形成错误信息,需要具备乐理知识去修复。 重奏输出方面,修谱和重奏软件可以使用 中的 Muse Score,它支持多种常用音频编辑格式的导出和高清输出。 目前存在一些待解决的问题,如延长音部分可能会抢节奏,爵士乐中的临时升降号可能导致判断混乱,高音和低音的符点会相互影响,基础修谱可能导致旋律单调等。 在将 Midi 导出到 MP3 虚拟演奏文件时,可以直接导总谱或分轨导出,后期若想输出到某些音乐平台可能需要转码。还可以使用相关软件修改音色进行渲染。把文件丢给 AI 做二次创作时,可以根据具体情况选择完整小节或在中间掐断。
2024-12-20
2025年AI的大走向是什么
2025 年 AI 的大走向可能包括以下几个方面: 1. 大型基座模型能力的优化与提升:通过创新训练与推理技术,强化复杂推理和自我迭代能力,推动在科学研究、编程等高价值领域的应用,并围绕模型效率和运行成本进行优化,为广泛普及和商业化奠定基础。 2. 世界模型与物理世界融合的推进:构建具备空间智能的世界模型,使系统能够理解和模拟三维环境,并融入物理世界,推动机器人、自主驾驶和虚拟现实等领域发展,提升对环境的感知与推理能力以及执行任务的实际操作能力,为人机交互带来更多可能。 3. AI 的多模态融合:整合文本、图像、音频、视频、3D 等多模态数据,生成式 AI 将显著提升内容生成的多样性与质量,为创意产业、教育、娱乐等领域创造全新应用场景。 4. 数字营销方面:AI 技术将成为数字营销的核心,品牌应注重利用 AI 提升用户体验,预计全球 AI 在数字营销领域的市场规模将达到 1260 亿美元,采用 AI 技术的公司在广告点击率上提高 35%,广告成本减少 20%。 5. 行业发展:2025 年或将成为 AI 技术逐渐成熟、应用落地取得阶段性成果的关键节点,同时成为 AI 产业链“资产负债表”逐步修复的年份,标志着行业从高投入、低产出向商业化路径优化迈出重要一步。 6. 竞争格局:大语言模型供应商将各具特色,竞争加剧;AI 搜索引擎将成为杀手级应用,快速普及,颠覆传统搜索方式;不同领域的 AI 搜索引擎将出现,针对专业需求提供更精准的信息服务。
2024-12-20
🚀接着上期SOP+AI:打造职场高效能人士的秘密武器的分享,今天继续聊聊SOP+AI的应用,🎯今天的主题是“怎样利用AI节约10倍内容创作时间?”📚最近跟团队有开始运营小红书账号,就想着先给自己打造点顺手的工具,于是乎「小红书文案专家」就出生啦~🎉[heading1]一、先介绍下我们小Bot[content]🛺BOT名称:小红书文案专家功能价值:见过多个爆款文案长啥样,只需输入一个网页链接或视频链接,就能生成对应的小红书文案,可以辅助创作者生成可以一键复制发布的初稿,提供创意和内容,1
以下是关于“SOP+AI”的相关内容: 怎样利用 AI 节约 10 倍内容创作时间? 最近团队开始运营小红书账号,于是打造了“小红书文案专家”。 BOT 名称:小红书文案专家 功能价值:见过多个爆款文案,输入网页或视频链接就能生成对应的小红书文案,辅助创作者生成可一键复制发布的初稿,提供创意和内容,节约 10 倍文字内容创作时间。 应用链接:https://www.coze.cn/s/ij5C6LWd/ 设计思路: 痛点:个人时间有限,希望有人写初稿并生成配图。 实现思路:为自己和团队设计工作流,让 AI 按运营思路和流程工作。 一期产品功能: 1. 提取任何链接中的标题和内容。 2. 按小红书平台文案风格重新整理内容。 3. 加入 emoji 表情包,使文案更有活力。 4. 为文案配图片。 二期计划功能:持续优化升级,增加全网搜索热点功能,提炼热点新闻或事件关键信息,结合用户想要生成的内容方向输出文案和配图。 SOP+AI:打造职场高效能人士的秘密武器 案例分享:X 公司客服团队引入 SOP 和 AI 助手后,工作效率显著提升。引入 SOP 前,客服工作流程混乱,效率低下,客户满意度不高。引入 SOP 标准化操作后,效率提高。进一步引入 AI 助手,自动回复常见问题、处理简单请求,减少客服工作量,还能及时发现问题帮助优化。结果客服团队工作效率提升 30%以上,客户满意度显著提高。SOP 能提升效率、减少失误、促进协作,借助 AI 助手,SOP 制定和优化更高效智能。
2024-12-20
AI的工具类应用有哪些?
以下是一些常见的 AI 工具类应用: 1. AI 菜谱口味调整工具:如“下厨房”的口味调整功能,使用自然语言处理和数据分析技术,根据用户反馈调整菜谱口味,市场规模达数亿美元。 2. AI 语言学习纠错平台:像“英语流利说”的纠错功能,运用自然语言处理和机器学习技术,帮助语言学习者纠正错误,市场规模达数十亿美元。 3. AI 电影剧情分析系统:例如“豆瓣电影”的剧情分析工具,通过数据分析和自然语言处理技术,为用户提供深度解读,市场规模达数亿美元。 4. AI 办公文件分类系统:如“腾讯文档”的分类功能,借助数据分析和机器学习技术,自动分类办公文件,方便管理,市场规模达数亿美元。 5. AI 美容护肤方案定制平台:“美丽修行”的定制方案功能,利用图像识别和数据分析技术,根据用户肤质定制护肤方案,市场规模达数亿美元。 6. AI 菜谱生成平台:“豆果美食 APP”,采用自然语言处理和数据分析技术,根据用户口味和现有食材生成个性化菜谱,市场规模达数亿美元。 7. AI 语言学习助手:“沪江开心词场”,通过自然语言处理和机器学习技术,辅助用户学习语言,提供个性化学习方案,市场规模达数十亿美元。 8. AI 电影推荐系统:“爱奇艺”的智能推荐功能,运用数据分析和机器学习技术,根据用户喜好推荐电影,市场规模达数亿美元。 9. AI 办公自动化工具:“WPS Office”,借助自然语言处理和机器学习技术,提高办公效率,实现自动化办公流程,市场规模达数十亿美元。 10. AI 游戏道具推荐系统:在一些游戏中的推荐功能,使用数据分析和机器学习技术,根据玩家需求推荐游戏道具,市场规模达数亿美元。 11. AI 天气预报分时服务:“彩云天气”的分时预报,利用数据分析和机器学习技术,提供精准的分时天气预报,市场规模达数亿美元。 12. AI 医疗病历分析平台:“医渡云”的病历分析系统,通过数据分析和自然语言处理技术,分析医疗病历,辅助诊断,市场规模达数十亿美元。 13. AI 会议发言总结工具:“讯飞听见”的会议总结功能,运用自然语言处理和机器学习技术,自动总结会议发言内容,市场规模达数亿美元。 14. AI 书法作品临摹辅助工具:书法临摹软件,借助图像识别和数据分析技术,帮助书法爱好者进行临摹,市场规模达数亿美元。
2024-12-20
AI绘画这么厉害了,那儿童还有必要学习素描课吗
即便 AI 绘画很厉害,儿童仍有必要学习素描课。手绘素描笔记有助于建立突触连接,将信息从短期记忆转化为长期记忆,让人成为更好的概念思考者。例如,在科学观察中,学生通过手绘能更好地学会观察,这个过程不可被替代。就学习而言,掌握新技能时应先进行动手、动脑、技术最小化的学习,不应一开始就依赖 AI。比如在记笔记时,手写比打字能让学生记住更多信息。此外,在一些课程设计中,如离谱村的 AI 课,通过巧妙的环节设置和老师的引导,能让孩子更好地学习和发挥想象。
2024-12-20
我想根据一些旧照片,使用AI绘画重新画一下,希望可以更像手绘,可以打印出来出来作为纪念,有什么工具可以用
目前有以下几种工具可供您选择来实现根据旧照片进行类似手绘风格的 AI 绘画并打印出来作为纪念: 1. DALL·E2:能够生成逼真且富有创意的图像,包括手绘风格。 2. StableDiffusion:具有强大的图像生成能力,可通过设置相关参数获得手绘效果。 3. Midjourney:能创作出风格多样的图像,包括您期望的手绘风格。 您可以根据自己的需求和使用习惯选择适合的工具。
2024-12-20
AI绘画提示词库
以下是关于 AI 绘画提示词的相关内容: 画面精度提示词: high detail(高细节) hyper quality(高品质) high resolution(高分辨率) FHD, 1080P, 2K, 4K, 8K(全高清、1080P、2K、4K、8K) 8k smooth(8K 流畅) 渲染效果提示词: Unreal Engine(虚幻引擎) octane render(渲染器) Maxon Cinema 4D 渲染器 architectural visualisation(建筑渲染) Corona Render(室内渲染) Quixel Megascans Render(真实感) VRay(V 射线) Behance C4D 3D blender surreal photography(超现实摄影) realistic 3D(真实 3D) zbrush 画面构图提示词: Wideangle view(广角镜头) canon 5d, 1fujifilm xt100, Sony alpha(相机型号焦段光圈) CloseUp (特写) Medium CloseUp (中特写) Medium Shot (中景) Medium Long Shot (中远景) Long Shot (远景) over the shoulder shot(过肩景) loose shot(松散景) tight shot(近距离景) two shot ) scenery shot(风景照) bokeh(背景虚化) foreground(前景) background(背景) Detail Shot ) Face Shot ) Knee Shot ) Full Length Shot ) 提示词模板相关网站:
2024-12-18
绘画提示词库
以下是为您整理的绘画提示词库相关内容: 一、画小二:Prompt 提示词关键词整理(双语版) 1. 视角:LowAngle(仰视) 2. 介质:abstract expressionist art style(抽象表现主义艺术风格) 3. 镜头:superresolution microscopy(超分辨率显微镜) 4. 灯光:ambient lighting(环境照明) 5. 颜色:white(白色的) 6. 描述:classical realism(古典现实主义) 7. 艺术家:抽象主义 1940 1950 8. 电影:2001 A Space Odyssey(2001 太空漫游) 9. 游戏:Age of Empires(帝国时代) 此外还有: 儿童画(child's drawing) 门廊灯(porch light) 冬天的颜色(winter colors) 炭笔画(charcoal drawing) 等离子球体(plasma globe) 秋天的颜色(autumn colors) 二、图像类 Prompt 网站 1. MidLibrary:Midjourney 最全面的流派、艺术技巧和艺术家风格库,网址: 2. MidJourney Prompt Tool:类型多样的 promot 书写工具,点击按钮就能生成提示词修饰部分,网址: 3. OPS 可视化提示词:这个网站有 Mid Journey 的图片风格、镜头等写好的词典库,方便您快速可视化生成自己的绘画提示词,网址: 4. AIart 魔法生成器:中文版的艺术作品 Prompt 生成器,网址: 5. IMI Prompt:支持多种风格和形式的详细的 MJ 关键词生成器,网址: 6. Prompt Hero:好用的 Prompt 搜索,Search prompts for Stable Diffusion,ChatGPT&Midjourney,网址: 7. OpenArt:AI 人工智能图像生成器,网址: 8. img2prompt:根据图片提取 Prompt,网址: 9. MidJourney 提示词工具:专门为 MidJourney 做的提示词工具,界面直观易用,网址: 10. PromptBase:Prompt 交易市场,可以购买、使用、销售各种对话、设计 Prompt 模板,网址: 11. AiTuts Prompt:精心策划的高质量 Midjourney 提示数据库,提供了广泛的不同风格供您选择,网址:
2024-12-18
如何快速学会AI绘画
以下是一些快速学会 AI 绘画的方法和途径: 1. 画面风格系列化: 步骤二方法二:涂鸦上色绘制风格 参数设置(乡村):AI 实验室—>涂鸦上色,预处理方式—>假涂鸦,模型主题—>艺术插画,关键词包括极简主义、平面插画、青色的天空、淡淡的云朵、鸟、干净的街道、彩色的房子、鲜艳色彩、大师作品、高清晰度,融合模型—>平涂插画 0.5,创意度—>创意度 55。 参数设置(女生):AI 实验室—>涂鸦上色,预处理方式—>假涂鸦,模型主题—>全彩 CG、人物写真、彩漫 6,关键词包括极简主义、平面插画、青色的天空、淡淡的云朵、鸟、干净的街道、彩色的房子、鲜艳色彩、大师作品、高清晰度,融合模型—>少女插画 0.5,创意度—>创意度 65。 步骤三:更改关键词,实现稳定系列化 参数设置(乡村):AI 实验室—>涂鸦上色,预处理方式—>假涂鸦,模型主题—>艺术插画,关键词(1)包括极简主义、平面插画、青色的天空、淡淡的云朵、鸟、干净的街道、彩色的房子、鲜艳色彩、大师作品、高清晰度;关键词(2)包括极简主义、平面插画、黄昏的天空、红色的云朵、鸟、绿色的街道、彩色的房子、鲜艳色彩、大师作品、高清晰度;关键词(3)包括平面插画、春天、黄昏的天空、安宁的街道、木制的房子、石板、柳树、丰富色彩、大师作品、高清晰度,融合模型—>平涂插画 0.5,创意度—>创意度 55。 2. 体验《AI 绘画助手》: 作者:用户 5982952053884 简介:这是一位专业且贴心的 AI 绘画学习导师。无论您是新手小白还是进阶爱好者,都能提供优质实用的指导。能将复杂的神经网络、生成对抗网络以及卷积神经网络等知识用通俗易懂的语言解释清楚。对 DALLE、MidJourney、Stable Diffusion 等流行工具了如指掌,能介绍使用步骤和独特之处。擅长风格迁移技术、生成对抗网络在图像生成和编辑中的应用,以及获取高分辨率精美图像的方法。拥有丰富实战案例经验,能引领您从零基础起步创作作品,为您答疑解惑并规划学习路径。
2024-12-18
AI绘画
AI 绘画是一个对艺术界产生双向影响的领域: 背景:从生成艺术作品到辅助艺术创作,AI 绘画逐渐改变传统艺术面貌,艺术界的反馈也促使其显著进展。AI 技术在艺术创作中的应用改变了创作方式、审美观念和市场需求,从早期机械臂机器人到当前大语言模型,技术进步使创作质量和速度有新突破,推动传统艺术数字化和普及化。 争议:AI 在艺术创作中的应用引发讨论。人们对 AI 驱动的机器人创作和人类创作的艺术品接受程度相似,但不太愿意将机器人视为艺术家,表明其在表达情感和创造性意图方面有局限性。艺术家态度复杂,有对创新潜力的期待,也有对版权、原创性和伦理问题的担忧。此外,还带来从业者职业安全焦虑和“侵权”反对之声,反映新技术对行业生态和现有法律伦理框架的挑战。 积极影响:为艺术创作提供新可能性,帮助艺术家探索新创意表达方式,提高制作效率,降低制作成本,促进艺术与观众互动,提供个性化和互动的艺术体验。 着色画: 关键词简介:中文为着色画,英文为 Coloring page。它提供基础框架,由简单线条勾勒物体或场景轮廓,留给创作者无限想象空间填充色彩和纹理,可手绘或数字格式。 艺术效果:体现在色彩丰富性、情感表达、细节和纹理突出、创意发挥等方面。 AI 绘画的关键词结构思路:包括基础描述、风格指定、色彩要求、细节强调等。 进阶玩法:可用 MJ 的 Retexture 功能或即梦参考功能,通过写提示词或垫图功能给着色画上色。 AI 绘画的关键词指南: 公式:主题+环境+气氛+灯光+色彩+构图+风格参考。 比如:可找喜欢的艺术家、灯光、颜色调色板风格,分别放到相应的关键词里。
2024-12-12
带有文字的AI图片,简单生成
以下是关于简单生成带有文字的 AI 图片的相关内容: 1. 需求分析: 之前的内容无法直接生成对应图片,需用稿定设计等工具处理。此次借助图像流带来一键生成的扣子 Bot。 工作流程包括:用户输入关键词,大模型制作四个金句,根据金句生成画面描述,结合描述和关键词用扣子官方插件生成图片,再用图像流将金句和图片结合。 2. 进阶技巧和关键词: 图片内容分为二维插画和三维立体两种表现形式。 主题描述时,场景和人物等元素要独立清晰描述,避免长串文字导致 AI 识别困难。 设计风格可参考风格类关键词或垫图/喂图,材质关键词的运用有很多门道,需针对特定风格进行“咒语测试”。 3. 增强版 Bot 的场景: 图片理解与生成:在对话框输入诉求可生成相应图片,背后是文本到图片等格式内容的映射关系。 PPT 一键生成:根据上下文输入诉求可生成幻灯片内容和相关模板选择。 PDF 智能制作:根据诉求生成相应可选模板。 系统架构论文一键创作:附注有经过锤炼提取升华而来的提示词中文版和英文版。
2024-10-07
AI 大模型命名 带有-instruct的含义
AI 大模型中带有“instruct”通常与指令微调相关。在大模型的训练过程中,指令微调是其中一个重要阶段。此阶段模型被训练以理解并执行具体指令,例如翻译文本等,从而能够回答问题。指令微调阶段输入的内容通常包括三个部分,如“Instruct:请你翻译下面这段话”“Input:一段英文”“Output:一段中文”。通过指令微调,模型能够更好地按照人类的期望和具体要求进行输出。
2024-09-19
ai可以生成带有剧情的长时期吗
AI 可以生成带有剧情的内容。例如,使用 Pika、Pixverse、Runway、SVD 等工具,可以生成科幻片、战争片、奇幻片等不同类型的视频,包括太空舰队交战、士兵在战壕中准备迎击等场景。同时,还可以为故事加上奇幻元素来弥补平淡的问题。 在 2024 年内,AI 在图片和超短视频的精细操控、生成式短视频、AI 音频、“全真 AI 颜值网红”、游戏 AI NPC、AI 男/女朋友聊天、实时生成内容在社交媒体和广告中的应用、AI Agent、AI 的商业模式、可穿戴全天候 AI 硬件、中国 AI 发展、AI 造成的问题以及相关立法伦理讨论等方面都有不同程度的进展和预期。 到 2025 2027 年,AI 3D 技术和物理规则有望成熟,达到正常人无法区别 AI 生成还是实景拍摄的程度。
2024-09-04
AI 大模型名称中带有instruct是什么意思
在 AI 术语中,名称中带有“instruct”通常具有特定的含义。 以“InstructGPT”为例,它更善于遵循人类的指示,这在 AI 中被称为“对齐(Alignment)”。通过这种方式,可以让模型的输出更加安全,减少错误、幻觉和攻击性语言。这意味着模型能够更好地理解和响应人类的需求,除非被特别要求,否则不会产生不良的输出。 在大语言模型的训练中,“instruct”也出现在指令微调阶段。在这个阶段,模型被训练以理解并执行具体指令,例如翻译文本等,从而能够回答问题。此时输入的内容通常包括“instruct”部分,明确指示模型需要执行的任务。 总之,“instruct”在 AI 大模型中往往与遵循人类指示、进行特定任务的训练和执行相关,旨在使模型的输出更符合人类的期望和要求。
2024-07-26
语音转文字
以下是关于语音转文字的相关信息: 推荐使用 OpenAI 的 wishper,相关链接:https://huggingface.co/openai/whisperlargev2 。一分钟搞定 23 分钟的音频,相关链接:https://huggingface.co/spaces/sanchitgandhi/whisperjax 。该项目在 JAX 上运行,后端支持 TPU v48,与 A100 GPU 上的 PyTorch 相比,快 70 多倍,是目前最快的 Whisper API。 语音转文本 API 提供转录和翻译两个端点,基于开源大型v2 Whisper 模型。可用于将音频转录为任何语言,将音频翻译并转录成英语。目前文件上传限制为 25MB,支持 mp3、mp4、mpeg、mpga、m4a、wav 和 webm 等输入文件类型。 转录 API 的输入是音频文件及所需输出格式的音频文字稿,默认响应类型为包含原始文本的 JSON,可添加更多带有相关选项的form 行设置其他参数。 翻译 API 输入为任何支持语言的音频文件,输出为英文文本,目前仅支持英语翻译。 对于默认情况下 Whisper API 仅支持小于 25MB 的文件,若有更长音频文件,需分成小于 25MB 的块或使用压缩后格式,可使用 PyDub 开源 Python 软件包来拆分声频文件,但 OpenAI 对其可用性或安全性不作保证。 可以使用提示提高 Whisper API 生成的转录质量,如改善特定单词或缩略语的识别、保留分段文件的上下文、避免标点符号的省略、保留填充词汇、处理不同书写风格等。
2024-12-20
音频转文字
以下是关于音频转文字的相关信息: 推荐使用 OpenAI 的 wishper 进行语音转文字,相关链接:https://huggingface.co/openai/whisperlargev2 。还有一分钟搞定 23 分钟音频的相关项目:https://huggingface.co/spaces/sanchitgandhi/whisperjax ,此项目在 JAX 上运行,后端支持 TPU v48,与 A100 GPU 上的 PyTorch 相比,快 70 多倍,是目前最快的 Whisper API 。 语音转文本 API 提供转录和翻译两个端点,基于开源大型v2 Whisper 模型。可用于将音频转录为任何语言,将音频翻译并转录成英语。目前文件上传限制为 25MB,支持 mp3、mp4、mpeg、mpga、m4a、wav 和 webm 等输入文件类型。默认响应类型为包含原始文本的 JSON,可通过添加更多带有相关选项的form 行设置其他参数。 对于默认情况下 Whisper API 仅支持小于 25MB 的文件,若音频文件更长,需将其分成每个小于 25MB 的块或使用压缩后格式,避免在句子中间断开声音以避免丢失上下文字信息,可使用 PyDub 开源 Python 软件包来拆分声频文件,但 OpenAI 对于 PyDub 这样的第三方软件的可用性或安全性不作任何保证。 可以使用提示来提高 Whisper API 生成的转录质量,如改善特定单词或缩略语的识别、保留分段文件的上下文、避免标点符号的跳过、保留填充词汇、处理不同书写风格等。
2024-12-20
国内那种会议记录语音转文字的免费AI产品好用
国内有以下免费的会议记录语音转文字的工具,不过大部分有使用时间限制,超过免费时间可能需要付费: 1. 飞书妙记:飞书的办公套件之一,网址为 https://www.feishu.cn/product/minutes 。 2. 通义听悟:阿里推出的 AI 会议转录工具,网址为 https://tingwu.aliyun.com/home 。 3. 讯飞听见:讯飞旗下智慧办公服务平台,网址为 https://www.iflyrec.com/ 。 4. Otter AI:转录采访和会议纪要。 更多会议记录工具请访问网站:https://waytoagi.com/sites/category/29 。 内容由 AI 大模型生成,请仔细甄别。
2024-12-19
图片可以转文字描述吗
图片可以转文字描述。以下是一些相关的实现方式和应用场景: 在“AI 拍立得”中,用户上传图片后,大模型会根据选择的场景生成与内容相关的文字描述或解说文本。其逻辑在于大模型对图片内容的理解和对生成文本的整理润色,可应用于生成美食点评、朋友圈发布文案、闲鱼上架示例模版等场景。 在 Midjourney 中,图片描述可以理解为以图生图。把找到的设计参考图上传到 Midjourney 中,得到专属链接,再使用“参考图链接+文本描述”的方式生成图像。例如,想要得到特定风格的 UI 界面图,可通过调整文字提示来实现。还可以通过加入特定参数来控制生成图像的比例。此外,Midjourney 不仅能生成整张设计图,还能输出多种风格的设计组件。 同时,关于图片模型和语言模型的大小差异,这是因为图像生成的核心质量实际上由文本控制,去掉图片只用文字表达要求的模型复杂度会小很多。人类对图像的容错率相对较高,大脑在处理视觉信息时可以进行一定程度的“脑补”,但对于语言,补偿有限,所以文字的准确性非常重要。
2024-12-18
推荐一个大模型,可以实现特定人的声音,朗读文字
以下为您推荐可以实现特定人声音朗读文字的大模型及相关工具: 大模型方面:包括 ChatGPT、Claude、ChatGLM、文星一言、千帆大模型、通义千问等。 语音合成(TTS)工具: 微软的 edgetts:https://github.com/rany2/edgetts,只能使用里面预设的人物声音,目前接口免费。 VITS:https://github.com/jaywalnut310/vits,还有很多的分支版本,可以去搜索一下,vits 系列可以自己训练出想要的人声。 sovitssvc:https://github.com/svcdevelopteam/sovitssvc,专注到唱歌上面,前段时间很火的 AI 孙燕姿。 Eleven Labs:https://elevenlabs.io/ ,ElevenLabs Prime Voice AI 是一款功能强大且多功能的 AI 语音软件,使创作者和出版商能够生成逼真、高品质的音频。人工智能模型能够高保真地呈现人类语调和语调变化,并能够根据上下文调整表达方式。 Speechify:https://speechify.com/ ,Speechify 是一款人工智能驱动的文本转语音工具,使用户能够将文本转换为音频文件。它可作为 Chrome 扩展、Mac 应用程序、iOS 和 Android 应用程序使用,可用于收听网页、文档、PDF 和有声读物。 Azure AI Speech Studio:https://speech.microsoft.com/portal ,Microsoft Azure Speech Studio 是一套服务,它赋予应用程序能力,让它们能够“听懂、理解并与客户进行对话”。该服务提供了支持 100 多种语言和方言的语音转文本和文本转语音功能。此外,它还提供了自定义的语音模型,这些模型能够适应特定领域的术语、背景噪声以及不同的口音。 Voicemaker:https://voicemaker.in/ ,AI 工具可将文本转换为各种区域语言的语音,并允许您创建自定义语音模型。Voicemaker 易于使用,非常适合为视频制作画外音或帮助视障人士。 此外,上述算法开源的代码有很多,例如: ASR 语音识别: openai 的 whisper:https://github.com/openai/whisper wenet:https://github.com/wenete2e/wenet speech_recognition:https://github.com/Uberi/speech_recognition 除了算法,人物建模模型可以通过手动建模(音频驱动)或者 AIGC 的方式生成人物的动态效果(例如 wav2lip 模型)实现,这样就完成了一个最简单的数字人。但这种简单的构建方式还存在很多问题,例如如何生成指定人物的声音,TTS 生成的音频如何精确驱动数字人口型以及做出相应的动作,数字人如何使用知识库,做出某个领域的专业性回答等。
2024-12-18
假如我拍了一段视频没说话用哪款软件配上文字可以让他张嘴说话
以下是一些可以为您拍摄的未说话视频配上文字并让人物张嘴说话的软件及相关信息: 1. GPT 的视觉功能和 TTS API:可以将脚本传递给 TTS API 生成画外音的 mp3。 2. Sadtalker:这是一款主流的开源程序,可让照片说话唱歌,达到基本的唇形同步。相关资源包括: GitHub 地址:https://github.com/OpenTalker/SadTalker 视频教程:https://www.bilibili.com/video/BV1Dc411W7V6/?vd_source=35e62d366d8173e12669705f7aedd122 整合包及相关链接: 夸克网盘分享:https://pan.quark.cn/s/1d5ca9f57f5c 视频地址:https://www.bilibili.com/video/BV1ga4y1u7Ep/?spm_id_from=333.337.searchcard.all.click&vd_source=35e62d366d8173e12669705f7aedd122 具体步骤:点我启动,在启动界面中选择音频、图像口型同步的下载图标;下载完毕后启动应用,会弹出独立窗口;选择 sadtalker 同步器,分别导入图片和声音,根据需求选择图片预处理方式,点击 generate,由于涉及到视频的推理和转换,需做好等待准备。 3. 剪映 App:电脑端打开剪映 App,点击“开始创作”,选择顶部工具栏中的“文本”,点击默认文本右下角的“+”号添加文字内容轨道,在界面右侧替换准备好的文字内容,为数字人提供语音播放内容及生成相对应的口型。
2024-12-18