Navigate to WaytoAGI Wiki →
Home/question.detail.breadcrumb.questionList/question.detail.breadcrumb.questionDetail

请推荐几个国内能用的支持多模态交流的app

Answer

以下为您推荐几个国内能用的支持多模态交流的 APP 及相关模型:

  1. 百度(文心一言):https://wenxin.baidu.com
  2. 抖音(云雀大模型):https://www.doubao.com
  3. 智谱 AI(GLM 大模型):https://chatglm.cn
  4. 中科院(紫东太初大模型):https://xihe.mindspore.cn
  5. 百川智能(百川大模型):https://www.baichuan-ai.com/
  6. 商汤(日日新大模型):https://www.sensetime.com/
  7. MiniMax(ABAB 大模型):https://api.minimax.chat
  8. 上海人工智能实验室(书生通用大模型):https://intern-ai.org.cn

此外,智谱·AI 开源的多模态模型有:

  1. CogAgent-18B:基于 CogVLM-17B 改进的开源视觉语言模型。拥有 110 亿视觉参数和 70 亿语言参数,支持 1120*1120 分辨率的图像理解,具备 GUI 图像的 Agent 能力。
  2. CogVLM-17B:强大的开源视觉语言模型(VLM),在多模态权威学术榜单上综合成绩优异。
  3. Visualglm-6B:开源的支持图像、中文和英文的多模态对话语言模型。
Content generated by AI large model, please carefully verify (powered by aily)

References

生成式人工智能领域的 4 个突破点

尽管聊天界面对许多用户来说令人兴奋和直观,但人类听和说语言的频率可能与写或读语言的频率相当或更高。正如Amodei所指出的:“AI系统能做的事情是有限的,因为并不是所有的事情都是文本。”具备多模态功能的模型能够无缝地处理和生成多种音频或视觉格式的内容,将这种交互扩展到超越语言的领域。像GPT-4、Character.AI和Meta的ImageBind这样的模型已经能够处理和生成图像、音频和其他模态,但它们在这方面的能力还比较基础,尽管进展迅速。用Gomez的话说,我们的模型在字面上今天是盲的,这一点需要改变。我们构建了很多假设用户能够看到的图形用户界面(GUI)。随着LLMs不断进化,更好地理解和与多种模态交互,它们将能够使用依赖GUI的现有应用程序,比如浏览器。它们还可以为消费者提供更加引人入胜、连贯和全面的体验,使用户能够超越聊天界面进行互动。Shazeer指出:“多模态模型的许多出色整合可以使事物更具吸引力和与用户更紧密相连。”他还说:“我认为,目前大部分核心智能来自文本,但音频和视频可以使这些事物更有趣。”从与AI导师进行视频聊天到与AI合作迭代和编写电视剧剧本,多模态有潜力改变娱乐、学习与发展以及跨各种消费者和企业用例的内容生成。多模态与工具使用密切相关。尽管LLMs最初可能通过API与外部软件进行连接,但多模态将使LLMs能够使用设计给人类使用但没有自定义集成的工具,例如传统的企业资源计划(ERP)系统、桌面应用程序、医疗设备或制造机械。在这方面,我们已经看到了令人兴奋的进展:例如,谷歌的Med-PaLM-2模型可以合成乳腺摄影和X射线图像。而且从长远来看,多模态(特别是与计算机视觉的集成)可以通过机器人、自动驾驶车辆和其他需要与物理世界实时交互的应用程序,将LLMs扩展到我们自己的物理现实中。

8月正式上线的国内大模型

5⃣️五家北京企业机构:百度(文心一言)https://wenxin.baidu.com抖音(云雀大模型)https://www.doubao.com智谱AI(GLM大模型)https://chatglm.cn中科院(紫东太初大模型)https://xihe.mindspore.cn百川智能(百川大模型)https://www.baichuan-ai.com/3⃣️三家上海企业机构:商汤(日日新大模型)https://www.sensetime.com/MiniMax(ABAB大模型)https://api.minimax.chat上海人工智能实验室(书生通用大模型)https://intern-ai.org.cn今天这8个大模型,在聊天状态下——能生成Markdown格式的:智谱清言、商量Sensechat、MiniMax目前不能进行自然语言交流的:昇思(可以对文本进行是否由AI生成的检测,类似论文查重,准确度不错)、书生受限制使用:MiniMax(无法对生成的文本进行复制输出,且只有15元的预充值额度进行体验,完成企业认证后可以进行充值)特色功能:昇思——生图,MiniMax——语音合成阿里通义千问、360智脑、讯飞星火等均不在首批获批名单中,广东省2家和其他省市1家也将陆续开放据悉,广东地区获批公司分别为华为、腾讯,科大讯飞系其他地区获批产品

智谱·AI 开源模型列表

,我们推出了具有视觉和语言双模态的模型。|模型|介绍|代码链接|模型下载||-|-|-|-||CogAgent-18B|基于CogVLM-17B改进的开源视觉语言模型。CogAgent-18B拥有110亿视觉参数和70亿语言参数,支持1120*1120分辨率的图像理解,在CogVLM功能的基础上,具备GUI图像的Agent能力。|[CogVLM & CogAgent](https://github.com/THUDM/CogVLM)|[Huggingface](https://huggingface.co/THUDM/CogVLM)|[魔搭社区](https://modelscope.cn/models/ZhipuAI/cogagent-chat/summary)|[Swanhub](https://swanhub.co/ZhipuAI/cogagent-chat-hf)|始智社区||CogVLM-17B|强大的开源视觉语言模型(VLM)。基于对视觉和语言信息之间融合的理解,CogVLM可以在不牺牲任何NLP任务性能的情况下,实现视觉语言特征的深度融合。我们训练的CogVLM-17B是目前多模态权威学术榜单上综合成绩第一的模型,在14个数据集上取得了state-of-the-art或者第二名的成绩。||[Huggingface](https://huggingface.co/THUDM/cogvlm-chat-hf)|[魔搭社区](https://modelscope.cn/models/AI-ModelScope/cogvlm-chat/summary)||Visualglm-6B|VisualGLM-6B是一个开源的,支持图像、中文和英文的多模态对话语言模型,语言模型基于[ChatGLM-6B](https://github.com/THUDM/ChatGLM-6B),具有62亿参数;图像部分通过训练[BLIP2-Qformer](https://arxiv.org/abs/2301.12597)构建起视觉模型与语言模型的桥梁,整体模型共78亿参数。|[VisuaGLM](https://github.com/THUDM/VisualGLM-6B)|[Huggingface](https://huggingface.co/THUDM/visualglm-6b)|[魔搭社区](https://modelscope.cn/models/ZhipuAI/visualglm-6b/summary)|

Others are asking
推荐几个办公好用的AIAPP
以下为您推荐几款办公好用的 AI APP: 1. Butterflies AI:这是一款具有社交主题的软件,不仅能进行聊天,还能使用图像生成功能,创建角色轻松便捷,AI 辅助创作出色。但部分角色外观不够一致,搜索页面有待优化。 2. 目前没有更多明确针对办公场景好用的 AI APP 相关信息。
2024-12-23
我能不能用人工智能做一个二手车批发的APP,让车商能在里面自由批发车辆,这个APP要异于常规APP,具备人工智能?
使用人工智能来开发一个二手车批发的 APP 是可行的,但具有一定的挑战性。 首先,从技术角度来看,要实现车商在其中自由批发车辆的功能,需要具备强大的数据库和稳定的网络架构,以确保车辆信息的准确、及时更新和交易的顺利进行。 对于人工智能的应用,可以考虑以下几个方面: 1. 智能推荐:根据车商的浏览历史、交易记录和偏好,为其推荐可能感兴趣的车辆。 2. 价格预测:利用机器学习算法,对二手车的价格进行预测,为车商提供参考。 3. 风险评估:通过分析车辆的历史数据、市场趋势等,评估交易中的风险。 然而,要开发这样一个 APP 也面临一些困难和需要注意的问题: 1. 数据质量和安全性:确保车辆数据的准确性、完整性和安全性,防止数据泄露和滥用。 2. 法律法规:二手车交易涉及众多法律法规,需要确保 APP 的运营符合相关规定。 3. 用户体验:要设计简洁、易用的界面,让车商能够方便地进行操作。 总之,虽然具有挑战性,但如果能够充分利用人工智能技术,并解决好上述问题,开发一个具备人工智能的独特二手车批发 APP 是有可能的。
2024-12-22
现在已经有ai功能的国内app
以下是一些具有 AI 功能的国内 APP: 1. QQ 音乐:拥有 AI 音乐分类器,使用机器学习和音频处理技术,市场规模达数亿美元。能自动分类音乐,方便用户查找和管理,例如按照风格、歌手、年代等分类,用户想听流行音乐时,点击流行音乐分类即可找到相关歌曲。 2. 科沃斯扫地机器人:具备 AI 家居清洁机器人调度系统,运用机器学习和物联网技术,市场规模达数十亿美元。可优化家居清洁机器人的工作安排,提高清洁效率,比如在电量不足时自动返回充电,然后继续未完成的清洁任务。 3. 东方财富 APP:包含 AI 金融风险评估工具,采用数据分析和机器学习技术,市场规模达数十亿美元。能够帮助金融机构评估风险,做出更明智的决策,例如根据股票的历史数据和市场趋势评估股票的风险程度。 4. 马蜂窝 APP:设有 AI 旅游景点解说系统,借助语音识别和自然语言处理技术,市场规模达数亿美元。可为游客提供景点解说服务,丰富旅游体验,比如用户在参观故宫时,APP 可以自动播放故宫的历史介绍和景点讲解。 5. WPS 文档翻译功能:是 AI 办公文档翻译工具,运用自然语言处理技术,市场规模达数亿美元。能够快速翻译办公文档,提高工作效率,例如用户需要将一份中文报告翻译成英文,只需点击翻译按钮,即可快速得到翻译结果。 6. 美丽修行 APP:构建了 AI 美容护肤产品推荐平台,使用数据分析和自然语言处理技术,市场规模达数亿美元。能根据用户肤质推荐适合的美容护肤产品,例如根据用户的油性皮肤,推荐控油、保湿的护肤品。 7. 360 儿童手表:配备 AI 儿童安全监控系统,通过图像识别和机器学习技术,市场规模达数亿美元。可以保障儿童安全,让家长放心,比如当孩子走出安全区域时,手表会自动向家长发送警报。 8. 汽车之家 APP:拥有 AI 汽车保养提醒系统,利用数据分析和机器学习技术,市场规模达数亿美元。能够提醒车主及时进行汽车保养,例如当汽车行驶到一定里程时,APP 会推送保养提醒信息。 9. 智联招聘 APP:设有 AI 招聘筛选工具,运用自然语言处理和机器学习技术,市场规模达数亿美元。可以帮助企业快速筛选简历,提高招聘效率,例如企业招聘程序员,APP 会筛选出有相关技术经验和技能的简历。 10. 贝壳找房 APP:包含 AI 房地产评估系统,采用数据分析和机器学习技术,市场规模达数亿美元。能够准确评估房地产价值,为买卖双方提供参考,比如用户想出售房屋,APP 可以给出一个合理的价格区间。 11. 腾讯游戏助手:具备 AI 游戏角色生成器,借助图像生成和机器学习技术,市场规模达数亿美元。可为游戏开发者生成独特的游戏角色,例如在一款角色扮演游戏中,生成不同外貌、性格和技能的角色,增加游戏的趣味性。 12. 墨迹天气 APP:设有 AI 天气预报助手,运用数据分析和机器学习技术,市场规模达数亿美元。能够提供精准的天气预报和气象预警,例如为用户提供准确的温度、湿度、风力等信息,同时还能提供暴雨、台风等气象预警,帮助用户合理安排出行和生活。
2024-12-19
老照片修复有手机端app吗
以下是为您整理的关于老照片修复的相关内容: 老照片修复可以利用 AI 技术实现。在手机端,您可以通过以下步骤和方法进行操作: 1. 启用 MutiDiffusion 插件,不开放大倍数,仅使用分块渲染功能,在显存不够的情况下放大图片。 2. 在 PS 里进行角度调整和照片裁切,然后使用特定步骤上色。对于复杂的照片,可只给场景方向,让 AI 自行决定颜色。 3. 利用 GFPGAN 算法将人脸变清晰,具体可参考相关文章。 4. 将图片发送到图生图中,打开 stableSR 脚本放大两倍,切换到 sd2.1 模型进行修复,vae 选择 vqgan。 此外,图像放大修复是 AI 绘画领域的重要部分,其应用场景广泛: 1. 旧照片重现清晰,让模糊的旧照片保留珍贵回忆。 2. 人像高清修复,用手机也能拍摄出高清大片,提升照片质量。 3. 图像分辨率可无限扩大且不失真,如马斯克原始图像可多次采样放大提升分辨率。 目前不太明确是否有专门的老照片修复手机端 APP,但您可以通过上述方法和技术在手机上进行相关操作。
2024-12-19
AI医疗APP或者网站
以下为一些 AI 医疗相关的 APP 或网站: 微医 APP:是一个 AI 医疗健康管理平台,使用数据分析、机器学习技术,市场规模达数十亿美元。它能管理用户健康数据,提供健康建议,例如根据用户的慢性疾病风险,提供饮食、运动和用药建议。 腾讯觅影:作为 AI 医疗影像分析平台,运用数据分析、机器学习技术,市场规模达数十亿美元。它能够分析医疗影像,辅助医生诊断,比如检测肺部结节、乳腺病变等,提高诊断效率和准确性。 平安好医生 APP:其中包含 AI 医疗诊断辅助系统,借助数据分析、机器学习技术,市场规模达数十亿美元。它可以辅助医生进行疾病诊断,提高诊断准确性,用户上传症状描述和检查报告后,系统能给出初步的诊断建议和治疗方案。
2024-12-17
可以开发一个完整的软件项目吗?可以把现有的vue2开发的uniapp项目转成vue3吗
在 AI 领域,开发一个完整的软件项目是可行的,但这需要综合考虑多个因素,如项目的规模、功能需求、技术难度以及开发团队的能力等。 关于将现有的 Vue2 开发的 Uniapp 项目转成 Vue3,理论上是可以实现的,但这是一个具有一定复杂性和挑战性的任务。需要对 Vue3 的新特性和语法有深入的了解,并且对原项目的架构和代码有清晰的把握。在转换过程中,可能需要处理诸如组件的迁移、API 的变化、依赖库的兼容性等问题。
2024-12-17
什么是多模态?什么是跨模态?
多模态指多数据类型交互,能够提供更接近人类感知的场景。大模型对应的模态包括文本、图像、音频、视频等。例如,Gemini 模型本身就是多模态的,它展示了无缝结合跨模态能力,如从表格、图表或图形中提取信息和空间布局,以及语言模型的强大推理能力,在识别输入中的细微细节、在空间和时间上聚合上下文,以及在一系列视频帧和/或音频输入上应用这些能力方面表现出强大的性能。 跨模态通常指不同模态之间的交互和融合。例如在 GPT4 的相关研究中,探索了视觉和音频等可能出乎意料的模态。智能的一个关键衡量标准是能够从不同的领域或模式中综合信息,并能够跨不同的情境或学科应用知识和技能。
2024-12-16
多模态应用
多模态应用是生成式人工智能领域的重要突破点,具有以下特点和潜力: 能够无缝处理和生成多种音频或视觉格式的内容,将交互扩展到超越语言的领域。如 GPT4、Character.AI 和 Meta 的 ImageBind 等模型已能处理和生成图像、音频等模态,但能力还较基础,不过进展迅速。 随着 LLMs 不断进化,能更好地理解和与多种模态交互,使用依赖 GUI 的现有应用程序,为消费者提供更引人入胜、连贯和全面的体验,改变娱乐、学习与发展以及跨各种消费者和企业用例的内容生成。 与工具使用密切相关,使 LLMs 能够使用设计给人类使用但没有自定义集成的工具,如传统的企业资源计划(ERP)系统等。从长远看,多模态特别是与计算机视觉的集成,可通过机器人、自动驾驶车辆等应用程序,将 LLMs 扩展到物理现实中。 关键突破点在于多模态模型能够在没有重大定制的情况下推理图像、视频甚至物理环境。 基于多模态大模型的应用能够迅速解释现实世界,如将手机置于车载摄像机位置,实时分析当前地区新春的流行趋势。其架构中后端采用 llama.cpp 挂载 LLaVA 模型提供推理服务,部署 Flask 应用用于数据处理,前端页面采用 HTML5 采集画面和用户输入。
2024-12-09
现在哪几家的大模型支持通过手机视频多模态实时交流?
以下几家的大模型支持通过手机视频多模态实时交流: 1. PandaGPT:能够理解不同模式的指令并根据指令采取行动,包括文本、图像/视频、音频、热、深度和惯性测量单位。 2. VideoLLaMA:引入了多分支跨模式 PT 框架,使语言模型能够在与人类对话的同时处理给定视频的视觉和音频内容。 3. 视频聊天 GPT:专门为视频对话设计,能够通过集成时空视觉表示来生成有关视频的讨论。 4. NExTGPT:端到端、通用的 anytoany 多模态语言模型,支持图像、视频、音频、文本的自由输入输出。
2024-11-22
多模态大模型
以下是关于多模态大模型的相关信息: Google 的多模态大模型叫 Gemini,是由 Google DeepMind 团队开发的。它不仅支持文本、图片等提示,还支持视频、音频和代码提示,能够理解和处理几乎任何输入,结合不同类型的信息,并生成几乎任何输出,被称为 Google 迄今为止最强大、最全面的模型,从设计之初就支持多模态,能够处理语言、视觉、听觉等不同形式的数据。 多模态大模型(MLLM)是一种在统一的框架下,集成了多种不同类型数据处理能力的深度学习模型,这些数据可以包括文本、图像、音频和视频等。通过整合这些多样化的数据,MLLM 能够更全面地理解和解释现实世界中的复杂信息,在面对复杂任务时表现出更高的准确性和鲁棒性。其典型架构包括一个编码器、一个连接器和一个 LLM,还可选择性地在 LLM 上附加一个生成器,以生成除文本之外的更多模态。连接器大致可分为基于投影的、基于查询的和基于融合的三类。 有基于多模态大模型给现实世界加一本说明书的应用,例如将手机置于车载摄像机位置,能够实时分析当前地区今年新春的最新流行趋势。在这种架构中,后端采用 llama.cpp 挂载 LLaVA 模型,为应用提供推理服务。同时,部署了一个 Flask 应用用于数据前处理和后处理,提供 Stream 流服务。前端页面采用 HTML5,用于采集画面和用户输入,整体设计以简单高效为主。下载模型 ggml_llavav1.513b,这里选择是 13b 4bit 的模型。BakLLaVA 推理速度更快,但对中文的支持较差,7b 的模型在语义理解方面普遍存在不足,特别是在需要规范数据格式进行交互的场合。对于 function call 和 action 操作,极度依赖模型的 AGI 能力。
2024-11-18
clip模型能应用与跨模态检索
CLIP 模型能应用于跨模态检索。以下是关于 CLIP 模型的一些详细信息: 对比语言图像预训练(CLIP)通过将图像和文本转换成固定大小的向量,使它们在一个共同的嵌入空间中对齐来训练模型,对于多模态信息检索和相关任务非常重要。 在 Stable Diffusion 中,CLIP 模型作为文生图模型的文本编码模块,决定了语义信息的优良程度,影响图片生成的多样性和可控性。它包含 Text Encoder 和 Image Encoder 两个模型,分别用于提取文本和图像的特征,可灵活切换,且具有强大的 zeroshot 分类能力。其庞大的图片与标签文本数据的预训练赋予了其强大的能力,把自然语言领域的抽象概念带到了计算机视觉领域。 自 2021 年以来,多模态模型成为热门议题,CLIP 作为开创性的视觉语言模型,将 Transformer 架构与视觉元素相结合,便于在大量文本和图像数据集上进行训练,可在多模态生成框架内充当图像编码器。 为解决 CLIP 模型在仅文本任务中表现不如专门用于文本的模型,导致信息检索系统处理仅文本和多模态任务时效率低下的问题,已提出新颖的多任务对比训练方法训练相关模型,使其在文本图像和文本文本检索任务中达到最先进性能。
2024-10-31
多模态AI是什么,和深度学习的关系
多模态 AI 是指能够处理和生成多种数据类型(如文本、图像、音频、视频等)交互的人工智能技术,从而能够提供更接近人类感知的场景。 多模态 AI 与深度学习有着密切的关系。在深度学习时期,深度神经网络等技术的发展为多模态 AI 提供了基础。当前,多模态 AI 是 AI 领域的前沿技术之一。 多模态 AI 具有以下特点和应用: 1. 能够无缝地处理和生成多种音频或视觉格式的内容,将交互扩展到超越语言的领域。 2. 像 GPT4、Character.AI 和 Meta 的 ImageBind 等模型已经能够处理和生成图像、音频等模态,但能力还比较基础,不过进展迅速。 3. 多模态模型可以为消费者提供更加引人入胜、连贯和全面的体验,使用户能够超越聊天界面进行互动。 4. 多模态与工具使用密切相关,能够使用设计给人类使用但没有自定义集成的工具。 5. 从长远来看,多模态(特别是与计算机视觉的集成)可以通过机器人、自动驾驶车辆等应用程序,将大语言模型扩展到物理现实中。
2024-10-28
我能不能用AI做一个实时交流的社群
以下是关于您能否用 AI 做一个实时交流社群的相关信息: AI 音乐方面: 存在 AI 音乐共建者的社群。 使用方式:文档中可贴喜欢的音乐或投稿教程,定期组织音乐交流会,社群中可实时交流音乐相关创作作品和经验分享。 加入条件:至少有一首以上的 AI 音乐作品,添加 AAAAAAAJ 备注音乐。 近期活动:「在线音乐会」网友出题,现场生音乐(时间待定);「Reaction」收集 AI 音乐,大家一起欣赏,记录听到意想不到的好听的歌的反应(时间待定)。 有趣的音乐可贴在文档下方,持续收集中。 Inworld AI 方面: 使 NPC 能够自我学习和适应,具有情绪智能。 特点和功能: 实时语音:使用内置语音设置进行最小延迟,可配置角色的性别、年龄、音调和说话速度,或使用第三方服务创建自定义和克隆语音。 “Contextual Mesh”功能:定制 AI 非玩家角色(NPC)的行为和知识。 可配置的安全性:可配置 NPC 对话方式,适应不同年龄级别游戏。 知识:输入“个人知识”控制角色应知道或不应知道的信息,使用“共享知识”定义多个角色拥有的知识。 玩家档案:收集玩家信息,让 NPC 在互动时考虑。 关系:配置角色关系流动性,创建不同关系的角色。 第四堵墙:确保角色只从其世界中的知识获取信息,创建更沉浸的体验。 可与各种游戏引擎(如 Unity、Unreal Engine 等)和其他游戏开发工具无缝对接,帮助品牌创建交互性强的 AI 角色,无需编码。
2024-12-22
中国大陆能用的文生视频免费ai
以下是一些在中国大陆可用的文生视频免费 AI 工具: 1. Hidreamai(国内,有免费额度):https://hidreamai.com//AiVideo 。支持文生视频、图生视频,提示词使用中文、英文都可以。文生视频支持正向提示词、反向提示词、运镜控制、运动强度控制,支持多尺寸,可以生成 5s 和 15s 的视频。 2. ETNA(国内):https://etna.7volcanoes.com/ 。Etna 是一款由七火山科技开发的文生视频 AI 模型,它可以根据用户简短的文本描述生成相应的视频内容。生成的视频长度在 8 15 秒,画质可达到 4K,最高 38402160,画面细腻逼真,帧率 60fps,文生视频支持中文,时空理解。 3. Dreamina(国内内测,有免费额度):https://jimeng.jianying.com/aitool/video/generate 。支持文生视频、图生视频、视频生视频,支持图生视频首尾帧功能,提示词使用中文、英文都可以。文生视频支持正向提示词、运镜控制、运动强度控制、帧数选择,支持多种尺寸,默认生成 3s 的视频。 4. 可灵(免费):https://klingai.kuaishou.com/ 。支持文生视频、图生视频,支持图生视频首尾帧功能,提示词可使用中文。文生视频支持正向提示词、反向提示词、运镜控制、时长选择(5s、10s),支持多种尺寸,默认生成 5s 的视频。 此外,还有一些国内外提供文生视频功能的产品推荐: 1. Pika:一款出色的文本生成视频 AI 工具,擅长动画制作,并支持视频编辑。 2. SVD:如果熟悉 Stable Diffusion,可以直接安装这款最新的插件,在图片基础上直接生成视频。这是由 Stability AI 开源的 video model。 3. Runway:老牌 AI 视频生成工具,提供实时涂抹修改视频的功能,但收费。 4. Kaiber:视频转视频 AI,能够将原视频转换成各种风格的视频。 5. Sora:由 OpenAI 开发,可以生成长达 1 分钟以上的视频。 更多的文生视频的网站可以查看:https://www.waytoagi.com/category/38 。请注意,内容由 AI 大模型生成,请仔细甄别。
2024-12-20
中国大陆能用的文生视频免费ai工具
以下是一些在中国大陆可用的文生视频免费 AI 工具: Hidreamai(国内,有免费额度):https://hidreamai.com//AiVideo 。支持文生视频、图生视频,提示词使用中文、英文都可以,文生视频支持正向提示词、反向提示词、运镜控制、运动强度控制,支持多尺寸,可以生成 5s 和 15s 的视频。 ETNA(国内):https://etna.7volcanoes.com/ 。Etna 是一款由七火山科技开发的文生视频 AI 模型,它可以根据用户简短的文本描述生成相应的视频内容。生成的视频长度在 8 15 秒,画质可达到 4K,最高 38402160,画面细腻逼真,帧率 60fps,文生视频支持中文,时空理解。 Dreamina(国内内测,有免费额度):https://jimeng.jianying.com/aitool/video/generate 。支持文生视频、图生视频,视频生视频,支持图生视频首尾帧功能,提示词使用中文、英文都可以,文生视频支持正向提示词、运镜控制、运动强度控制、帧数选择,支持多种尺寸,默认生成 3s 的视频。 可灵(免费):https://klingai.kuaishou.com/ 。支持文生视频、图生视频,支持图生视频首尾帧功能,提示词可使用中文,文生视频支持正向提示词、反向提示词、运镜控制、时长选择(5s、10s),支持多种尺寸,默认生成 5s 的视频。 此外,还有一些国内外提供文生视频功能的产品,如: Pika:擅长动画制作,并支持视频编辑。 SVD:如果熟悉 Stable Diffusion,可以直接安装这款最新的插件,在图片基础上直接生成视频。这是由 Stability AI 开源的 video model。 Runway:老牌 AI 视频生成工具,提供实时涂抹修改视频的功能,但收费。 Kaiber:视频转视频 AI,能够将原视频转换成各种风格的视频。 Sora:由 OpenAI 开发,可以生成长达 1 分钟以上的视频。 更多的文生视频的网站可以查看这里:https://www.waytoagi.com/category/38 。请注意,以上内容由 AI 大模型生成,请仔细甄别。
2024-12-20
中国大陆能用的文生视频免费ai工具
以下是一些中国大陆能用的文生视频免费 AI 工具: Hidreamai(国内,有免费额度):https://hidreamai.com//AiVideo 。支持文生视频、图生视频,提示词使用中文、英文都可以,文生视频支持正向提示词、反向提示词、运镜控制、运动强度控制,支持多尺寸,可以生成 5s 和 15s 的视频。 ETNA(国内):https://etna.7volcanoes.com/ 。Etna 是一款由七火山科技开发的文生视频 AI 模型,它可以根据用户简短的文本描述生成相应的视频内容。生成的视频长度在 8 15 秒,画质可达到 4K,最高 38402160,画面细腻逼真,帧率 60fps,文生视频支持中文,时空理解。 Dreamina(国内内测,有免费额度):https://jimeng.jianying.com/aitool/video/generate 。支持文生视频、图生视频、视频生视频,支持图生视频首尾帧功能,提示词使用中文、英文都可以,文生视频支持正向提示词、运镜控制、运动强度控制、帧数选择,支持多种尺寸,默认生成 3s 的视频。 可灵(免费):https://klingai.kuaishou.com/ 。支持文生视频、图生视频,支持图生视频首尾帧功能,提示词可使用中文,文生视频支持正向提示词、反向提示词、运镜控制、时长选择(5s、10s),支持多种尺寸,默认生成 5s 的视频。 此外,还有一些国内外提供文生视频功能的产品推荐: Pika:擅长动画制作,并支持视频编辑。 SVD:如果熟悉 Stable Diffusion,可以直接安装这款最新的插件,在图片基础上直接生成视频。这是由 Stability AI 开源的 video model。 Runway:老牌 AI 视频生成工具,提供实时涂抹修改视频的功能,但需要收费。 Kaiber:视频转视频 AI,能够将原视频转换成各种风格的视频。 Sora:由 OpenAI 开发,可以生成长达 1 分钟以上的视频。 更多的文生视频的网站可以查看这里:https://www.waytoagi.com/category/38 。请注意,以上内容由 AI 大模型生成,请仔细甄别。
2024-12-17
国内有什么能用ai批量生成短视频的产品吗
以下是一些国内可用的能批量生成短视频的 AI 产品: 1. 扣子(Coze):可以通过搭建工作流来直接生成文字和图片,实现批量生产。 2. Pika:出色的文本生成视频 AI 工具,擅长动画制作,并支持视频编辑。 3. SVD:如果熟悉 Stable Diffusion,可以安装其最新插件,在图片基础上直接生成视频。 需要注意的是,不同的工具适合不同的使用场景和需求,您可以根据自身具体情况进行选择。更多的文生视频网站可查看:
2024-12-16
如何用AI制作技术与产品交流会海报
以下是关于如何用 AI 制作技术与产品交流会海报的详细指导: 一、需求场景 在以下情况下,我们可能需要制作这样的海报: 1. 当您想在朋友圈、微博、Twitter 等平台发布内容时,纯文字可能无法获得较多点赞。 2. 百度图片等来源的图质量差、容易撞图。 3. 相册中的照片可能不太符合需求。 二、大致流程 1. 主题与文案 确定海报主题,可借助 ChatGPT 等文本类 AI 工具协助完成文案。 2. 风格与布局 选择想要的风格意向,背景不一定空白,可根据文案和风格灵活调整画面布局。 3. 生成与筛选 使用无界 AI,输入关键词,生成并挑选一张满意的海报底图。 4. 配文与排版 将上述素材进行合理排版,得到成品。排版同样可以参考 AIGC 海报成果。 三、可用的 AI 海报生成工具 以下是一些推荐的 AI 海报生成工具: 1. Canva(可画):https://www.canva.cn/ 这是一个非常受欢迎的在线设计工具,提供大量模板和设计元素,用户可通过简单拖放操作创建海报,其 AI 功能可帮助选择合适的颜色搭配和字体样式。 2. 稿定设计:https://www.gaoding.com/ 稿定智能设计工具采用先进的人工智能技术,自动分析和生成设计方案,稍作调整即可完成完美设计。 3. VistaCreate:https://create.vista.com/ 这是一个简单易用的设计平台,提供大量设计模板和元素,用户可使用 AI 工具创建个性化海报,其智能建议功能可帮助快速找到合适的设计元素。 4. Microsoft Designer:https://designer.microsoft.com/ 通过简单拖放界面,用户可快速创建演示文稿、社交媒体帖子和其他视觉内容,还集成了丰富的模板库和自动图像编辑功能,如智能布局和文字优化,大大简化了设计流程。 四、图生图技巧 1. 首先,准备一张真实照片作为样图。 2. 然后,在无界 AI 找到图生图功能。 3. 别忘了,图生图也要加关键词。如果要改变画面内容(比如父亲头发颜色),“二次元强度”改为 70%。左图为反向示例:啥也没写,所以 daddy 的发型被识别成了卤蛋。右图为正向示例:只添加了简单的人物关键词,父亲和女儿。可根据出图效果,进一步修改或增加提示词作为约束。例如,父亲的白发难以识别,就在人物关键词的基础上,增添“父亲一头白发”等修饰词。
2024-10-28
我想练口语,能推荐一个免费的英语口语交流AI?
以下为您推荐一些免费的英语口语交流 AI 工具: 1. Duolingo:这是一款免费的语言学习应用程序,使用游戏化方法让学习变得有趣,提供多种英语课程,适合不同年龄段的学习者。 2. LingoDeer:通过游戏和互动活动教孩子英语,提供各种课程,还有家长仪表板可跟踪孩子进度和设置学习目标。 3. Busuu:流行的语言学习应用,提供英语及其他多种语言课程,教学方法多样,有社区功能方便孩子与他人练习口语。 4. Memrise:使用抽认卡和游戏教孩子英语,涵盖多种课程,有社交功能可与亲友一起学习。 在选择工具时,您需要考虑以下因素: 1. 年龄是否合适:确保应用程序适合使用者的年龄。 2. 是否有趣且引人入胜:有趣的应用程序能让孩子更愿意坚持使用。 3. 是否有效:可通过阅读评论和研究来判断其教学效果。 4. 是否负担得起:有些应用免费,有些则需付费订阅,要考虑预算。 您可以尝试不同的工具,看看哪个最适合您。同时,结合实际对话练习,如参与语言交换、加入学习小组或与母语为英语的人交流,定期复习和持续实践对于提高口语能力也非常重要。
2024-08-28