Navigate to WaytoAGI Wiki →
Home/Question List/Question Detail

请推荐几个国内能用的支持多模态交流的app

Answer

以下为您推荐几个国内能用的支持多模态交流的 APP 及相关模型:

  1. 百度(文心一言):https://wenxin.baidu.com
  2. 抖音(云雀大模型):https://www.doubao.com
  3. 智谱 AI(GLM 大模型):https://chatglm.cn
  4. 中科院(紫东太初大模型):https://xihe.mindspore.cn
  5. 百川智能(百川大模型):https://www.baichuan-ai.com/
  6. 商汤(日日新大模型):https://www.sensetime.com/
  7. MiniMax(ABAB 大模型):https://api.minimax.chat
  8. 上海人工智能实验室(书生通用大模型):https://intern-ai.org.cn

此外,智谱·AI 开源的多模态模型有:

  1. CogAgent-18B:基于 CogVLM-17B 改进的开源视觉语言模型。拥有 110 亿视觉参数和 70 亿语言参数,支持 1120*1120 分辨率的图像理解,具备 GUI 图像的 Agent 能力。
  2. CogVLM-17B:强大的开源视觉语言模型(VLM),在多模态权威学术榜单上综合成绩优异。
  3. Visualglm-6B:开源的支持图像、中文和英文的多模态对话语言模型。
Content generated by AI large model, please carefully verify (powered by aily)

References

生成式人工智能领域的 4 个突破点

尽管聊天界面对许多用户来说令人兴奋和直观,但人类听和说语言的频率可能与写或读语言的频率相当或更高。正如Amodei所指出的:“AI系统能做的事情是有限的,因为并不是所有的事情都是文本。”具备多模态功能的模型能够无缝地处理和生成多种音频或视觉格式的内容,将这种交互扩展到超越语言的领域。像GPT-4、Character.AI和Meta的ImageBind这样的模型已经能够处理和生成图像、音频和其他模态,但它们在这方面的能力还比较基础,尽管进展迅速。用Gomez的话说,我们的模型在字面上今天是盲的,这一点需要改变。我们构建了很多假设用户能够看到的图形用户界面(GUI)。随着LLMs不断进化,更好地理解和与多种模态交互,它们将能够使用依赖GUI的现有应用程序,比如浏览器。它们还可以为消费者提供更加引人入胜、连贯和全面的体验,使用户能够超越聊天界面进行互动。Shazeer指出:“多模态模型的许多出色整合可以使事物更具吸引力和与用户更紧密相连。”他还说:“我认为,目前大部分核心智能来自文本,但音频和视频可以使这些事物更有趣。”从与AI导师进行视频聊天到与AI合作迭代和编写电视剧剧本,多模态有潜力改变娱乐、学习与发展以及跨各种消费者和企业用例的内容生成。多模态与工具使用密切相关。尽管LLMs最初可能通过API与外部软件进行连接,但多模态将使LLMs能够使用设计给人类使用但没有自定义集成的工具,例如传统的企业资源计划(ERP)系统、桌面应用程序、医疗设备或制造机械。在这方面,我们已经看到了令人兴奋的进展:例如,谷歌的Med-PaLM-2模型可以合成乳腺摄影和X射线图像。而且从长远来看,多模态(特别是与计算机视觉的集成)可以通过机器人、自动驾驶车辆和其他需要与物理世界实时交互的应用程序,将LLMs扩展到我们自己的物理现实中。

8月正式上线的国内大模型

5⃣️五家北京企业机构:百度(文心一言)https://wenxin.baidu.com抖音(云雀大模型)https://www.doubao.com智谱AI(GLM大模型)https://chatglm.cn中科院(紫东太初大模型)https://xihe.mindspore.cn百川智能(百川大模型)https://www.baichuan-ai.com/3⃣️三家上海企业机构:商汤(日日新大模型)https://www.sensetime.com/MiniMax(ABAB大模型)https://api.minimax.chat上海人工智能实验室(书生通用大模型)https://intern-ai.org.cn今天这8个大模型,在聊天状态下——能生成Markdown格式的:智谱清言、商量Sensechat、MiniMax目前不能进行自然语言交流的:昇思(可以对文本进行是否由AI生成的检测,类似论文查重,准确度不错)、书生受限制使用:MiniMax(无法对生成的文本进行复制输出,且只有15元的预充值额度进行体验,完成企业认证后可以进行充值)特色功能:昇思——生图,MiniMax——语音合成阿里通义千问、360智脑、讯飞星火等均不在首批获批名单中,广东省2家和其他省市1家也将陆续开放据悉,广东地区获批公司分别为华为、腾讯,科大讯飞系其他地区获批产品

智谱·AI 开源模型列表

,我们推出了具有视觉和语言双模态的模型。|模型|介绍|代码链接|模型下载||-|-|-|-||CogAgent-18B|基于CogVLM-17B改进的开源视觉语言模型。CogAgent-18B拥有110亿视觉参数和70亿语言参数,支持1120*1120分辨率的图像理解,在CogVLM功能的基础上,具备GUI图像的Agent能力。|[CogVLM & CogAgent](https://github.com/THUDM/CogVLM)|[Huggingface](https://huggingface.co/THUDM/CogVLM)|[魔搭社区](https://modelscope.cn/models/ZhipuAI/cogagent-chat/summary)|[Swanhub](https://swanhub.co/ZhipuAI/cogagent-chat-hf)|始智社区||CogVLM-17B|强大的开源视觉语言模型(VLM)。基于对视觉和语言信息之间融合的理解,CogVLM可以在不牺牲任何NLP任务性能的情况下,实现视觉语言特征的深度融合。我们训练的CogVLM-17B是目前多模态权威学术榜单上综合成绩第一的模型,在14个数据集上取得了state-of-the-art或者第二名的成绩。||[Huggingface](https://huggingface.co/THUDM/cogvlm-chat-hf)|[魔搭社区](https://modelscope.cn/models/AI-ModelScope/cogvlm-chat/summary)||Visualglm-6B|VisualGLM-6B是一个开源的,支持图像、中文和英文的多模态对话语言模型,语言模型基于[ChatGLM-6B](https://github.com/THUDM/ChatGLM-6B),具有62亿参数;图像部分通过训练[BLIP2-Qformer](https://arxiv.org/abs/2301.12597)构建起视觉模型与语言模型的桥梁,整体模型共78亿参数。|[VisuaGLM](https://github.com/THUDM/VisualGLM-6B)|[Huggingface](https://huggingface.co/THUDM/visualglm-6b)|[魔搭社区](https://modelscope.cn/models/ZhipuAI/visualglm-6b/summary)|

Others are asking
请起草一份小白学习AI应用(包括app和网站)的入门到精通的教程,提供学习大纲,包括从基本玩法到高级卡bug玩法,常见红海赛道,常见问题,注意事项,常见误区,避坑指南等等
以下是一份小白学习 AI 应用(包括 app 和网站)的入门到精通的教程,涵盖学习大纲、常见问题等方面: 一、学习大纲 1. 了解 AI 基本概念 阅读相关资料,熟悉 AI 的术语和基础概念,包括人工智能的定义、主要分支(机器学习、深度学习、自然语言处理等)及它们之间的联系。 浏览入门文章,了解 AI 的历史、当前应用和未来发展趋势。 2. 开始 AI 学习之旅 参考「」中的初学者课程,了解生成式 AI 等基础知识,推荐李宏毅老师的课程。 通过在线教育平台(如 Coursera、edX、Udacity)按照自己的节奏学习,并争取获得证书。 3. 选择感兴趣的模块深入学习 AI 领域广泛,包括图像、音乐、视频等,根据自身兴趣选择特定模块深入学习。 掌握提示词技巧,因其上手容易且实用。 4. 实践和尝试 理论学习后进行实践,巩固知识,尝试使用各种产品创作作品。 分享实践后的经验和成果。 5. 体验 AI 产品 与 ChatGPT、Kimi Chat、智谱、文心一言等 AI 聊天机器人互动,了解其工作原理和交互方式,获得实际应用体验。 二、常见红海赛道 目前,AI 在自然语言处理、图像识别、智能推荐等领域竞争较为激烈。 三、常见问题 1. 对复杂应用的需求理解不准确,导致产品出错。 2. 技术组件的配置和整合可能遇到困难。 四、注意事项 1. 注重基础知识的学习,打牢根基。 2. 实践过程中要耐心,遇到问题多尝试解决。 五、常见误区 1. 认为 AI 学习短期内就能精通,忽略了长期积累和实践的重要性。 2. 过度依赖现成的模型和工具,缺乏对原理的深入理解。 六、避坑指南 1. 在选择学习资源时,要注意其权威性和适用性。 2. 开发 AI 应用时,要充分考虑用户需求和实际场景,避免盲目跟风。 希望以上内容对您有所帮助,祝您在 AI 学习的道路上取得成功!
2025-03-05
我是一个新手小白,帮构思一下关于如何学习AI的PPT .要求有包括豆包,AI数字人,KIMI,灵犀,如影,剪映,即梦等APP学习技术。都带上APP网址
以下是为您构思的关于如何学习 AI 的 PPT 大纲: 幻灯片 1:封面 标题:如何学习 AI 幻灯片 2:目录 1. AI 辅助 PPT 的原理和作用 2. 几款 PPT 生成工具(网站) 3. 相关 APP 介绍 幻灯片 3:AI 辅助 PPT 的原理和作用 1. 减轻排版工作的压力 2. 生成打底的内容,减轻人写内容的工作 3. 文章生成 PPT,让 AI 帮忙摘要内容,生成大纲列表 4. 主题生成 PPT,让 AI 根据主题扩充成大纲列表,乃至具体内容 5. 在特定场景下不用改直接用,如学生快速为小组展示配 PPT 幻灯片 4:AI 辅助 PPT 的流程 1. 用户输入 2. AI 输出 3. 排版 网站把 AI 输出的文本丢给 LLM,让它根据内容,在已有的 UI 组件中选择更适合的组件。按时间线,每页 PPT 的文字,选出整个 PPT 中,每一页的 UI 组件。有的网站,如 tome、gamma,配图也是由 GenAI 根据页面内容生成的。呈现 AI 生成的 PPT 结果,用户不满意可以自行选择模版 幻灯片 5:几款 PPT 生成工具(网站) 1. 讯飞智文:https://zhiwen.xfyun.cn/ (免费引导好) 2. Mindshow.fun :http://Mindshow.fun (Markdown 导入) 3. kimi.ai :http://kimi.ai (选 PPT 助手暂时免费效果好) 4. Tome.app :http://Tome.app (AI 配图效果好) 5. Chatppt.com :http://Chatppt.com (自动化程度高) 6. 百度文库:https://wenku.baidu.com (付费质量好) 幻灯片 6:相关 APP 介绍 1. 豆包 2. AI 数字人 3. KIMI 4. 灵犀 5. 如影 6. 剪映(图文成片,只需提供文案,自动配图配音) 7. 即梦 希望以上内容对您有所帮助!
2025-03-05
你这个网站是做ai ,app的归纳推荐吗
我们这个网站提供了多种关于 AI 及相关应用的归纳推荐,包括以下方面: 1. 2023 年历史更新(归档):重新整理了网站与 APP 的链接,将功能加入标题以便快速了解用途;推荐了关于视频 AI 工具的亲测排序文章;补充了 Whiteboard 浏览器插件,可将视频转入类似白板的新界面进行操作;添加了关于 GPT4 在地理知识方面能力的论文。 2. 一个希望有点意思的 AI 分享(三):介绍了人和 AI 协同的三种方式,即嵌入式模式、协作模式和智能体模式,目前协作模式最常用。还提到了 ChatGPT 能完成的任务以及个人常用任务对应的国内外 AI 产品,同时指出 AI 不仅是个人的“外挂”,也会给公司带来变革。 3. AIGC Weekly01 产品推荐:包括 Scale AI 发布的视觉 AI 创意套件、生成人类全身照片的工具、绘制头像的工具、将播客变成短视频的工具、Stable Diffusion v 2.0 web UI、创建网站和 app 插画的工具、总结和归纳学习内容的工具,以及 Google 与医疗技术公司合作开发的人工智能乳腺癌筛查工具。 总之,网站涵盖了丰富的 AI 技术、产品、教程和案例等信息,并在不断更新。
2025-03-03
文生音乐的app
以下是一些关于文生音乐的 App 相关信息: 目前龙头的文生音乐软件如 Suno、Uido 等,对于简单的广告 BGM、游戏配乐等使用场景有较大价值,但在音乐创作上仍有不足。例如 Suno 除歌词部分外,音乐风格提示词只有 120 个字符,能描述和理解的关键词有限,创作丰富度也有限,旋律较单调。 Colab 上有一个增强音质的脚本,但不如现有的音频处理工具,调参较难。 一些相关工具和网站: Audiobox:https://audiobox.metademolab.com/ ,是 Meta 的新音频生成基础研究模型,可结合语音输入和自然语言文本提示生成语音和声音效果。 Stable Audio:https://www.stableaudio.com/ ,可使用对应的 GPTs 生成提示词:https://chat.openai.com/g/gjAr0hpLsLstableaudiogpt 。 图像生成配乐模型(MAGNet,AudioLDM,audiogen):https://huggingface.co/spaces/fffiloni/Image2SFXcomparison ,audiogen 可文生音乐、文生拟音,在 discord 上使用但效果不稳定:https://discord.gg/wUuF5Uh2pR 。 音乐生成使用的文生音乐模型 Suno 相关教程: 在自定义模式(Custom Mode)下,有音乐风格(Style of Music)与歌词(Lyrics)两个主要输入窗口,音乐风格需填写多个描述整首音乐风格和感觉的 tag 进行分隔,可识别的 tag 包括音乐类型/流派、人声/乐器、情绪/氛围、节奏、场景、混响、其他和声/音效等。
2025-03-01
如何用AI开发APP
以下是用 AI 开发 APP 的步骤和建议: 1. 基础小任务 让 AI 按照最佳实践为您写一个 say hello 的示例程序,并解释每个文件的作用及程序运行的逻辑,以学会必备的调试技能。 对于特定需求,如开发 chrome 插件,可要求 AI 生成包含典型文件和功能的简单示范项目,并讲解每个文件的作用和程序运行的逻辑。 如果使用 o1mini,可在提示词最后添加“请生成 create.sh 脚本,运行脚本就能直接创建插件所需要的所有文件。请教我如何运行脚本。”(Windows 机器则是 create.cmd),勤勉的 o1mini 会生成代码并给出提示,方便一次性生成多个目录和文件。 2. 明确项目需求 通过与 AI 的对话逐步明确项目需求。 让 AI 像高级且懂技术的产品经理一样向您提问,帮助梳理产品功能,尤其注意涉及技术方案选择的关键点,一问一答,由全局到细节逐步梳理。 让 AI 帮助梳理出产品需求文档,在后续开发中每次新起聊天时将文档发给 AI 并告知在做的功能点。 3. 逐步学习和开发 按照项目规划,学习一个 POC,并将其应用到大项目中,再学一个 POC,再运用。 遇到错误时,复制错误信息和相关代码给 AI 让其找错误并修复。对于可识图的 claude 或 GPT4o,截图、错误信息和代码三件套会很有用。 当 AI 给出错误方案时,可找文档(让 GPT 提供文档链接或问 perplexity)或在 stackoverflow 上找答案(注意回答和评论的日期),然后将其提供给 AI 让其基于这些信息修复,此时它给的指引会更正确且详细。 如有可能,找一位老师傅随时提供支援。 需要注意的是,从去年三月 GPT4 发布会上一个由手绘草图直接生成网站的 demo 惊艳众人开始,很多人认为程序员工种已进入倒计时,但现实依旧骨感。真正的应用有复杂的特殊需求,代码量也会超出 AI 单次吞吐量,AI 无法直接搞定。对于纯小白,如果需求远比 AI 直出的内容复杂,无法一次性直出,那就需要耐下性子,在 AI 的帮助下一步一步来,并在这个过程中学会一点点编程。
2025-02-28
我想时刻关注Deepseek目前在电商行业应用落地的场景的信息及对应的应用APP、小程序等,可以通过什么渠道第一时间获取
目前关于 Deepseek 在电商行业应用落地的场景信息以及对应的应用 APP、小程序等,您可以通过以下渠道第一时间获取: 1. 关注 Deepseek 官方网站的动态发布和通知。 2. 订阅 Deepseek 官方的社交媒体账号,如微信公众号、微博等,获取最新消息。 3. 加入相关的电商行业论坛或社区,与其他从业者交流,获取相关信息。 4. 关注电商行业的权威媒体和资讯平台,可能会有相关报道。
2025-02-26
多模态是什么
多模态是指多数据类型交互,能够提供更接近人类感知的场景。大模型对应的模态包括文本、图像、音频、视频等。 随着生成式 AI 和大模型的发展,我们逐渐进入多模态灵活转换的新时代,即利用 AI 实现文本、图像、音频、视频及其他更多模态之间的互相理解和相互转换,这一变革依靠一系列革新性的算法。 在感知不同模态数据时,AI 不再局限于传统的单一模态处理方式,而是借助高维向量空间来理解数据,将图像或文字“压缩”成能够捕捉深层关系的抽象向量。 Gemini 模型本身就是多模态的,展示了无缝结合跨模态的能力,在识别输入细节、聚合上下文以及在不同模态上应用等方面表现出强大性能。
2025-03-02
多模态大模型 原理是什么?
多模态大模型的原理如下: 基于大圆模型,能够识别页面组件结构和位置绝对值信息,并与组件、文本映射。由解码器、backbone、Generator 等部件组成,左侧进行多模态理解,右侧生成输出。 典型的多模态大模型架构包括一个编码器、一个连接器和一个 LLM,还可选择性地在 LLM 上附加一个生成器以生成除文本之外的更多模态。编码器接收图像、音频或视频并输出特征,这些特征经由连接器处理,使 LLM 能更好地理解。连接器大致可分为基于投影的、基于查询的和基于融合的三类,前两种类型采用词元级融合,将特征处理成词元,与文本词元一起发送,最后一种类型则在 LLM 内部实现特征级融合。
2025-02-27
多模态搜索
以下是关于多模态搜索的相关信息: ThinkAny 搜索引擎: 产品特性: 支持多模态检索(MultiModeSearch),可检索链接、图片、视频等模态内容。 支持多维度输出(MultiFormOutput),能以对话、大纲、思维导图、时间线等形式输出搜索问答内容。 支持多信源检索(MultiRetrieveSource),可检索 Google、Wikipedia、Github 等信息源的内容。 开源了 API 项目 ragsearch,实现联网检索功能,并对检索结果进行重排和获取详情内容。 长期发展方向是走 AI Search+Anything 的平台化路线,允许用户挂载自定义信息源、创建自定义智能体、实现自定义的流程编排。 其他推荐的 AI 搜索引擎: 秘塔 AI 搜索:提供多模式搜索、无广告干扰、结构化展示和信息聚合等功能。 Perplexity:聊天机器人式搜索引擎,用自然语言提问,从各种来源收集信息并给出答案。 360AI 搜索:通过 AI 分析问题,生成清晰、有理的答案,并支持增强模式和智能排序。 天工 AI 搜索:采用生成式搜索技术,支持自然语言交互和深度追问,未来将支持图像、语音等多模态搜索。 Flowith:创新的 AI 交互式搜索和对话工具,基于节点式交互方式,支持多种 AI 模型和图像生成技术,有插件系统和社区功能。 Devv:面向程序员的 AI 搜索引擎,提供编程、软件开发和人工智能等领域的专业建议和指导。 Phind:专为开发者设计的 AI 搜索引擎,利用大型语言模型提供相关搜索结果和动态答案,擅长处理编程和技术问题。 提升 AI 搜索准确度: 在提示词的设计和调试方面需要下功夫,很多环节都需用到提示词,如请求大模型判断是否需要联网、改写问题、提取关键词、回答问题、标注引用来源、以思维导图形式输出答案、做 Function Calling 判断使用的 Agents 等。 多模态检索是提升信息密度的重要措施,随着 5G 发展,互联网信息多元化,图片、视频、音频比重增大,多模态检索为获取不同形式信息再聚合起来作为引用参考。但多模态检索实现困难,现阶段可在谷歌搜索基础上,先使用其图片/视频检索 API 拿到匹配内容,再通过 OCR 图片识别、音视频转录等方法拿到多模态信息的文本内容。
2025-02-25
有什么支持多模态输入和输出的C端产品
以下是一些支持多模态输入和输出的 C 端产品: 1. 宝玉日报:支持文本或音频输入,输出可为文本、音频或混合数据。价格方面,1 小时音频输入成本为$12.8,输出为$25.6。相关链接: 2. Imagic 发布的 AI 驱动的无代码应用构建工具:支持多模态输入输出,包括文本、图片、3D 和视频。创建出来的应用立刻就能使用和发布。相关链接:https://get.imagica.ai/s 3. 面壁智能推出的 MiniCPMo 2.6:具有多模态能力,如 OCR、视频理解、连续视频与音频流处理,实时直播与多模态上下文理解,支持 30 多种语言的文本和语音输入输出。资源链接: 4. 世界首个支持手持产品展示的 AI 数字人 Product Avatar:上传产品图片,数字人即可手持产品进行口播展示,支持多语言,覆盖 28 种语言,可快速生成产品宣传视频。相关链接:
2025-02-21
多模态的AI工具有哪些
以下是一些多模态的 AI 工具: GPT4VAct:这是一个多模态 AI 助手,能够模拟人类通过鼠标和键盘进行网页浏览。它可以识别网页上的元素并理解其功能,目的是自动完成一些人工操作任务以提高效率。主要特点包括有限的视觉处理能力、自动标记、鼠标和键盘操作等,但目前存在一些功能暂不支持。 Sora:是第一个能够根据人类指令生成长达一分钟视频的模型,标志着在生成式 AI 研究和开发中的重大突破。 DiT:能将视频分解为一帧帧图像并逐帧去噪生成流畅连贯的视频,不仅能生成高质量逐帧图像,还能在时间维度上保持一致性。 Topview.ai:是一款面向海外市场的多模态转换工具,作为 AI 驱动的营销视频生成工具,可自动实现模态转换,帮助社交媒体达人将素材一键转换为爆款商业短视频。
2025-02-18
大语言模型、多模态、数据、算力、算法、预训练、微调、RAG、自注意力机制、transformer、token、神经网络、向量、scaling law这些内容的含义
以下是对您所提到的这些内容含义的解释: 大语言模型:是一种基于大量文本数据进行训练的语言处理模型,其工作原理包括训练数据、算力、模型参数等。在训练数据一致的情况下,模型参数越大能力越强。 多模态:指能够处理多种不同类型的数据模态,如文本、图像、音频等,并将它们融合进行理解和生成。 数据:是大语言模型训练和应用的基础,包括各种文本、图像、音频等信息。 算力:指用于支持大语言模型训练和运行的计算能力。 算法:是大语言模型实现各种功能的数学和逻辑方法。 预训练:在大语言模型中,先在大规模数据上进行无特定任务的初步训练。 微调:基于通用大模型,针对特定领域任务提供数据进行学习和调整,以适应特定领域的需求。 RAG:检索增强生成,通过引用外部数据源为模型做数据补充,适用于动态知识更新需求高的任务。其工作流程包括检索、数据库索引、数据索引、分块、嵌入和创建索引、增强、生成等步骤。 自注意力机制:是 Transformer 架构中的重要部分,能理解上下文和文本关联,通过不断检索和匹配来寻找依赖关系,处理词和词之间的位置组合,预测下一个词的概率。 Transformer:是大语言模型训练架构,用于翻译等任务,具备自注意力机制。 Token:在自然语言处理中,是文本的基本单位。 神经网络:是大语言模型的基础架构,模拟人脑神经元的连接和信息处理方式。 向量:在大语言模型中,用于表示文本等数据的数学形式。 Scaling Law:关于大语言模型规模和性能之间关系的规律。
2025-02-18
推荐几个能用于科研的ai
以下是为您推荐的用于科研的 AI 工具: 1. Scite.ai:这是一个为研究人员、学者和行业专业人员打造的创新平台,能增强对科学文献的洞察,提供引用声明搜索、自定义仪表板和参考检查等工具,简化学术工作。网址:https://scite.ai/ 2. Scholarcy:一款科研神器,主要服务于做科研、学术、写论文的人群。它可以从文档中提取结构化数据,并通过知识归纳引擎生成文章概要,包含关键概念、摘要、学术亮点、学术总结、比较分析、局限等板块的内容。网址:https://www.scholarcy.com/ 3. ChatGPT:强大的自然语言处理模型,能提供有关医学课题等方面的修改意见。您可以向它提供文章,并提出问题和需求。网址:https://chat.openai.com/ 这些工具能从不同角度审视和改进您的科研课题,您可根据具体需求选择合适的工具尝试。请注意,内容由 AI 大模型生成,请仔细甄别。
2025-03-05
如何能用到满血deepseek
以下是使用满血 DeepSeek 的方法: 1. 阿里云百炼满血版 DeepSeek: 开通满血版 R1 模型:在模型广场找到 DeepSeekR1 并授权。页面上有免费的 100 万额度及已使用量,每人免费送 100 万额度,过期浪费。此模型是阿里云自主部署且经推理优化,性能强于多数市面上的满血版本地部署。对比 DeepSeek 官网的 API,在同样价格下提供更稳定的模型服务。用完还有免费的蒸馏版 R1 模型,也是 100 万 token。这些模型可在“首页”或“直接体验”直接使用,也可进行模型效果对比或用 API 调用,如 chatbox 直接使用。 百炼应用开发:新增模板,可从模板学习应用搭建。 联网搜索:像知识库检索一样简单方便,直接配置可用,结合 Deepseekr1 更强大,如搜索天气时会多方验证。 新鲜的动态 few shot:小技巧,可用于对模型某些做不好、易出幻觉的任务通过 prompt training 强行修正。 工作流:用工作流让不同模型在同一任务创作。 阿里云百炼地址:https://bailian.console.aliyun.com/ 2. 字节火山 DeepSeek: 获取 DeepSeekR1 满血版密钥: 注册并登录火山引擎,点击立即体验进入控制台。https://zjsms.com/iP5QRuGW/ (火山引擎是字节跳动旗下的云服务平台) 创建一个接入点,点击在线推理创建推理接入点。 为接入点命名为 DeepSeekR1。若有提示“该模型未开通,开通后可创建推理接入点”,点击“立即开通”,勾选全部模型和协议一路开通。若无提示则直接到第 5 步点击确认接入。 确认无误后点击“确认接入”按钮。 自动返回创建页面,复制接入点的 ID 保存。 点击【API 调用】按钮,复制 API Key 并保存。若没有 API key 则点击【创建 API key】。 火山引擎的优势:价格感人,默认提供高达 500 万 TPM 的初始限流,推理速度处于第一梯队。结合相关教程可打造专属 AI 助理。
2025-03-04
豆包、DeepSeek、ChatGPT分别有些什么功能用于解决用户整理对话的需求
以下是豆包、DeepSeek、ChatGPT 在解决用户整理对话需求方面的功能: ChatGPT: 1. 内容生成:可以生成文章、故事、诗歌、歌词等内容。 2. 聊天机器人:作为聊天机器人的后端,提供自然的对话体验。 3. 问答系统:为用户提供准确的答案。 4. 文本摘要:生成文本的摘要或概述。 5. 机器翻译:在这方面有不错的表现。 6. 群聊总结:能够对群聊内容进行总结。 7. 代码生成:生成代码片段,帮助开发者解决编程问题。 8. 教育:帮助学生解答问题或提供学习材料。 9. 浏览器插件:如 webpilot 。 10. PDF 对话:通过相关网站实现与 PDF 的对话。 11. PPT 生成:协助高效制作 PPT 。 12. 音视频提取总结:通过特定网站进行总结。 13. 播客总结:通过特定网站完成总结。 14. 生成脑图:通过相关网站生成。 关于豆包和 DeepSeek 在解决用户整理对话需求方面的功能,上述内容中未提及。
2025-02-13
我做餐饮服务相关的投标文件,能用到哪些ai工具或平台能让我提高工作效率
以下是一些在制作餐饮服务投标文件时可能提高工作效率的 AI 工具和平台: 1. AutogenAI:伦敦初创公司开发的基于生成型人工智能的工具,声称可以帮助企业撰写更强的提案,提高中标率。能将撰写强大提案的过程加快 800%,同时降低 10%的采购成本。 2. Synthesia:允许用户创建由 AI 生成的高质量视频,包括数字人视频。可用于制作营销视频、产品演示等。 3. HeyGen:基于云的 AI 视频制作平台,用户可从 100 多个 AI 头像库中选择,并通过输入文本生成数字人视频。适合制作营销视频和虚拟主持人等。 4. Jasper AI:人工智能写作助手,可用于生成营销文案、博客内容、电子邮件等。提供多种语气和风格选择,写作质量较高。 5. Copy.ai:AI 营销文案生成工具,可快速生成广告文案、社交媒体帖子、电子邮件等营销内容。有免费和付费两种计划。 6. Writesonic:AI 写作助手,专注于营销内容创作,如博客文章、产品描述、视频脚本等。提供多种语气和行业定制选项。 您还可以查看 WaytoAGI 网站(https://www.waytoagi.com/sites?tag=8)获取更多相关信息。但请注意,内容由 AI 大模型生成,请仔细甄别。
2025-02-12
我是一个AI小白,想系统学习AI,实现的目标是成为AI领域小能手,如果能用于变现则更好,我需要从什么开始学习,周期大概是多少?适合做哪些变现的项目呢
对于您这样的 AI 小白,想要系统学习 AI 并实现成为领域小能手甚至变现的目标,以下是一些建议: 1. 学习模式:可以采用输入→模仿→自发创造的模式。先广泛输入知识,然后进行模仿,最后尝试自发创造。 2. 学习内容:去 waytoAGI 社区发现自己感兴趣的 AI 领域,学习最新的内容。但要注意,一些旧的学习材料可能已经不适用。 3. 时间安排:学习时间不必每天依次进行,可以在有空的时候学习。 4. 学习状态:保持良好的学习状态,有意愿和动力去学。 5. 费用方面:学习资源大多是免费开源的。 新手学习 AI 可以这样做: 1. 了解 AI 基本概念:阅读「」部分,熟悉术语和基础概念,浏览入门文章了解其历史、应用和发展趋势。 2. 开始学习之旅:在「」中找到为初学者设计的课程,推荐李宏毅老师的课程,也可通过在线教育平台按自己节奏学习并获取证书。 3. 选择感兴趣模块深入:AI 领域广泛,如图像、音乐、视频等,可根据兴趣选择特定模块深入学习,掌握提示词技巧。 4. 实践和尝试:理论学习后进行实践,巩固知识,尝试使用各种产品做出作品,在知识库分享实践成果。 5. 体验 AI 产品:与 ChatGPT、Kimi Chat、智谱、文心一言等 AI 聊天机器人互动,了解其工作原理和交互方式。 学习周期因人而异,取决于您的学习时间投入、学习效率和理解能力等因素。 关于变现项目,比如可以尝试用 GPT 和 SD 制作图文故事绘本、小说推文等,但要注意项目可能存在的不确定性。
2025-01-23
如何才能用CHAT GPT
以下是使用 ChatGPT 的相关方法: 1. 推特博主分享的英语学习工作流: 先把特定的 prompt 喂给 ChatGPT(建议开新对话专门用于学习英文)。 ChatGPT 会扮演美国好朋友,对输入的英文和中文表达返回更地道的表达,对俚语部分加粗,还会针对话题举一反三,结合欧美流行内容给出更多例子。输入特定语句,ChatGPT 会输出对话回顾并建议 3 个推荐任务以强化记忆。 建议使用方式:开一个窗口,复制 prompt;手机端打开历史记录;点右上角耳机图标打电话,既能练口语又能练听力;结束后看回顾帮助阅读。 群友在讯飞上做了类似尝试,效果不错。 2. 注册、安装、订阅 ChatGPT 的一般流程: 引言:ChatGPT 是基于 GPT 架构的人工智能模型,由 OpenAI 开发,是先进的自然语言处理工具,能理解和生成接近人类水平的文本。目前官网有 GPT3.5 和 GPT4 两个版本,GPT3.5 免费但智能程度不如 GPT4,GPT4 的 PLUS 套餐 20 美金一个月,还有团队版和企业版,功能更多但费用更贵,一般推荐 PLUS 套餐。 注册谷歌账号:国外很多软件支持谷歌账号一键登录,注册过程支持国内手机号码和国内邮箱验证。 苹果系统安装、订阅 GPT4 教程: 在 AppleStore 下载 chatgpt,中国区需切换到美区。美区 AppleID 注册教程参考知乎链接。 支付宝购买苹果礼品卡并充值,用于订阅付费 App。 使用 ChatGPT 4o: 开启对话:打开应用或网页,点击开始对话,会员在苹果或安卓手机购买的,电脑上都能登录。 体验最新语音对话功能:版本切到 ChatGPT 4o,点击右下角“耳机”图标,选择声音体验语音对话。
2025-01-16
长沙线下AI交流
以下是长沙线下的 AI 交流活动信息: AI 切磋大会第七期: 活动主题:项目展示/心得分享/自由交流 每人 10 分钟分享自己的想法和项目,5 分钟点评交流 报名(截止):11 月 9 日,报名链接:https://waytoagi.feishu.cn/share/base/form/shrcn7RJL9Jb93O38IXlwz3XLlb 当天签到:11 月 10 日 13:00 开场环节:13:15 大合影:13:25,合照上传 自由分享:13:30 飞书会议地址:11 月 10 日,会议链接:https://vc.feishu.cn/j/627325193 AI 切磋大会第八期: 时间:11 月 30 日 地址:湖南省长沙市开福区民主东街 2 号学宫里公寓一楼大厅 FLAIT CA 低空啡行 主持人:咯咯哒
2025-03-05
在现阶段的GPT发展下,与AI交流提示词还重要吗
在现阶段的 GPT 发展下,与 AI 交流的提示词仍然非常重要。以下是一些原因: 1. 目标明确:对于 GPT 及其他 AI 来说,明确每一步的目标至关重要。只有给予清晰的指导,AI 才能产生相关且有价值的输出。 2. 逻辑性:在各种提示策略中,逻辑性都是关键。清晰、结构化的提示有助于 AI 更有效地生成输出。 3. 分步骤:无论是进行深度分析还是遵循特定结构,确保提示按照清晰的步骤进行极为重要。 4. 考虑变量:这在某些提示策略中尤其重要,需要考虑可能影响结果的所有因素。 例如,在运用 CoD 将文章做摘要的实验中,个人观点认为以英文提示词最后加上中文输出的方式效果较好,并且密度等级 4 的结果较让人满意。同时,LangGPT 框架的出现也表明随着新一代模型的发布,提示词的重要性日益凸显,其编写过程逐渐成为一种编程语言。但也有人认为框架在协助的同时也有限制,提示词带来的收益并非如宣传所说,其重要性会朝两极分化。
2025-01-07
AI信息交流教程 主要用于论文写作 资料查找
很抱歉,目前知识库中没有关于“AI 信息交流教程用于论文写作和资料查找”的相关内容。但一般来说,在进行论文写作和资料查找时,您可以从以下几个方面入手: 1. 明确研究主题和问题:确定您想要探讨的 AI 领域的具体方向和关键问题。 2. 选择合适的数据库和搜索引擎:例如学术数据库(如 Web of Science、Scopus 等)、专业的 AI 研究网站等。 3. 制定有效的检索策略:使用准确的关键词、布尔运算符等提高检索的准确性。 4. 评估资料的可靠性和相关性:注意来源的权威性、出版日期等。 5. 学会引用和整理资料:遵循学术规范,正确引用和整理所找到的资料。 希望以上建议对您有所帮助。
2025-01-05
我能不能用AI做一个实时交流的社群
以下是关于您能否用 AI 做一个实时交流社群的相关信息: AI 音乐方面: 存在 AI 音乐共建者的社群。 使用方式:文档中可贴喜欢的音乐或投稿教程,定期组织音乐交流会,社群中可实时交流音乐相关创作作品和经验分享。 加入条件:至少有一首以上的 AI 音乐作品,添加 AAAAAAAJ 备注音乐。 近期活动:「在线音乐会」网友出题,现场生音乐(时间待定);「Reaction」收集 AI 音乐,大家一起欣赏,记录听到意想不到的好听的歌的反应(时间待定)。 有趣的音乐可贴在文档下方,持续收集中。 Inworld AI 方面: 使 NPC 能够自我学习和适应,具有情绪智能。 特点和功能: 实时语音:使用内置语音设置进行最小延迟,可配置角色的性别、年龄、音调和说话速度,或使用第三方服务创建自定义和克隆语音。 “Contextual Mesh”功能:定制 AI 非玩家角色(NPC)的行为和知识。 可配置的安全性:可配置 NPC 对话方式,适应不同年龄级别游戏。 知识:输入“个人知识”控制角色应知道或不应知道的信息,使用“共享知识”定义多个角色拥有的知识。 玩家档案:收集玩家信息,让 NPC 在互动时考虑。 关系:配置角色关系流动性,创建不同关系的角色。 第四堵墙:确保角色只从其世界中的知识获取信息,创建更沉浸的体验。 可与各种游戏引擎(如 Unity、Unreal Engine 等)和其他游戏开发工具无缝对接,帮助品牌创建交互性强的 AI 角色,无需编码。
2024-12-22
现在哪几家的大模型支持通过手机视频多模态实时交流?
以下几家的大模型支持通过手机视频多模态实时交流: 1. PandaGPT:能够理解不同模式的指令并根据指令采取行动,包括文本、图像/视频、音频、热、深度和惯性测量单位。 2. VideoLLaMA:引入了多分支跨模式 PT 框架,使语言模型能够在与人类对话的同时处理给定视频的视觉和音频内容。 3. 视频聊天 GPT:专门为视频对话设计,能够通过集成时空视觉表示来生成有关视频的讨论。 4. NExTGPT:端到端、通用的 anytoany 多模态语言模型,支持图像、视频、音频、文本的自由输入输出。
2024-11-22
如何用AI制作技术与产品交流会海报
以下是关于如何用 AI 制作技术与产品交流会海报的详细指导: 一、需求场景 在以下情况下,我们可能需要制作这样的海报: 1. 当您想在朋友圈、微博、Twitter 等平台发布内容时,纯文字可能无法获得较多点赞。 2. 百度图片等来源的图质量差、容易撞图。 3. 相册中的照片可能不太符合需求。 二、大致流程 1. 主题与文案 确定海报主题,可借助 ChatGPT 等文本类 AI 工具协助完成文案。 2. 风格与布局 选择想要的风格意向,背景不一定空白,可根据文案和风格灵活调整画面布局。 3. 生成与筛选 使用无界 AI,输入关键词,生成并挑选一张满意的海报底图。 4. 配文与排版 将上述素材进行合理排版,得到成品。排版同样可以参考 AIGC 海报成果。 三、可用的 AI 海报生成工具 以下是一些推荐的 AI 海报生成工具: 1. Canva(可画):https://www.canva.cn/ 这是一个非常受欢迎的在线设计工具,提供大量模板和设计元素,用户可通过简单拖放操作创建海报,其 AI 功能可帮助选择合适的颜色搭配和字体样式。 2. 稿定设计:https://www.gaoding.com/ 稿定智能设计工具采用先进的人工智能技术,自动分析和生成设计方案,稍作调整即可完成完美设计。 3. VistaCreate:https://create.vista.com/ 这是一个简单易用的设计平台,提供大量设计模板和元素,用户可使用 AI 工具创建个性化海报,其智能建议功能可帮助快速找到合适的设计元素。 4. Microsoft Designer:https://designer.microsoft.com/ 通过简单拖放界面,用户可快速创建演示文稿、社交媒体帖子和其他视觉内容,还集成了丰富的模板库和自动图像编辑功能,如智能布局和文字优化,大大简化了设计流程。 四、图生图技巧 1. 首先,准备一张真实照片作为样图。 2. 然后,在无界 AI 找到图生图功能。 3. 别忘了,图生图也要加关键词。如果要改变画面内容(比如父亲头发颜色),“二次元强度”改为 70%。左图为反向示例:啥也没写,所以 daddy 的发型被识别成了卤蛋。右图为正向示例:只添加了简单的人物关键词,父亲和女儿。可根据出图效果,进一步修改或增加提示词作为约束。例如,父亲的白发难以识别,就在人物关键词的基础上,增添“父亲一头白发”等修饰词。
2024-10-28