Navigate to WaytoAGI Wiki →
Home/Question List/Question Detail

有什么支持多模态输入和输出的C端产品

Answer

以下是一些支持多模态输入和输出的 C 端产品:

  1. 宝玉日报:支持文本或音频输入,输出可为文本、音频或混合数据。价格方面,1 小时音频输入成本为$12.8,输出为$25.6。相关链接:https://platform.openai.com/docs/guides/audiohttps://x.com/dotey/status/1847100400664494186
  2. Imagic 发布的 AI 驱动的无代码应用构建工具:支持多模态输入输出,包括文本、图片、3D 和视频。创建出来的应用立刻就能使用和发布。相关链接:https://get.imagica.ai/s
  3. 面壁智能推出的 MiniCPM-o 2.6:具有多模态能力,如 OCR、视频理解、连续视频与音频流处理,实时直播与多模态上下文理解,支持 30 多种语言的文本和语音输入输出。资源链接:原推文GitHub在线体验模型下载
  4. 世界首个支持手持产品展示的 AI 数字人 Product Avatar:上传产品图片,数字人即可手持产品进行口播展示,支持多语言,覆盖 28 种语言,可快速生成产品宣传视频。相关链接:在线体验原推文
Content generated by AI large model, please carefully verify (powered by aily)

References

宝玉 日报

多模态支持:文本或音频输入,输出可为文本、音频或混合数据。异步语音交互:适合不需要实时反馈的场景,支持情感分析及语调识别。价格说明:1小时音频输入成本为$12.8,输出为$25.6。🔗[https://platform.openai.com/docs/guides/audio](https://platform.openai.com/docs/guides/audio)🔗[https://x.com/dotey/status/1847100400664494186](https://x.com/dotey/status/1847100400664494186)4⃣️🚀Colibri火箭成功飞行至105米,学生项目挑战太空边界Gruyère Space Program(GSP)完成欧洲首个学生自主研发的可重复使用火箭自由飞行。火箭采用双组元推进剂发动机,实现垂直起飞和降落(VTVL)。该项目在25万瑞士法郎的预算内完成,展示了学生团队的创新和合作能力。🔗[https://gruyerespaceprogram.ch](https://gruyerespaceprogram.ch)🔗[https://x.com/dotey/status/1847096363571728654](https://x.com/dotey/status/1847096363571728654)5⃣️🛠️LangChain团队推出Open Canvas:开源版Canvas工具

AIGC Weekly #16

这个产品有点离谱的。宣传视频和官网太好看了。用自然语言快速生成可以使用的应用程序。支持Airtable等产品直接当作数据库使用。支持多模态输入输出,包括文本、图片3D和视频。创建出来的应用立刻就能使用和发布。宣传视频演示了比如股票应用和一些企业B端后台等。[heading2][Create:在几分钟内获得自动设计、构建和部署的Web应用程序](https://www.[content]在20周内完成10周的项目,以便更快地进入市场。与没有代码或低代码不同,创作者构建自定义用户体验,您拥有最终代码库。快速生成产品的第一个版本。然后,由创建者加速路线图的其余部分,为所有常见功能请求(如UI组件、GraphQL解析器等)提供生成器。[heading2][月维推出的提示词生成工具](https://github.com/Moonvy/OpenPromp[content]一个开源的AIGC(Midjourney)提示词可视化编辑小工具支持:显示英文提示词的中文翻译、输入中文提示词翻译到英文、为提示词进行分类(普通、样式、质量、命令)、轻松的排序、隐藏提示词、把提示词可视化结果导出为图片、常用提示词词典。[heading2][Apollo:一款基于ChatGPT的实时知识应用程序](https://twitter.co[content]通过耳机整天与它交谈。如果增强现实是对世界的叠加,这就是增强智能——对你思想的叠加。

1月15日 社区动态速览

1⃣️🤖面壁智能推出MiniCPM-o 2.6亮点:8B大小,性能媲美GPT-4o级别,可在移动设备上运行。视觉能力:超越GPT-4o-202405、Gemini 1.5 Pro和Claude 3.5 Sonnet。功能:中英双语实时语音对话,支持情感、速度、风格控制,端到端语音克隆与角色扮演。多模态能力:OCR、视频理解、连续视频与音频流处理,实时直播与多模态上下文理解。多语言支持:覆盖30+种语言的文本和语音输入输出。资源链接:[原推文](https://x.com/imxiaohu/status/1879164082223534430)[GitHub](https://github.com/OpenBMB/MiniCPM-o)[在线体验](https://minicpm-omni-webdemo-us.modelbest.cn/?type=0)[模型下载](https://huggingface.co/openbmb/MiniCPM-o-2_6)2⃣️🛍️世界首个支持手持产品展示的AI数字人:Product Avatar功能特点:无需真人模特:上传产品图片,数字人即可手持产品进行口播展示。细节定制:语音和口型同步,动作、姿势可定制,支持1000+多国家数字人模特。多语言支持:覆盖28+种语言,可快速生成产品宣传视频。测试效果:视频效果接近成熟,嘴型部分需进一步优化。资源链接:[在线体验](https://topview.ai/ai-product-avatar)[原推文](https://x.com/imxiaohu/status/1879146338144932195)

Others are asking
如何构建多模态知识库?
构建多模态知识库可以参考以下步骤: 1. 图像知识库方面:通过多模态的能力对图片信息进行检索理解。效果测试时,上传一张图片,在图像数据库里找到相关信息,然后结合内容进行回复。 2. 构建图片索引: 新建结构化数据表时,将图片索引所在列的字段类型设置为 link。需注意新建数据表后,无法再新增或修改字段类型为 link。 创建结构化知识库时,对于需要建立图片索引的 link 类型字段,在旁边的下拉列表中选择图片。创建知识库后,无法再新建或修改图片索引。 3. 多模态知识库还包括构建图片型索引需结构化数据表,字段类型设置为 link,以实现 FAQ 中向用户推送图片信息。
2025-03-19
多模态达模型排行
以下是一些常见的多模态模型排行及相关信息: 1. 智谱·AI 开源模型: CogAgent18B:基于 CogVLM17B 改进的开源视觉语言模型,拥有 110 亿视觉参数和 70 亿语言参数,支持 11201120 分辨率的图像理解,在 CogVLM 功能基础上具备 GUI 图像的 Agent 能力。代码链接:。 CogVLM17B:强大的开源视觉语言模型(VLM),在多模态权威学术榜单上综合成绩第一,在 14 个数据集上取得了 stateoftheart 或者第二名的成绩。代码链接:。 Visualglm6B:开源的支持图像、中文和英文的多模态对话语言模型,语言模型基于 ChatGLM6B,具有 62 亿参数;图像部分通过训练 BLIP2Qformer 构建起视觉模型与语言模型的桥梁,整体模型共 78 亿参数。代码链接:。 2. Gemini 模型:Gemini Ultra 在表 7 中的各种图像理解基准测试中都是最先进的,在回答自然图像和扫描文档的问题,以及理解信息图表、图表和科学图解等各种任务中表现出强大的性能。在 zeroshot 评估中表现更好,超过了几个专门在基准训练集上进行微调的现有模型,适用于大多数任务。在 MMMU 基准测试中取得了最好的分数,比最先进的结果提高了 5 个百分点以上,并在 6 个学科中的 5 个学科中超过了以前的最佳结果。 3. 多模态思维链提示方法:Zhang 等人(2023)提出了一种多模态思维链提示方法,多模态 CoT 模型(1B)在 ScienceQA 基准测试中的表现优于 GPT3.5。
2025-03-18
【深度拆解】ChatGPT-4o背后的技术革新:从语言模型到多模态跨越
ChatGPT4o 背后的技术革新具有重要意义。人类的感知多样,仅靠语言描述世界远远不够,多模态理解非常有用,能更全面学习世界、理解人类需求等。2023 年 9 月 GPT4v 发布,将大语言模型竞赛带入多模态模型时代,如 ChatGPT 能看图说话、画图,Google 的 Gemini 支持多种模态,但 OpenAI 常抢先发布。今年 5 月 OpenAI 发布 GPT4o,向智能体方向迈进,其是之前技术的集大成者,通过端到端神经网络混合训练视觉、语音和文本数据,平均音频输入反应时间为 300 毫秒,能感悟人类表达的情绪等。OpenAI 未公开 GPT4o 技术细节,唯一线索来自内部炼丹师的博客 AudioLM。此外,GPT4 是 OpenAI 的多模态工具,在编程任务中表现出色,ChatGPT 是用户友好界面,可与高级语言模型交互。2024 年 5 月 14 日 OpenAI 发布 GPT4o,效率高、价格降低、延迟缩短。9 月 16 日 OpenAI 推出 o1 系列模型,在复杂任务中表现优异,o1mini 适合编码任务,两个模型已在 ChatGPT 中提供,有免费或收费版本。
2025-03-09
多模态是什么
多模态是指多数据类型交互,能够提供更接近人类感知的场景。大模型对应的模态包括文本、图像、音频、视频等。 随着生成式 AI 和大模型的发展,我们逐渐进入多模态灵活转换的新时代,即利用 AI 实现文本、图像、音频、视频及其他更多模态之间的互相理解和相互转换,这一变革依靠一系列革新性的算法。 在感知不同模态数据时,AI 不再局限于传统的单一模态处理方式,而是借助高维向量空间来理解数据,将图像或文字“压缩”成能够捕捉深层关系的抽象向量。 Gemini 模型本身就是多模态的,展示了无缝结合跨模态的能力,在识别输入细节、聚合上下文以及在不同模态上应用等方面表现出强大性能。
2025-03-02
多模态大模型 原理是什么?
多模态大模型的原理如下: 基于大圆模型,能够识别页面组件结构和位置绝对值信息,并与组件、文本映射。由解码器、backbone、Generator 等部件组成,左侧进行多模态理解,右侧生成输出。 典型的多模态大模型架构包括一个编码器、一个连接器和一个 LLM,还可选择性地在 LLM 上附加一个生成器以生成除文本之外的更多模态。编码器接收图像、音频或视频并输出特征,这些特征经由连接器处理,使 LLM 能更好地理解。连接器大致可分为基于投影的、基于查询的和基于融合的三类,前两种类型采用词元级融合,将特征处理成词元,与文本词元一起发送,最后一种类型则在 LLM 内部实现特征级融合。
2025-02-27
多模态搜索
以下是关于多模态搜索的相关信息: ThinkAny 搜索引擎: 产品特性: 支持多模态检索(MultiModeSearch),可检索链接、图片、视频等模态内容。 支持多维度输出(MultiFormOutput),能以对话、大纲、思维导图、时间线等形式输出搜索问答内容。 支持多信源检索(MultiRetrieveSource),可检索 Google、Wikipedia、Github 等信息源的内容。 开源了 API 项目 ragsearch,实现联网检索功能,并对检索结果进行重排和获取详情内容。 长期发展方向是走 AI Search+Anything 的平台化路线,允许用户挂载自定义信息源、创建自定义智能体、实现自定义的流程编排。 其他推荐的 AI 搜索引擎: 秘塔 AI 搜索:提供多模式搜索、无广告干扰、结构化展示和信息聚合等功能。 Perplexity:聊天机器人式搜索引擎,用自然语言提问,从各种来源收集信息并给出答案。 360AI 搜索:通过 AI 分析问题,生成清晰、有理的答案,并支持增强模式和智能排序。 天工 AI 搜索:采用生成式搜索技术,支持自然语言交互和深度追问,未来将支持图像、语音等多模态搜索。 Flowith:创新的 AI 交互式搜索和对话工具,基于节点式交互方式,支持多种 AI 模型和图像生成技术,有插件系统和社区功能。 Devv:面向程序员的 AI 搜索引擎,提供编程、软件开发和人工智能等领域的专业建议和指导。 Phind:专为开发者设计的 AI 搜索引擎,利用大型语言模型提供相关搜索结果和动态答案,擅长处理编程和技术问题。 提升 AI 搜索准确度: 在提示词的设计和调试方面需要下功夫,很多环节都需用到提示词,如请求大模型判断是否需要联网、改写问题、提取关键词、回答问题、标注引用来源、以思维导图形式输出答案、做 Function Calling 判断使用的 Agents 等。 多模态检索是提升信息密度的重要措施,随着 5G 发展,互联网信息多元化,图片、视频、音频比重增大,多模态检索为获取不同形式信息再聚合起来作为引用参考。但多模态检索实现困难,现阶段可在谷歌搜索基础上,先使用其图片/视频检索 API 拿到匹配内容,再通过 OCR 图片识别、音视频转录等方法拿到多模态信息的文本内容。
2025-02-25
计算两个时间差的绝对值,输出相差的完整天数。 获得用户输入的两个与时间相关的字符串,两个时间用逗号分隔,每个时间字符串格式示例如下:2018年08月01日17点21分21秒。 以此为要求写出python代码
以下是计算两个指定格式时间差的绝对值并输出相差完整天数的 Python 代码: ```python import datetime def calculate_days_difference: 解析时间字符串 time1 = datetime.datetime.strptime time2 = datetime.datetime.strptime 计算时间差 time_difference = abs 转换为天数并返回 return time_difference.days 示例用法 time1_str = "2023年08月01日17点21分21秒" time2_str = "2023年08月10日17点21分21秒" print ```
2025-03-22
有没有简单输入故事,就生成结合图片、剧情解说的动画的AI工具
以下为您介绍一些能够简单输入故事,就生成结合图片、剧情解说的动画的 AI 工具: Anifusion: 网址:https://anifusion.ai/ Twitter 账号:https://x.com/anifusion_ai 主要功能: AI 文本生成漫画:输入描述性提示,AI 会生成相应漫画页面或图像。 直观的布局工具:提供预设模板,也可自定义漫画布局。 强大的画布编辑器:可在浏览器中直接优化和完善生成的艺术作品。 多种 AI 模型支持:高级用户可访问多种 LoRA 模型实现不同艺术风格和效果。 商业使用权:用户对创作作品拥有完整商业使用权。 使用案例: 独立漫画创作:让无绘画技能的漫画艺术家实现故事创作。 快速原型设计:帮助专业艺术家快速可视化故事概念和布局。 教育内容:为教师和教育工作者创建视觉内容。 营销材料:企业可制作促销漫画或分镜脚本。 粉丝艺术和同人志:粉丝可创作衍生作品。 优点:非艺术家也能轻松创作漫画,基于浏览器无需安装额外软件,具备快速迭代和原型设计能力,拥有创作的全部商业权利。 此外,ChatGPT 也能在一定程度上参与生成对话内容和剧情。例如,通过 System Prompt 介绍游戏故事背景和小机器人人设,结合游戏关键事件生成故事情节介绍,并以小机器人自述形式呈现。在实际实现过程中,可选择离线生成一次性剧情文案保存到游戏中,但文案固定略显单调;也可实时生成,但每次生成有延迟,可能导致游戏停顿感。因此,可在每局对局开始前为游戏关键节点一次性生成所有文案,既保证每次游戏文案不同,又避免游戏停顿。剧情故事格式由预定义的 json 表达,ChatGPT 只需替换填充内容。实时对话与剧情类似,但需解决小机器人区分聊天和执行指令的问题,挑战在于 ChatGPT 支持生成“多模态”返回信息。
2025-03-19
关于ai输入法
以下是关于 AI 输入法的相关信息: 在 ShowMeAI 周刊 No.14 中提到,最早注意到 AI Keyboard(AI 输入法)是通过 a16z 在 2024 年 8 月发布的榜单。从 11 月末开始,AI 输入法出现得越来越频繁。 FaceMoji 是一款输入法,其 AI 特性包括根据上下文预测 emoji、跨语言实时翻译、智能对话、GIF 智能搜索、智能纠错等,同时具备常规输入法的功能,如自定义皮肤、海量 emoji 和颜文字库等。 Bobble AI 的 AI 功能更有新意,除根据聊天内容推荐 emoji 外,还能创作和推荐个性化的表情包(贴纸),支持智能回复、翻译、总结等,讲笑话是其官方重点强调的功能之一,也支持其他常规功能。 在 AI 智库的月度榜单(10 月)中,百度输入法、MaxAI.me、AnyDoor 等产品在覆盖力方面有不同的表现。
2025-03-18
我需要输入文本就可以收获网页的工具
以下是一些输入文本就可以收获网页的工具和相关信息: 对于处理各种格式的文档输入,包括网页,可使用以下方式: 借助网页爬虫工具(如 Scrapy、BeautifulSoup、Selenium)抓取网页中的文本和表格数据。通过解析 HTML 的 DOM 结构,提取目标数据。(平台暂无工具) 对于图片,可以借助 OCR 工具进行文本提取,(开放平台工具:)。 以下是一些 AI 网页原型图生成工具: 即时设计:https://js.design/ 一款可在线使用的「专业 UI 设计工具」,为设计师提供更加本土化的功能和服务,相较于其他传统设计工具,更注重云端文件管理、团队协作,并将设计工具与更多平台整合,一站搞定全流程工作。 V0.dev:https://v0.dev/ Vercel Labs 推出的 AI 生成式用户界面系统。每个人都能通过文本或图像生成代码化的用户界面。它基于 Shadcn UI 和 Tailwind CSS 生成复制粘贴友好的 React 代码。 Wix: Wix 是一款用户友好的 AI 工具,可让您在没有任何编码知识的情况下轻松创建和自定义自己的网站,提供广泛的模板和设计供您选择,以及移动优化和集成电子商务功能等功能。Wix 建站工具通过拖放编辑、优秀模板和 250 多种 app,能帮助不同领域的用户创建所有种类的网站。 Dora:https://www.dora.run/ 使用 Dora AI,可以通过一个 prompt,借助 AI 3D 动画,生成强大网站。支持文字转网站,生成式 3D 互动,高级 AI 动画。 请注意,以上内容由 AI 大模型生成,请仔细甄别。
2025-03-10
如果我想让deepseek成为我专属的公文写作助手,需要输入什么提示词
如果您想让 DeepSeek 成为您专属的公文写作助手,可以参考以下提示词: 1. 首先借助 AI 分析好的文章: 找出您最喜欢的文章,投喂给 DeepSeek R1(理论上来说适合大多数 AI,尤其是有推理模型)。 第一次询问:请从写作角度分析这篇文章。 第二次询问:请再从读者角度分析这篇文章。 第三次询问:这篇文章还存在什么缺点和不足,有什么改善和提升的空间。 对作者进行侧写,分析成长背景、个人经历和知识结构对文章的影响。 2. 让 AI 对您写的文章进行点评:“现在我希望你是一名资深中文写作教师/小学语文老师/中学语文老师/公文写作培训师,拥有 30 年教育经验,是一名传授写作技巧的专家。请先阅读我提供给你的文章,然后对文章进行分析,然后教我如何提升写作水平。请给出详细的优缺点分析,指出问题所在,并且给出具体的指导和建议。为了方便我能理解,请尽量多举例子而非理论陈述。” 3. 根据文章内容对作者进行心理侧写:“我希望你扮演一个从业 20 多年,临床诊治过两千多例心理分析案例的人性洞察和意识分析方面的专家,精通心理学、人类学、文史、文化比较。先阅读后附文章全文,然后对作者进行人格侧写。要尖锐深刻,不要吹捧包装,不要提出一些只能充当心理安慰的肤浅的见解。包括作者的基本画像、核心性格特质、认知与价值观、潜在心理动机、行为模式推测、矛盾与盲点、文化符号映射。”
2025-03-06
sd可以用中文输入吗
SD3stable diffusion3 已开源,艺术实现更自由。Qwen2 接上 SD3 Medium 支持中文输入,会自动优化并输出英文提示词。相关资源如下: 下载地址(huggingface 比较慢,多放几个百度云盘): 工作流:https://github.com/ZHOZHOZHO/ComfyUIWorkflowsZHO Qwen2 插件:https://github.com/ZHOZHOZHO/ComfyUIQwen2 SD3 dreambooth 脚本:https://github.com/huggingface/diffusers/blob/sd3/examples/dreambooth/README_sd3.md 、https://github.com/bghira/SimpleTuner/tree/feature/sd3 另外,关于 SD 做中文文字有持续更新的教程: 制作思路可参考 Nenly 同学的视频教程:【“牛逼”的教程来了!一次学会 AI 二维码+艺术字+光影光效+创意 Logo 生成,绝对是 B 站最详细的 Stable Diffusion 特效设计流程教学!AI 绘画进阶应用哔哩哔哩】https://b23.tv/c33gTIQ 群友自制的详细视频教程步骤: 1. 将中文字做成白底黑字,存成图片样式。 2. 使用文生图的方式,使用大模型真实系,作者用的 realisticVisionV20_v20.safetensorsControlNet 预设置。 3. 输入关键词,如奶油的英文单词,Cream+Cake(加强质感),反关键词:Easynegative(负能量),反复刷机,得到满意的效果即可。 4. 同理可输出 C4D 模型,可自由贴图材质效果,3d,blender,oc rendering。 5. 如果希望有景深效果,也可以打开 depth(增加阴影和质感)。 6. 打开高清修复,分辨率联系 1024 以上,步数:2960。 当然 https://firefly.adobe.com/也可以,但 SD 感觉可操控性更强,尤其是中文字体。
2025-03-06
如何将coze工作流大模型输出内容变成格式化的文本
要将 Coze 工作流大模型输出内容变成格式化的文本,可以按照以下步骤进行: 1. 大模型批量总结文章内容: 模型选择:默认的豆包 32k 通常够用,若担心上下文长度不足,可选择更大的模型,如 kimi128k。 配置参数:选择批处理,批处理输入参数包括第 9 步中读取的文章内容正文、第 8 步代码处理后的 url 链接和标题。下方的输入参数有四个,分别是 content 正文、title 标题、url 文章链接、author 作者。提示词输入相关内容,将这四部分一起送给大模型进行总结,最终拼接成 markdown 格式输出。 2. 汇总格式化最终输出内容:使用代码节点,将大模型输出的内容进行最终输出的格式化。参数配置方面,输入选择上一步输出的 outputList,点击「在 IDE 中编辑」,选择『Python』,输入相应代码,配置输出项为 result。 3. 公众号总结推送到微信:此节点根据 Server 酱的 API 文档,使用自建插件。主要功能是把上一步格式化好的内容推送到用户的微信上。输出配置包括:title 为汇总公众号总结页面的标题,参数值选择「输入」并起名;desp 为页面主体内容,选择上一步最终输出内容;key 引用开始节点的 key。 在循环节点方面: 1. 关于如何将文本内容转为数组:循环节点中的循环数组参数必须引用上游节点的输出参数,且参数类型为数组类型。大模型、代码等节点均支持数组格式的输出参数。若只能拿到文本格式的内容,可通过代码节点将其转为数组格式。例如在长文总结场景下,使用 LinkReaderPlugin 插件提取 PDF 内容,其输出参数 pdf_content 为 String 类型,可通过代码节点转为数组类型。还可在大模型节点通过提示词和示例让大模型直接输出数组,或使用文本处理(文本分隔)。 2. 关于如何结束循环:循环节点模式不同,结束循环的方式不同。使用数组循环时,循环节点依次对数组中的元素执行处理后自动结束并跳出循环。指定循环次数时,循环节点执行指定次数后会自动终止循环。无限循环可通过终止循环节点停止循环,条件判断节点判断某个条件成立时,流转到终止循环节点,自动跳出循环。 3. 关于如何在循环体中插入节点:选中循环体时,才能向循环体中添加新节点,或拖入新节点至循环体画布。不支持将循环体外部的节点拖动至循环体内,循环体中的节点也不可移动到循环体之外。 在大模型节点配置方面: 输入与输出的变量名称可自定义,按习惯设定以便识别字段含义。 输入:直接引用开始节点中用户输入的{{BOT_USER_INPUT}}。 提示词区域:需要两个双花括号写明需要使用的输入项参数名,如{{input}}。 输出:有几项子内容需要生成,就设置几项。为让大模型理解最终输出的形式要求,在用户提示词最后添加输出格式段落,描述每个变量名称、输出内容、输出格式,且务必注意前后完全一致,否则会输出失败。
2025-03-21
可以给出国内出名的大语言模型的信息吗,包括其模型名称,版本,发布时间,发布公司,模型参数,性能特点等信息,尽可能覆盖更多的大模型,使用表格输出,并按照发布时间排序
|模型名称|版本|发布时间|发布公司|模型参数|性能特点|适合应用| |||||||| |Baichuan213BChat|Baichuan2192K|10月31日|百川智能|未提及|在逻辑推理、知识百科、生成与创作、上下文对话等基础能力上排名200亿参数量级国内模型第一,在计算和代码能力上有一定优化空间|场景相对广泛且可以私有化部署,重点推荐在小说/广告/公文写作等内容创作场景、智能客服/语音助手以及任务拆解规划等场景,可部署在教育、医疗、金融等垂直行业中应用,同时可部署在低算力终端处理基础智能任务| |文心一言|V4.0|10月17日|百度|未提及|在计算、逻辑推理、生成与创作、传统安全这4大基础能力上排名国内第一,在代码、知识与百科、语言理解与抽取、工具使用能力上排名国内前三,各项能力表现均衡且绝大部分能力有很高的水平|能力栈较为广泛,可应用的场景较多,重点推荐在查询搜索知识应用、任务拆解规划Agent、文案写作以及代码编写及纠错等方面的应用,由于在逻辑推理方面的不俗表现,可以重点关注在科学研究、教育、工业方面的落地能力| |通义千问 2.0|2.0|10月31日|阿里云|千亿级参数|未提及|未提及|
2025-03-15
AI如何结合业务数据,输出一些汇总表格?
AI 结合业务数据输出汇总表格通常需要以下步骤: 1. 数据收集与整理:首先,需要收集相关的业务数据,并对其进行清洗和预处理,以确保数据的质量和一致性。 2. 选择合适的 AI 技术和工具:根据数据特点和业务需求,选择适合的 AI 算法和工具,如机器学习中的分类、回归算法,或者数据挖掘工具等。 3. 数据建模:运用选定的 AI 技术对数据进行建模,建立能够分析和处理数据的模型。 4. 训练模型:使用预处理后的数据对模型进行训练,不断优化模型的参数,以提高模型的准确性和性能。 5. 数据应用与输出:将训练好的模型应用于新的数据,生成分析结果,并将结果以汇总表格的形式进行输出。 在实际操作中,还需要注意数据的安全性和隐私保护,以及对模型结果的评估和验证,确保输出的汇总表格准确、有用且符合业务需求。
2025-03-14
有哪些ai工具可以直接对word进行排版,之后还以word形式输出
以下是一些可以对 word 进行排版并以 word 形式输出的 AI 工具: 1. Grammarly:不仅是语法和拼写检查工具,还提供部分排版功能,能改进文档整体风格和流畅性。 2. QuillBot:AI 驱动的写作和排版工具,可帮助改进文本清晰度和流畅性,并保持原意。 3. Latex:虽不是纯粹的 AI 工具,但在学术论文排版中广泛使用,使用标记语言描述文档格式,有许多 AI 辅助的编辑器和插件简化排版过程。 4. PandaDoc:文档自动化平台,使用 AI 帮助创建、格式化和自动化文档生成,适合商业和技术文档。 5. Wordtune:AI 写作助手,可重新表述和改进文本,使其更清晰专业,保持原始意图。 6. Overleaf:在线 Latex 编辑器,提供丰富模板和协作工具,适合学术写作和排版。 选择合适的工具取决于您的具体需求,如文档类型、出版标准和个人偏好。对于学术论文,Latex 和 Overleaf 很受欢迎,因为它们排版功能强大且有广泛学术支持。对于一般文章和商业文档,Grammarly 和 PandaDoc 等工具可能更适用。但请注意,内容由 AI 大模型生成,请仔细甄别。
2025-03-12
有哪些辅助输出3d模型资源的ai工具推荐一下
以下是一些辅助输出 3D 模型资源的 AI 工具推荐: 1. @CSM_ai:可以将文本、图像或草图转换为 3D 素材。体验地址:https://cube.csm.ai 。 2. Move AI 推出的 Move API:能从 2D 视频生成 3D 运动数据,支持多种 3D 文件格式导出,为 AR 应用、游戏开发等提供高质量 3D 运动数据。网址:https://move.ai/api 。 3. ComfyUI 3D Pack:可快速将图片转换为 3D 模型,支持多角度查看,使用 3D 高斯扩散技术提升模型质量,支持多种格式导出,集成先进 3D 处理算法。网址:https://github.com/MrForExample/ComfyUI3DPack/tree/main 。 4. Medivis 的 SurgicalAR 手术应用:将 2D 医疗图像转化为 3D 互动视觉,提高手术精度,支持 3D 模型的放大、缩小、旋转,精确手术计划。网址:https://t.co/3tUvxB0L4I 。 5. Media2Face:3D 面部动画创造工具,根据声音生成同步的 3D 面部动画,允许个性化调整,如情感表达,应用于对话场景、情感歌唱等多种场合。网址:https://sites.google.com/view/media2face 、https://arxiv.org/abs/2401.15687 、https://x.com/xiaohuggg/status/1752871200303480928?s=20 。 6. SIGNeRF:在 3D 场景中快速生成和编辑对象,新增或替换场景中的物体,新生成场景与原场景无缝融合。网址:https://signerf.jdihlmann.com 、https://x.com/xiaohuggg/status/1744950363667759474?s=20 。 7. Luma AI 发布的 Genie 1.0 版本:文本到 3D 模型转换工具,生成详细逼真的 3D 模型,支持多种 3D 文件格式,获得 4300 万美元 B 轮融资。网址:https://lumalabs.ai/genie?view=create 、https://x.com/xiaohuggg/status/1744892707926122515?s=20 。 8. BakedAvatar 动态 3D 头像:从视频创建逼真 3D 头部模型,实时渲染和多视角查看,兼容多种设备,交互性编辑。网址:https://buaavrcg.github.io/BakedAvatar/ 、https://x.com/xiaohuggg/status/1744591059169272058?s=20 。 此外,在 CAD 领域,也存在一些 AI 工具和插件可以辅助或自动生成 CAD 图,例如: 1. CADtools 12:Adobe Illustrator 插件,为 AI 添加 92 个绘图和编辑工具,包括图形绘制、编辑、标注、尺寸标注、转换、创建和实用工具。 2. Autodesk Fusion 360:集成了 AI 功能的云端 3D CAD/CAM 软件,能创建复杂的几何形状和优化设计。 3. nTopology:基于 AI 的设计软件,可创建复杂的 CAD 模型,包括拓扑优化、几何复杂度和轻量化设计等。 4. ParaMatters CogniCAD:基于 AI 的 CAD 软件,可根据用户输入的设计目标和约束条件自动生成 3D 模型,适用于拓扑优化、结构设计和材料分布等领域。 5. 一些主流 CAD 软件,如 Autodesk 系列、SolidWorks 等,提供了基于 AI 的生成设计工具,能根据用户输入的设计目标和约束条件自动产生多种设计方案。 但使用这些工具通常需要一定的 CAD 知识和技能,对于 CAD 初学者,建议先学习基本的 3D 建模技巧,然后尝试使用这些 AI 工具来提高设计效率。
2025-03-11
生成设计图:包括图书馆静音舱+小组讨论舱 :用隔音板材划分独立空间,舱体外壳由学生绘制抽象艺术图案。 可变形桌椅 :定制模块化桌椅,支持拼合为“创作大桌”或独立卡座,适配小组作业与个人学习。 艺术疗愈角 :设置减压涂鸦墙、小型绿植温室,配备舒缓音乐耳机。
以下是为您提供的关于生成您所需设计图的相关信息: 星流一站式 AI 设计工具具有入门模式和高级模式。 入门模式: 可以使用图像控制功能精准控制生成图像的内容和风格,如空间关系、线稿、人物长相、姿势等。 只能使用以下四种参考功能: 全部图片参考功能,包括原图、景深、线稿轮廓、姿势、Lineart 线稿、Scribble 线稿、光影、Segmant 构图分割等。 原图、SoftEdge 线稿、配色参考、配色打乱、法线贴图、MLSD 线稿等。 高级模式: 点击生成器下方的切换按钮进行切换。 与入门模式相比增加了高级模式框架。 基础模型方面,允许使用更多的微调大模型,如基础模型 F.1、基础模型 XL、基础模型 1.5。 图片参考方面,允许使用更多的图像控制功能,在星流基础大模型下,增加了 tile 分块与 softedge 线稿。 高清分辨率修复:利用算法对初步生成的图像进行简单的图生图高清放大(目前仅支持基础模型 xl 和 1.5 模型)。 放大算法会影响图像放大后的图像质量,建议默认即可。 重绘幅度与初步生成的图像的相似度有关。 其他参数默认即可,参数方面允许调整更多的高级参数。 采样器方面,采样方法决定了模型在生成图像过程中的出图质量,有些采样器在细节处理上表现更佳比如 DPM++2M,而有些则在生成速度上更快,比如 Euler。 采样步数一般来说,步数越多,模型对图像的生成和优化越充分,但同时也会增加生成时间。 随机种子是文生图的随机数种子,通过设置相同的随机数种子,可以确保在相同的参数配置下生成相同的图像。 CFG Scale 控制生成图像与提示词一致性的重要参数。 具有脸部/手部修复功能,利用算法对人像的脸部或者手部进行修复。 此外,学生使用项目化的方式分析现状,做问卷调查,数据分析,在 ChatGPT 的帮助下设计出优化过的设计图,然后使用 3D 的空间设计软件设计出来 3D 的设计图。比如有孩子为优化老师家访路线提出做一个软件产品的案例。
2025-03-23
支持Mac的AI助手,能支持自定义大模型和智能体
以下是为您提供的支持 Mac 且能支持自定义大模型和智能体的 AI 助手相关信息: 在网站上增加一个 AI 助手: 1. 创建大模型问答应用: 进入百炼控制台的,在页面右侧点击新增应用,选择智能体应用并创建。 在应用设置页面,模型选择通义千问Plus,其他参数保持默认。您也可以输入一些 Prompt 来设置人设。 在页面右侧提问验证模型效果,点击右上角的发布。 2. 获取调用 API 所需的凭证: 在我的应用>应用列表中查看所有百炼应用 ID 并保存到本地。 在顶部导航栏右侧,点击人型图标,点击 APIKEY 进入我的 APIKEY 页面,创建新 APIKEY 并保存到本地。 本地部署资讯问答机器人:Langchain + Ollama + RSSHub 实现 RAG: 1. Ollama 支持多种大型语言模型,包括通义千问、Llama 2、Mistral 和 Gemma 等,适用于 macOS、Windows 和 Linux 系统,同时支持 cpu 和 gpu。 2. 它提供了模型库,用户可从中下载不同模型,也支持自定义模型,例如修改模型的温度参数或设置特定系统消息,还提供了 REST API 用于运行和管理模型以及与其他应用程序的集成选项。 3. Ollama 社区贡献丰富,有多种集成插件和界面。安装时访问 https://ollama.com/download/ ,安装完后在 mac 上启动 ollama 应用程序,在 linux 上通过 ollama serve 启动,可通过 ollama list 确认。 智能体应用的相关介绍: 大模型存在无法回答私有领域问题、无法及时获取最新信息、无法准确回答专业问题等局限性,为提升用户体验和增强业务竞争力,越来越多的企业构建 AI 助手。智能体应用基于大模型,通过集成特定的外部能力弥补不足,适用于有企业官网等渠道期望提供产品咨询服务、缺少技术人员开发大模型问答应用等场景。其典型场景包括私有领域知识问答、个性化聊天机器人、智能助手等。
2025-03-23
请问哪个平台支持上传私人知识库文件
以下平台支持上传私人知识库文件: 本地文档: 文本内容: 支持格式:.txt、.pdf、.docx。 操作步骤:在文本格式页签下选择本地文档,然后单击下一步。将要上传的文档拖拽到上传区,或单击上传区域选择要上传的文档。每个文件不得大于 20M,一次最多可上传 10 个文件。上传完成后选择内容分段方式,包括自动分段与清洗(系统会对上传的文件数据进行自动分段,并会按照系统默认的预处理规则处理数据)和自定义(手动设置分段规则和预处理规则,包括选择分段标识符、设置分段最大长度、设置文本预处理规则,如替换掉连续的空格、换行符和制表符,删除所有 URL 和电子邮箱地址),最后单击下一步完成内容上传和分片。 表格数据: 支持格式:.csv 和.xlsx。 操作步骤:在表格格式页签下选择本地文档,然后单击下一步。将要上传的文档拖拽到上传区,或单击上传区域选择要上传的文档,然后单击下一步。每个文件不得大于 20M,一次最多可上传 10 个文件。配置数据表信息,包括指定数据范围(通过选择数据表、表头、数据起始行指定数据范围)、确认表结构(系统已默认获取表头的列名,可自定义修改列名或删除某一列名)、指定语义匹配字段(选择作为搜索匹配的语义字段)。查看表结构和数据,确认无误后单击下一步,完成上传后单击确定。 Notion: 操作步骤:在文本格式页签下选择 Notion,然后单击下一步。单击授权,首次导入 Notion 数据和页面时需要进行授权。在弹出的页面完成登录,并选择要导入的页面。选择要导入的数据,然后单击下一步。选择内容分段方式,包括自动分段与清洗和自定义,最后单击下一步完成内容上传和分片。 自定义: 操作步骤:在文本格式页签下选择自定义,然后单击下一步。输入单元名称,然后单击确认。单击创建分段,然后在弹出的页面输入要上传的内容。每个分段最多可添加 2000 个字符。单击保存。
2025-03-18
目前支持上下文长度最长的是什么AI
目前支持上下文长度较长的 AI 有以下几种: Kimi:是国内最早支持 20 万字无损上下文的 AI,现在已提升到 200 万字,对长文理解表现出色,适合处理长文本或大量信息的任务,但在文字生成和语义理解、文字生成质量方面可能不如国内其他产品,且不支持用户自定义智能体。 http://X.AI 发布的 Grok1.5:支持 128k 上下文长度,性能翻倍,在 MATH、HumanEval、GSM8K、MMLU 测试中表现出色。 AI21 发布的 Jamba:创新的 SSMTransformer 架构,支持 256K 上下文长度,结合 Joint Attention 和 Mamba 技术,提升长上下文吞吐量。
2025-03-17
如何用coze实现一个心理学调研的智能体?最好能够支持音频调用
要使用 Coze 实现一个支持音频调用的心理学调研智能体,您可以按照以下步骤进行操作: 1. 进入 Coze,点击「个人空间 工作流 创建工作流」,打开创建工作流的弹窗。 2. 根据弹窗要求,自定义工作流信息。 3. 点击确认后完成工作流的新建,左侧「选择节点」模块中,实际用上的有: 插件:提供一系列能力工具,拓展 Agent 的能力边界。本案例涉及的思维导图、英文音频,因为无法通过 LLM 生成,就需要依赖插件来实现。 大模型:调用 LLM,实现各项文本内容的生成。本案例的中文翻译、英文大纲、单词注释等都依赖大模型节点。 代码:支持编写简单的 Python、JS 脚本,对数据进行处理。 4. 编辑面板中的开始节点、结束节点,则分别对应分解子任务流程图中的原文输入和结果输出环节。 5. 按照流程图,在编辑面板中拖入对应的 LLM 大模型、插件、代码节点,即可完成工作流框架的搭建。 在配置子任务节点时: 1. 关于模型选择,没有强制必须用某个模型的说法。而是根据自己的习惯、实测的响应速度、生成质量、调用费用,进行综合选择。比如 Doubao Function Call 模型,对于插件调用、Coze 内 json 格式输出比较擅长;MiniMax 处理文字速度很快;GLM 对于用户提示词的理解比较好。每个模型都有自己擅长的特点,而且每家模型都在不断的迭代。所以模型的选用,需要根据实测情况综合调整。 2. 一般选择豆包·function call 32k。“function call”代表有着更好的 Coze 的工具调用能力,“32k”代表模型的上下文窗口大小,即模型在处理文本时能够考虑的单词或标记的数量。如果输出和输入的类型不是纯文本时,比如是 array、object 结构,请根据实测情况,考虑替换上豆包 function call 版本,其他的 LLM 可能会输出格式比较混乱。
2025-03-12
修改以下内容,降低论文查重率:  首先需要高层管理者的重视和支持,为社交媒体营销提供必要的资源和政策支持。其次,要加强员工培训,提高全员的社交媒体素养和营销能力。再次,要建立完善的社交媒体管理制度,规范员工行为,防范潜在风险。最后,要注重技术创新,积极应用人工智能、大数据等新技术,提高社交媒体营销的智能化水平
以下是为您修改后的内容,以降低论文查重率: 首先,高层管理者的重视与支持不可或缺,应为社交媒体营销给予必需的资源及政策支撑。其次,强化员工培训工作,提升全体员工的社交媒体素养与营销能力。再次,构建完备的社交媒体管理体制,对员工行为加以规范,预防潜在风险。最后,注重技术的创新,积极运用人工智能、大数据等新型技术,增强社交媒体营销的智能化程度。
2025-03-07