直达「 通往AGI之路 」飞书知识库 →
首页/问答列表/问答详情

是否有通过图片建三维模型

回答

是否有通过图片建三维模型?

有的,以下是一些通过图片构建三维模型的技术和公司:

  1. 摄影测量(Photogrammetry):这是一种通过拍摄多张照片来重建物体三维模型的技术。它通常需要使用特殊的摄影测量软件,如 Agisoft Metashape、 RealityCapture 等。
  2. 基于图像的三维重建(Image-Based 3D Reconstruction):这种技术通过分析一张或多张图片来构建物体的三维模型。它通常需要使用深度学习算法,如卷积神经网络(CNN)。
  3. 生成式 AI:一些生成式 AI 模型,如 Nvidia 的 GET3D 和 Autodesk 的 ClipForge,可以通过分析图片来生成物体的三维模型。

总的来说,通过图片构建三维模型是一个活跃的研究领域,有许多不同的技术和方法可供选择。

内容由 AI 大模型生成,请仔细甄别(powered by aily)
其他人在问
建筑物及城市场景三维建模 国内免费
以下为您介绍国内免费的建筑物及城市场景三维建模工具: 1. Polycam: 简介:发布了免费的 3D 建模工具,为元宇宙数字空间的物体孪生采集生成提供了新可能。 应用场景:适用于 3D 场景。 特点:只需上传至少 20 张图片或至少 20 秒的视频,Polycam 自动处理并构建 3D 模型。生成后可编辑模型,支持 12 种以上格式导出到流行的 3D 软件,如 Blender、SketchUp、Unreal、Unity 等。100 张图像的云处理建模时间约 1 2 分钟。还可以将无人机拍摄的图像转换为广阔的 3D 模型,与所有流行的无人机兼容。 官方网站: 2. Tripo AI: 注册/登录:点击下方网址可免费体验(国内可访问)。官网首页有一只炫酷的机械手,移动鼠标有小彩蛋。点击“Start for Free”开启旅程。登录/注册界面简洁,输入邮箱地址,获取验证码完成注册并自动登录,也可使用谷歌账户直接登录。登录后可看到用户名及拥有的点数,每月有 600 点数,用完可换账户。 界面介绍:界面简洁,上方是工具导航栏,中间是公共作品展示区,底部是生成模型的工作区域,包括输入框和创建按钮。有“Create”“My Models”“Favorite”等页面,“Create”是创作主战场,“My Models”是个人作品库,“Favorite”是私人收藏列表。 官方网站:未提及
2024-10-08
三维模型生成工具
以下为一些 AI 生成 3D 模型的工具介绍: 1. 3dfy.ai 概览:是一家专注于开发先进技术的公司,由计算成像领域资深专家组成,能将稀疏数据转化为逼真三维世界。 使用场景:数字 3D 互动体验流行度提升,但受 3D 内容可用性限制,其技术能利用稀疏数据自动创建高质量 3D 模型。 目标用户:数字内容创作者和艺术家、游戏开发者和动画制作人、教育和培训行业专业人士、医疗行业、建筑和工程领域。 应用案例:暂无详细介绍。 网址:https://3dfy.ai/ 2. xiaohu.ai 相关 3D 信息 MakeACharacter:一键生成 3D 数字人,可自定义面部特征,基于真实人类扫描数据,支持中英文提示,兼容多个行业应用。网址:https://x.com/xiaohuggg/status/1743986486780076279?s=20 Rodin Gen1:3D 原生生成模型,拥有 1.5B 参数,可实现 3Dto3D 生成,生成 3D 模型及物理基础渲染材质,支持 3D LoRA 技术。网址:https://x.com/xiaohuggg/status/1743638052097184102?s=20 Skybox AI 0.9 版本更新:可以从文本提示或草图生成 360 度 3D 世界,使用 NeRF 技术,增强图像空间深度和真实感,提供不同分辨率 3D 网格下载。网址:https://x.com/xiaohuggg/status/1739926702158225859?s=20 扫描物体生成 3D 模型:使用 APP 扫描物体,完成 3D 全貌捕获,创建 AR QR 码,展示物体于任何地点,苹果新品官网展示中应用此技术。网址:https://x.com/xiaohuggg/status/1739259052448944139?s=20 3. provisual.app 概览:3D 模型在线可视化平台,易于使用,无需特殊技能或软件,可节省时间和成本,具有在线协作、实时渲染、无限视角、材质和纹理编辑、高质量输出等功能。 使用场景:产品设计、营销、教育等。 目标客户:营销机构、创意机构、包装公司、在线商店、设计院的设计师、美术师等。 应用案例:暂无详细介绍。 网址:https://provisual.app/ 4. tripo3d.ai 概览:人工智能驱动的 3D 建模平台,可使用文本或图像在几秒钟内生成高质量且可直接使用的 3D 模型。 案例和论文: 网址:https://www.tripo3d.ai/ 5. meshy 网址:https://www.meshy.ai/ 案例:秦海涛生成 文件:1161_1709633679.mp4
2024-10-08
数字媒体艺术专业,毕设做三维建筑浏览动画,灵感推荐
很抱歉,目前知识库中没有关于数字媒体艺术专业毕设做三维建筑浏览动画的灵感推荐相关内容。但您可以从以下几个方面获取灵感: 1. 研究不同风格的建筑,如现代主义、古典主义、后现代主义等,从中汲取设计元素和特点。 2. 观察自然景观,如山峦、水流、森林等,将自然元素融入建筑设计中。 3. 参考著名建筑师的作品,分析其创意和表现手法。 4. 从科幻电影、游戏中的虚拟建筑获取灵感,想象未来建筑的可能性。 5. 关注当下的城市发展和社会需求,思考如何通过建筑解决实际问题并展现创新理念。
2024-09-14
对于在电力设计院工作的人员有什么推荐的AI网站或工具吗,我想到的可能的场景包括写文档、编程、画设计图、三维模型渲染等,可不局限于这些场景
以下是为在电力设计院工作的人员推荐的一些 AI 网站和工具: 1. 对于画 CAD 图: CADtools 12:这是一个 Adobe Illustrator(AI)插件,为 AI 添加了 92 个绘图和编辑工具,包括图形绘制、编辑、标注、尺寸标注、转换、创建和实用工具。 Autodesk Fusion 360:是 Autodesk 开发的一款集成了 AI 功能的云端 3D CAD/CAM 软件,能帮助创建复杂的几何形状和优化设计。 nTopology:基于 AI 的设计软件,可帮助创建复杂的 CAD 模型,包括拓扑优化、几何复杂度和轻量化设计等。 ParaMatters CogniCAD:基于 AI 的 CAD 软件,能根据用户输入的设计目标和约束条件自动生成 3D 模型,适用于拓扑优化、结构设计和材料分布等领域。 一些主流 CAD 软件,如 Autodesk 系列、SolidWorks 等,提供了基于 AI 的生成设计工具,可根据用户输入的设计目标和约束条件自动产生多种设计方案。 2. 对于制作网站: 在选择工具时,需考虑目标和需求(如个人博客、商业网站、在线商店等)、预算、易用性、自定义选项以及支持和资源(如教程、社区论坛)等因素。 3. 对于审核规划平面图: HDAidMaster:云端工具,在建筑设计、室内设计和景观设计领域表现出色,搭载自主训练的建筑大模型 ArchiMaster。 Maket.ai:主要面向住宅行业,在户型设计和室内软装设计方面有探索,能根据输入的房间面积需求和土地约束自动生成户型图。 ARCHITEChTURES:AI 驱动的三维建筑设计软件,在住宅设计早期阶段可引入相关标准和规范约束设计结果。 需要注意的是,这些工具通常需要一定的相关知识和技能才能有效使用。对于初学者,建议先学习基本技巧,然后尝试使用这些 AI 工具来提高效率。以上内容由 AI 大模型生成,请仔细甄别。
2024-09-09
推荐一下国内可以通过对话微调的预训练模型
以下是为您推荐的国内可以通过对话微调的预训练模型相关信息: 为优化 Llama2 的中文能力,可使用以下数据: 网络数据:互联网上公开的网络数据,包括百科、书籍、博客、新闻、公告、小说等高质量长文本数据。 :中文 Wikipedia 的数据。 :中文悟道开源的 200G 数据。 :Clue 开放的中文预训练数据,经过清洗后的高质量中文长文本数据。 竞赛数据集:近年来中文自然语言处理多任务竞赛数据集,约 150 个。 :MNBVC 中清洗出来的部分数据集。 社区提供预训练版本 Atom7B 和基于 Atom7B 进行对话微调的模型参数供开放下载,关于模型的进展详见社区官网 https://llama.family。 另外,关于会话补全(Chat completions): gpt3.5turbo 和 textdavinci003 两个模型能力相似,但前者价格只是后者的十分之一,在大部分情况下更推荐使用 gpt3.5turbo。 gpt3.5turbo 模型不支持微调。从 2023 年 3 月 1 日起,只能对基于 GPT3.5 的模型进行微调。有关如何使用微调模型的更多细节,请参阅微调指南。 从 2023 年 3 月 1 日起,OpenAI 会将您通过 API 发送的数据保留 30 天但不会使用这些数据来提升模型。 关于安仔:Coze 全方位入门剖析 免费打造自己的 AI Agent(国内版): 目前国内版暂时只支持使用“云雀大模型”作为对话引擎,其携带上下文轮数默认为 3 轮,可修改区间是 0 到 30,具体轮数可根据业务需求决定。 在 Bot 编排页面的“技能”区域,可为 Bot 配置所需技能。不懂插件时,可选择区域右上角的“优化”按钮让 AI Bot 根据提示词自动选择插件。也可自定义添加所需插件,点击插件区域的“+”号选择加入具体插件。 在 Bot 编排页面的“预览与调试”区域,可测试 Bot 是否按预期工作,可清除对话记录以开始新的测试,确保 Bot 能理解用户输入并给出正确回应。
2024-10-18
推荐一下个人可以使用的通过对话微调的模型
以下是一些个人可以使用的通过对话微调的模型相关信息: 会话补全(Chat completions): GPT3.5 系列中,gpt3.5turbo 和 textdavinci003 有相似能力,但 gpt3.5turbo 价格仅为 textdavinci003 的十分之一,在多数情况下更推荐使用 gpt3.5turbo。不过,gpt3.5turbo 不支持微调,从 2023 年 3 月 1 日起,只能对基于 GPT3.5 的模型进行微调。 微调(Finetuning): 案例研究: 客户支持聊天机器人:通常包含相关上下文、对话摘要及最近消息,可能需要几千个示例处理不同请求和客户问题,建议审查对话样本确保代理消息质量,可使用单独文本转换微调模型生成摘要。 基于技术属性列表的产品描述:将输入数据转换为自然语言很重要,确保完成基于所提供描述,若常查阅外部内容,自动添加此类内容可提高性能,若描述基于图像,提取图像文本描述可能有帮助。 模型(Models): GPT3.5 模型可理解和生成自然语言或代码,其中功能最强大、最具成本效益且针对聊天优化的型号是 gpt3.5turbo,建议使用它而非其他 GPT3.5 模型,因其成本更低。 gpt3.5turbo:功能强大,针对聊天优化,成本低,会使用最新模型迭代更新,最大 Token 数 4096,训练数据截至 2021 年 9 月。 gpt3.5turbo0301:2023 年 3 月 1 日的快照,不会更新,仅在 2023 年 6 月 1 日结束的三个月内提供支持,最大 Token 数 4096,训练数据截至 2021 年 9 月。 textdavinci003:能完成任何语言任务,支持文本中插入补全,最大 Token 数 4097,训练数据截至 2021 年 6 月。 textdavinci002:与 textdavinci003 类似,使用监督微调而非强化学习训练,最大 Token 数 4097,训练数据截至 2021 年 6 月。 codedavinci002:针对代码完成任务优化,最大 Token 数 8001,训练数据截至 2021 年 6 月。 请注意,OpenAI 模型具有不确定性,相同输入可能产生不同输出,将温度设置为 0 可使输出大部分具有确定性,但可能仍有少量可变性。
2024-10-18
个人使用可以通过对话微调的大模型
大模型是指输入大量语料,使计算机获得类似人类的“思考”能力,能够进行文本生成、推理问答、对话、文档摘要等工作。可以用“上学参加工作”来类比大模型的训练和使用过程: 1. 找学校:训练大模型需要大量计算,GPU 更合适,只有购买得起大量 GPU 的才有资本训练。 2. 确定教材:大模型需要的数据量特别多,几千亿序列(Token)的输入基本是标配。 3. 找老师:用合适的算法让大模型更好理解 Token 之间的关系。 4. 就业指导:为让大模型更好胜任某一行业,需要进行微调(fine tuning)指导。 5. 搬砖:完成就业指导后,进行如翻译、问答等工作,在大模型里称为推导(infer)。 在 LLM 中,Token 被视为模型处理和生成的文本单位,能代表单个字符、单词、子单词等,具体取决于分词方法。将输入分词时会数字化形成词汇表。 个人动手实验方面: macOS 系统可采用 GGML 量化后的模型。有名的项目如 ggerganov/llama.cpp:Port of Facebook's LLaMA model in C/C++ ,首先编译,利用 Metal 的 GPU 用相应命令编译,然后去下载模型,还提供了 WebUI,启动 server 后默认监听 8080 端口,打开浏览器可对话。 Whisper 与 llama 类似,用 make 命令编译,去指定地址下载量化好的模型,转换音频,目前只接受 wav 格式,可用 ffmpeg 转化。 张梦飞的教程《用聊天记录克隆自己的 AI 分身》全程本地操作,目标是把微信聊天记录导出,用其微调模型,最终接入微信替你回复消息。
2024-10-18
国内能通过对话微调的语言大模型
以下是国内一些能通过对话微调的语言大模型: 教育领域:桃李(Taoli) 地址: 简介:在国际中文教育领域数据上进行了额外训练的模型,基于国际中文教育教材等构建资源库和问答数据集,并利用数据进行指令微调,让模型习得将知识应用到具体场景中的能力。 数学领域:chatglmmaths 地址: 简介:基于 chatglm6b 微调/LORA/PPO/推理的数学题解题大模型,样本为自动生成的整数/小数加减乘除运算,可 gpu/cpu 部署,开源了训练数据集等。 文化领域:Firefly 地址: 简介:中文对话式大语言模型,构造了许多与中华文化相关的数据,如对联、作诗、文言文翻译、散文、金庸小说等,以提升模型在这方面的表现。 金融领域: Cornucopia(聚宝盆) 地址: 简介:开源了经过中文金融知识指令精调/指令微调的 LLaMA7B 模型。通过中文金融公开数据+爬取的金融数据构建指令数据集,并在此基础上对 LLaMA 进行了指令微调,提高了 LLaMA 在金融领域的问答效果。基于相同的数据,后期还会利用 GPT3.5 API 构建高质量的数据集,另在中文知识图谱金融上进一步扩充高质量的指令数据集。 BBTFinCUGEApplications 地址: 简介:开源了中文金融领域开源语料库 BBTFinCorpus,中文金融领域知识增强型预训练语言模型 BBTFinT5 及中文金融领域自然语言处理评测基准 CFLEB。 XuanYuan(轩辕) 地址: 简介:国内首个开源的千亿级中文对话大模型,同时也是首个针对中文金融领域优化的千亿级开源对话大模型。在 BLOOM176B 的基础上针对中文通用领域和金融领域进行了针对性的预训练与微调,不仅可以应对通用领域的问题,也可以解答金融相关的各类问题,为用户提供准确、全面的金融信息和建议。
2024-10-18
我的app应用想要对接大语言模型,结合APP用户自身的数据,实现更精准的对话,是否有行业比较成功的案例可以借鉴
以下是一些在 APP 应用对接大语言模型方面比较成功的案例,可供您借鉴: 1. Poe: 由 Quora 开发,有 APP 版本,支持跨端使用。 集成了 Chat GPT、GPT4、Claude+、Claude、Dragonfly 等模型,同时支持用户自建 Chatbot。 不同语言模型回复效果有差异,适合需要调用多种大语言模型的用户。 Dragonfly 擅长给出较短的回答,并擅长在输入中给出示例时遵循指示。 Claude 更擅长创造性回复,配合 Poe 中的提问引导,非常适合在查阅资料时使用。 支持分享用户和模型的对话内容,但 GPT4、Claude+产品需要付费订阅使用。 访问地址: Poe 中的提问引导真的能够启发到用户,midjourney prompt 扩写 Chatbot 能力很惊人。 2. Perplexity.ai: 本质是个可联网的搜索引擎,完全免费,支持网页版、APP(目前支持 iOS,安卓即将推出)、Chrome 插件。 网页版能力全面,能够根据提问从互联网上搜寻信息并给出总结后的答案。 很多 Chat GPT 中调用插件才能解决的事情(联网查询、旅行、住宿、商品推荐)靠 Perplexity 就可以解决。 能给出信息来源网址,并根据搜索内容给出继续对话的问题建议。 最新推出的 Copilot 能力支持根据搜索内容进行信息补充,每 4h 内使用 5 次,调用 GPT4。 支持分享聊天内容到多渠道。 首页推荐当下流行的新闻、搜索内容。 支持筛选 Academic(包含不同领域的学术研究论文)、Wolfram|Alpha(包含数学、科学、经济学、语言学、工程学、社会科学、文化等领域的知识库)、Wikipedia(维基百科)、Youtube、Reddit(娱乐、社交和新闻网站)、News 进行搜索。 Chrome 插件可针对当前页面给出即时摘要。 访问地址:
2024-10-18
大模型合规
大模型的安全问题包括以下方面: 1. 对齐保障:通过对齐(指令调优),如 ChatGPT 从 GPT3 经过对齐而来,使其更好地理解人类意图,增加安全保障,确保不输出有害内容。对齐任务可拆解为监督微调及获取奖励模型和进行强化学习来调整输出分布。例如 LLAMA2 使用安全有监督微调确保安全,强化学习能让模型根据人类反馈更细粒度思考答案的安全性,面对训练分布外数据也能拒绝不当回答。 2. 数据过滤:在预训练阶段对数据进行过滤,如 baichuan2 采用此技术减少有害输出,但因数据关联性,仅靠此方法可能不够,模型仍可能从关联中学到有害内容,且面对不良信息时可能因缺少知识而处理不当。 3. 越狱问题:用户可能通过越狱(Jailbreak)使模型的对齐失效,重新回答各种问题。 大模型的特点包括: 1. 架构:分为 encoderonly、encoderdecoder、decoderonly 三类,目前熟知的 AI 助手多为 decoderonly 架构,由 transformer 衍生而来。 2. 规模:预训练数据量大,来自互联网的多种来源,且参数众多,如 GPT3 已达 170B 的参数。 GPT3 与 ChatGPT 相比,除形式不同外,安全性也有差别。
2024-10-18
生成分享图片工具
以下为一些生成分享图片的工具及相关方法: 1. Midjourney V6:可用于生成场景模型。 放大工具:Comfy Ui、Magnific Ai、Upscayl 深度图:Leia Pix 法线图:Shadermap 2. 辅助工具生成透明背景图像: 安装好插件后,在生成图片时勾选“layerdiffusion enabled”。 在“layerdiffusion method”中选择生成透明图像的模式,如“Only Generate Transparent Image”。 提示中输入透明物体的描述,如“玻璃杯”,点击生成可得到透明背景的玻璃杯图像。 也可上传背景图像,在“layerdiffusion method”中选择“From Background to Blending”,然后生成透明图像。 反之,也可以先生成透明的前景,然后选择“From Foreground to Blending”模式,生成背景。 特定模型: layer_xl_transparent_attn:用于将 Stable Diffusion XL 模型转化为透明图像生成器的模型。 layer_xl_transparent_conv:与 layer_xl_transparent_attn 类似,通过修改 conv 层的 offset 实现。 layer_xl_fg2ble:用于将 XL 模型转化为前景图像到混合图像的生成模型。 layer_xl_fgble2bg:用于基于前景和混合图像生成背景的模型。 layer_xl_bg2ble:将 XL 模型转化为根据背景图像生成混合图像的模型。 layer_xl_bgble2fg:将 XL 模型转化为根据背景和混合图像生成前景的模型。 vae_transparent_encoder:图像编码器,用于从像素空间中提取潜在偏移,帮助透明图像的生成。 vae_transparent_decoder:图像解码器,输出真实的 PNG 图像。 3. Aimwise WaytoAGI 百家号文旅分享中的方法: 开启 controlnet 边缘类模型,导入需要处理的 logo,调整合适的 cn 参数。 开启 controlnet IP adapter 功能性模型,导入风格参考图,调整合适的 cn 参数,可快速进行风格迁移和融合,提升出图效率。
2024-10-18
ai现在拍摄一本书的图片能够识别到这是什么书么
目前的 AI 技术在拍摄一本书的图片并识别其是什么书方面已经取得了一定的进展。 在图像识别领域,神经网络发挥着重要作用。例如,对于识别印刷体图片,通常会先将图片转换为黑白,调整至固定尺寸,然后与数据库中的内容进行对比以得出结论。但实际情况较为复杂,存在多种字体、不同拍摄角度等多种例外情况,单纯依靠添加规则的方法不可行,而神经网络专门处理这类未知规则的情况。 不过,要准确识别一本书,还面临一些挑战,如书籍的版本、封面设计的多样性等。但随着技术的不断发展和数据的积累,未来 AI 识别一本书的准确性有望不断提高。 同时,也有一些相关的实验和研究,比如通过设计工作流让 AI 自举式地进行创造,从作家的作品中提取名场面并转译成绘画指令等。
2024-10-17
怎么用AI绘制一个我指定的动漫人物原型的各类图片,例如日漫《好想告诉你》中的黒沼爽子
要使用 AI 绘制指定的动漫人物原型,如日漫《好想告诉你》中的黑沼爽子,您可以按照以下步骤进行: 1. 选择合适的 AI 绘画工具:目前有许多在线的 AI 绘画平台和软件可供选择,例如 DALL·E2、StableDiffusion 等。 2. 明确描述特征:在输入描述时,尽可能详细地描述黑沼爽子的外貌特征,包括发型(如黑色的长直发)、眼睛(如大而明亮的眼睛)、服装(如校服的款式和颜色)、表情(如羞涩的微笑)等。 3. 参考相关图片:如果可能,找到黑沼爽子的官方图片或其他粉丝绘制的作品,作为参考提供给 AI 绘画工具,以帮助其更好地理解您的需求。 4. 不断调整和优化:根据生成的初步结果,对描述进行调整和优化,例如修改某些特征的描述、增加更多细节等,以获得更符合您期望的图片。 需要注意的是,AI 绘画的结果可能会受到多种因素的影响,不一定能完全符合您的预期,但通过不断尝试和优化,您有机会获得较为满意的作品。
2024-10-17
有可以查询图片的快速方法吗?
以下为一些快速查询图片的方法: 1. 利用 Perplexity.AI 的 Search Images 功能:点击搜索结果旁的加号,可快速浏览并选择与主题紧密相连的图片资源。在挑选图片时,要避免使用带有水印、画质不清晰或分辨率较低的图片。图片出处主要在 twitter 和官方网站。 2. 对于 Midjourney 生成的图片: 作业 ID 是其唯一标识符,格式类似于 9333dcd0681e4840a29c801e502ae424,可以在图像文件名的第一部分、网站上的 URL 和图像文件名中找到。 在网页上,可通过选择...> Copy...>作业 ID 来在作品库中查找任何图像的作业 ID。 从 URL 中,可在打开作品的网页链接末尾找到 Job ID。 从文件名中,Job ID 在文件名的最后一部分。 使用表情符号✉️可以将已完成的作业发送到私信中,私信中将包括图像的 seed 号和作业 ID,但✉️表情符号只适用于您自己的作业。 3. 如果不喜欢用模板找封面图,可根据文章内容搜索匹配的封面。比如在公众号中搜索同行的封面,直接“拿来主义”。若文章正文里没有封面图,可用壹伴浏览器插件的“查看封面”按钮(需会员),或者使用秘塔 AI 搜索工具,输入文章链接获取封面。相关在线工具链接:https://www.mgpaiban.com/tool/wxfm.html ,为方便使用可将其收藏。
2024-10-16
有相关图片识别的相关知识和工具么?
以下是关于图片识别的相关知识和工具: 知识: 图片识别中,对于印刷体图片的识别,可能先将图片变为黑白、调整为固定尺寸,再与数据库对比得出结论。但实际情况复杂,存在多种字体、拍摄角度等例外情况,传统基于规则的方法不可行。 神经网络专门处理未知规则的情况,其发展得益于生物学研究支持和数学方向的指引,能处理如手写体识别等未知情况。 图像融合是将两个或多个图像合成为一个新的图像,以获得更全面和丰富的信息,可通过像素级、特征级和决策级融合等技术实现,在多个领域有应用。 目标检测是在图像或视频中准确识别和定位特定对象,多模态信息融合可提高其性能和鲁棒性。 工具和参考文献: 推荐阅读《这就是 ChatGPT》这本书,有助于深入了解相关内容。 以下是一些相关的参考文献: VisionLanguage Models for Vision Tasks:A Survey Visual Instruction Tuning towards GeneralPurpose Multimodal Model:A Survey ViTs are Everywhere:A Comprehensive StudyShowcasing Vision Transformers in Different Domain Multimodal Foundation Models:From Specialists to GeneralPurpose Assistants VisionLanguage Pretraining:Basics,Recent Advances,and Future Trends An Image is Worth 16x16 Words:Transformers for Image Recognition at Scale COGVLM:VISUAL EXPERT FOR LARGE LANGUAGE MODELS CogAgent:A Visual Language Model for GUI Agents AppAgent:Multimodal Agents as Smartphone Users Gemini:A Family of Highly Capable Multimodal Models QwenVL:A Versatile VisionLanguage Model for Understanding,Localization,Text Reading,and Beyond arxiv:ChatVideo:A Trackletcentric Multimodal and Versatile Video Understanding System arxiv:Video Understanding with Large Language Models:A Survey arxiv:Vid2Seq:LargeScale Pretraining of a Visual Language Model for Dense Video Captioning CSDN 博客:视频理解多模态大模型(大模型基础、微调、视频理解基础) CSDN 博客:逐字稿| 9 视频理解论文串讲(下)【论文精读】_视频理解论文串讲(下) Youtube:Twostream Convolutional Networks for Action Recognition in Videos arxiv:Is SpaceTime Attention All You Need for Video Understanding? 相关算法: 图像融合的相关算法有:小波变换、基于金字塔变换的多分辨率融合、基于区域的图像融合、基于特征的图像融合等。 目标检测的相关算法有:基于深度学习的目标检测算法(如 RCNN、Fast RCNN、Faster RCNN、YOLO、SSD 等)、基于传统计算机视觉技术的目标检测算法(如 HOG、SIFT、SURF 等)。
2024-10-16
现在最新的 AI 生成图片产品有哪些
目前最新的 AI 生成图片产品主要有以下这些: 1. Artguru AI Art Generator:在线平台,能生成逼真图像,为设计师提供灵感,丰富创作过程。 2. Retrato:AI 工具,可将图片转换为非凡肖像,有 500 多种风格供选择,适合制作个性头像。 3. Stable Diffusion Reimagine:新型 AI 工具,通过稳定扩散算法生成精细、具细节的全新视觉作品。 4. Barbie Selfie Generator:专为喜欢梦幻童话风格的人设计,能将上传的照片转换为芭比风格,效果出色。 此外,还有一些用于设计海报的 AI 产品: 1. Canva(可画):https://www.canva.cn/ ,是受欢迎的在线设计工具,提供大量模板和设计元素,AI 功能可协助选择颜色搭配和字体样式。 2. 稿定设计:https://www.gaoding.com/ ,智能设计工具采用先进人工智能技术,自动分析和生成设计方案。 3. VistaCreate:https://create.vista.com/ ,简单易用的设计平台,提供大量设计模板和元素,用户可使用 AI 工具创建个性化海报,智能建议功能可帮助快速找到合适设计元素。 4. Microsoft Designer:https://designer.microsoft.com/ ,通过简单拖放界面,可快速创建演示文稿、社交媒体帖子等视觉内容,集成丰富模板库和自动图像编辑功能。 以下是图像生成的 Top30 AI 产品数据: |排名|产品名|分类|6 月访问量(万 Visit)|相对 5 月变化| |||||| |1|Adobe firefly|图像生成|28890|0.053| |2|Freepik|图像生成|8341|0.076| |3|Shutterstock|图像生成|6389|0.068| |4|Civitai|图像生成|2592|0.046| |5|Leonardo.Ai|图像生成|1680|0.027| |6|Midjourney|图像生成|1673|0.109| |7|Yodayo|图像生成|1554|0.044| |8|Ideogram|图像生成|1140|0.081| |9|Picsart Al|图像生成|1103|0| |10|Sea Art AI|图像生成|912|0.018| |11|PixAI|图像生成|899|0.07| |12|Openart|图像生成|650|0.074| |13|NovelAI|图像生成|639|0.052| |14|Playground|图像生成|631|0.065| |15|Krea|图像生成|611|0.119| |16|nightcafe|图像生成|606|0.039| |17|Media.io|图像生成|551|0.086|
2024-10-16
我希望翻译一篇英文论文,是否有工具
以下是一些常见的可用于翻译英文论文的 AI 工具: 1. Wordvice AI:集校对、改写转述和翻译等功能于一体的 AI 写作助手,基于大型语言模型提供全面的英文论文润色服务。 2. ChatGPT:由 OpenAI 开发的大型语言模型,可用于学生和写作人员的多方面写作辅助。 3. Quillbot:人工智能文本摘要和改写工具,可用于快速筛选和改写文献资料。 4. HyperWrite:基于 AI 的写作助手和大纲生成器,可帮助用户在写作前进行头脑风暴和大纲规划。 5. Wordtune:AI 驱动的文本改写和润色工具,可以帮助用户优化文章的语言表达。 6. Smodin:提供 AI 驱动的论文撰写功能,可以根据输入生成符合要求的学术论文。 总的来说,这些 AI 工具涵盖了文章翻译和润色的各个环节,可以有效提高写作效率和质量。您可以根据自身需求选择合适的工具进行使用。 另外,为您提供一个关于论文《Attention Is All You Need》中 Transformer 在语言处理中的方法的示例:想象一下,您手头有一本用陌生语言写的书,要翻译成英语。有两种工具,一种是老式的“逐步翻译器(StepbyStepOMatic)”,每次只能看一个词,速度慢且可能因只关注单个词而错过词间特殊含义,导致翻译句子杂乱无章,比如把“The cat sat on the mat”翻译成“The mat sat on the cat”。另一种是“Transformer”,它不只是关注单个词汇,而是扫描整个页面,寻找最重要的词汇和短语,就像拥有 X 光视力,能透视页面,洞悉故事核心,能更准确地翻译句子,比如能认出“The cat sat on the mat”中“猫”和“坐”是关键线索。
2024-10-18
是否有AI生成简历的功能
有许多 AI 工具可以帮助您生成简历,以下为您列举一些: 1. Kickresume 的 AI 简历写作器:使用 OpenAI 的 GPT4 语言模型,能为简历摘要、工作经验和教育等专业部分编写内容,并保持一致语调。 2. Rezi:受到超过 200 万用户信任的领先 AI 简历构建平台,使用先进的 AI 技术自动化创建可雇佣简历的各个方面,包括写作、编辑、格式化和优化。 3. Huntr 的 AI 简历构建器:提供免费的简历模板,以及 AI 生成的总结/技能/成就生成器和 AI 驱动的简历工作匹配。 更多 AI 简历产品,您还可以查看这里:https://www.waytoagi.com/category/79 。 以上工具都能助您快速、高效地创建出专业的简历,您可根据自身需要选择最适合的工具。希望上述回答对您有所帮助! 内容由 AI 大模型生成,请仔细甄别。
2024-10-18
coze 是否可以通过LLM生成python代码运行查询excel表格信息?
在 Coze 中,可以通过以下步骤实现相关操作: 1. 进入 Coze,点击「个人空间 工作流 创建工作流」,打开创建工作流的弹窗。 2. 根据弹窗要求,自定义工作流信息,点击确认完成工作流的新建。 3. 新建后的编辑视图与功能中,左侧「选择节点」模块根据子任务需要,实际用到的有: 插件:提供一系列能力工具,拓展 Agent 的能力边界。如本案例中的思维导图、英文音频,无法通过 LLM 生成,需依赖插件实现。 大模型:调用 LLM,实现各项文本内容的生成。如本案例中的中文翻译、英文大纲、单词注释等依赖大模型节点。 代码:支持编写简单的 Python、JS 脚本,对数据进行处理。 4. 编辑面板中的开始节点、结束节点,分别对应分解子任务流程图中的原文输入和结果输出环节。 5. 按照流程图,在编辑面板中拖入对应的 LLM 大模型、插件、代码节点,即可完成工作流框架的搭建。 需要注意的是,因为前面需要对多维表格操作,所以要先在 http://open.feishu.cn 上建一个飞书机器人,并添加知识库或多维表格编辑权限,具体可参考飞书文档。
2024-10-16
如果我有一段文案,我希望能帮我排版成一个长图,是否有合适的ai工具
以下为您介绍一些可以将文案排版成长图的 AI 工具及相关信息: 无界 AI:可以用于生成海报底图,并完成主题海报的排版。大致流程包括确定主题与文案(可借助 ChatGPT 等文本类 AI 工具协助完成文案)、选择风格与布局、生成与筛选底图、配文与排版。 一些流行的 AI 文章排版工具: Grammarly:不仅是语法和拼写检查工具,还提供排版功能,可改进文档整体风格和流畅性。 QuillBot:AI 驱动的写作和排版工具,能改进文本清晰度和流畅性。 Latex:虽不是纯粹的 AI 工具,但在学术论文排版中广泛使用,使用标记语言描述文档格式,有许多 AI 辅助的编辑器和插件简化排版过程。 PandaDoc:文档自动化平台,使用 AI 帮助创建、格式化和自动化文档生成,适合商业和技术文档。 Wordtune:AI 写作助手,可重新表述和改进文本。 Overleaf:在线 Latex 编辑器,提供丰富模板和协作工具,适合学术写作和排版。 选择合适的工具取决于您的具体需求,如文档类型、出版标准和个人偏好。对于学术论文,Latex 和 Overleaf 受欢迎;对于一般文章和商业文档,Grammarly 和 PandaDoc 等可能更适用。 此外,还可以利用 AI 分析文章内容给出配图建议和关键词,然后在免费图库中快速找到合适的无版权图片,提高配图效率并避免版权风险。
2024-10-15
是否有可以输入图片输出重新绘制的流程图的AI工具
以下是一些可以输入图片输出重新绘制的流程图的 AI 工具: 1. Lucidchart: 简介:强大的在线图表制作工具,集成了 AI 功能,可自动化绘制多种示意图。 功能:拖放界面,易于使用;支持团队协作和实时编辑;丰富的模板库和自动布局功能。 官网:https://www.lucidchart.com/ 2. Creately: 简介:在线绘图和协作平台,利用 AI 功能简化图表创建过程,适合绘制多种图表。 功能:智能绘图功能,可自动连接和排列图形;丰富的模板库和预定义形状;实时协作功能。 官网:https://creately.com/ 3. Whimsical: 简介:专注于用户体验和快速绘图的工具,适合创建多种示意图。 功能:直观的用户界面,易于上手;支持拖放操作,快速绘制和修改图表;提供多种协作功能。 官网:https://whimsical.com/ 4. Miro: 简介:在线白板平台,结合 AI 功能,适用于团队协作和各种示意图绘制。 功能:无缝协作,支持远程团队实时编辑;丰富的图表模板和工具;支持与其他项目管理工具集成。 官网:https://miro.com/ 5. Microsoft Visio: 简介:专业的图表绘制工具,适用于复杂的流程图等。AI 功能可帮助自动化布局和优化图表设计。 功能:集成 Office 365,方便与其他 Office 应用程序协同工作;丰富的图表类型和模板;支持自动化和数据驱动的图表更新。 官网:https://www.microsoft.com/enus/microsoft365/visio/flowchartsoftware 6. Diagrams.net: 简介:免费且开源的在线图表绘制工具,适用于各种类型的示意图绘制。 功能:支持本地和云存储(如 Google Drive、Dropbox);多种图形和模板,易于创建和分享图表;可与多种第三方工具集成。 官网:https://www.diagrams.net/ 使用这些 AI 工具绘制示意图的一般步骤如下: 1. 选择工具:根据具体需求选择合适的 AI 绘图工具。 2. 创建账户:注册并登录该平台。 3. 选择模板:利用平台提供的模板库,选择适合需求的模板。 4. 添加内容:根据需求添加并编辑图形和文字,利用 AI 自动布局功能优化图表布局。 5. 协作和分享:若需要团队协作,可邀请团队成员一起编辑。完成后导出并分享图表。
2024-10-07