Navigate to WaytoAGI Wiki →
Home/Question List/Question Detail

MM-Vid使用教程

Answer

MM-Vid使用教程

MM-Vid是一个开源的视频分析工具箱,可以用于各种视频分析任务,例如视频动作识别、视频字幕生成、视频问答等。它提供了丰富的功能和强大的性能,并支持多种深度学习框架,例如PyTorch和TensorFlow。

安装MM-Vid

要安装MM-Vid,请按照以下步骤操作:

  1. 确保您已安装Python 3.7或更高版本。
  2. 克隆MM-Vid存储库:
git clone https://github.com/open-mmlab/mmdetection.git
cd mmdetection
  1. 安装依赖项:
conda install pytorch=1.8.0 torchvision=0.9.1 cudatoolkit=11.3 -c pytorch
pip install -r requirements.txt

使用MM-Vid进行视频动作识别

MM-Vid可以用于识别视频中的动作。要使用MM-Vid进行视频动作识别,请按照以下步骤操作:

  1. 准备您的视频数据。MM-Vid支持多种视频格式,例如MP4、AVI和MOV。
  2. 下载预训练模型。MM-Vid提供了各种预训练模型,您可以从[MM-Vid模型库]([移除了无效网址]。
  3. 配置配置文件。MM-Vid使用配置文件来配置各种参数,例如模型、数据集和训练策略。
  4. 运行训练或评估脚本。MM-Vid提供了各种脚本来训练和评估模型。

以下是一个示例,演示如何使用MM-Vid进行视频动作识别:

python tools/train.py configs/ava/thumos15/rgb_imagenet_inceptionv3_r50_2x_8x_100e.py

该命令将使用预训练模型InceptionV3-R50在Thumos15数据集上训练视频动作识别模型。

使用MM-Vid进行视频字幕生成

MM-Vid可以用于生成视频字幕。要使用MM-Vid进行视频字幕生成,请按照以下步骤操作:

  1. 准备您的视频数据。MM-Vid支持多种视频格式,例如MP4、AVI和MOV。
  2. 下载预训练模型。MM-Vid提供了各种预训练模型,您可以从[MM-Vid模型库]([移除了无效网址]。
  3. 配置配置文件。MM-Vid使用配置文件来配置各种参数,例如模型、数据集和训练策略。
  4. 运行训练或评估脚本。MM-Vid提供了各种脚本来训练和评估模型。

以下是一个示例,演示如何使用MM-Vid进行视频字幕生成:

python tools/train.py configs/ava/thumos15/tsn_r50_2x_8x_100e.py

该命令将使用预训练模型TSN-R50在Thumos15数据集上训练视频字幕生成模型。

使用MM-Vid进行视频问答

MM-Vid可以用于回答有关视频的问题。要使用MM-Vid进行视频问答,请按照以下步骤操作:

  1. 准备您的视频数据和问题数据。MM-Vid支持多种视频格式和问题格式。
  2. 下载预训练模型。MM-Vid提供了各种预训练模型,您可以从[MM-Vid模型库]([移除了无效网址]。
  3. 配置配置文件。MM-Vid使用配置文件来配置各种参数,例如模型、数据集和训练策略。
  4. 运行训练或评估脚本。MM-Vid提供了各种脚本来训练和评估模型。

以下是一个示例,演示如何使用MM-Vid进行视频问答:

python tools/train.py configs/ava/thumos15/video_qa_r50_2x_8x_100e.py

该命令将使用预训练模型Video-QA-R50在Thumos15数据集上训练视频问答模型。

更多信息

有关MM-Vid的更多信息,请参阅以下资源:

希望以上信息对您有所帮助。如果您还有其他问题,请随时提出。

Content generated by AI large model, please carefully verify (powered by aily)
Others are asking
自定义采样器(高级) Expected all tensors to be on the same device,but found at least two devices,cuda:0 and cpu!(when checking argument for argument mat2 in method wrapper_CUDA_mm)
以下是关于“自定义采样器(高级)”中“Expected all tensors to be on the same device,but found at least two devices,cuda:0 and cpu!(when checking argument for argument mat2 in method wrapper\_CUDA\_mm)”错误的解决办法: 错误原因:Expected all tensors to be on the same device,but found at least two devices,cuda:0 and cpu! 对应插件地址:https://github.com/sipie800/ComfyUIPuLIDFluxEnhanced 资料链接: 百度网盘:通过网盘分享的文件:ComfyUI_PuLID_Flux_ll 链接:https://pan.baidu.com/s/1dMLAb4s0vroO9Zk6ecKb7Q?pwd=cycy 提取码:cycy 来自百度网盘超级会员 v5 的分享 说明文档:https://www.xiaobot.net/post/b98d55699a754b9baac242a3e285be94 由于 AI 技术更新迭代,请以文档更新为准 更多内容收录在:https://xiaobot.net/p/GoToComfyUI 网盘:https://pan.quark.cn/s/129886bbcc61 相关链接: ComfyUI_PuLID_Flux_ll :https://github.com/lldacing/ComfyUI_PuLID_Flux_ll?tab=readmeovfile guozinan/PuLID 模型:https://huggingface.co/guozinan/PuLID/tree/main
2025-02-03
coze平台有没有DeepSeek的mml可以调用
在 Coze 平台上,DeepSeek 是可以调用的。以下是相关的具体信息: 效果对比:用 Coze 做了个小测试,大家可以对比看看,相关视频 如何使用: 搜索 www.deepseek.com,点击“开始对话” 将装有提示词的代码发给 Deepseek 认真阅读开场白之后,正式开始对话 设计思路: 将 Agent 封装成 Prompt,将 Prompt 储存在文件,保证最低成本的人人可用的同时,减轻自己的调试负担 通过提示词文件,让 DeepSeek 实现同时使用联网功能和深度思考功能 在模型默认能力的基础上优化输出质量,并通过思考减轻 AI 味,增加可读性 照猫画虎参考大模型的 temperature 设计了阈值系统,但是可能形式大于实质,之后根据反馈可能会修改 用 XML 来进行更为规范的设定,而不是用 Lisp(对您来说有难度)和 Markdown(运行下来似乎不是很稳定) 完整提示词:v 1.3 特别鸣谢:李继刚的【思考的七把武器】在前期为提供了很多思考方向;Thinking Claude 这个项目是现在最喜欢使用的 Claude 提示词,也是设计 HiDeepSeek 的灵感来源;Claude 3.5 Sonnet 是最得力的助手。
2025-02-03
Gamma收费吗
Gamma 是免费可用的,其模型权重开源且允许商用。免费版本也能生成质量较高的 PPT,随着不断优化改进,能满足大多数用户需求,在性能和用户体验方面表现出色。
2025-01-18
介绍一下GRAMMARLY
Grammarly 是一款非常实用的工具,具有以下特点和功能: 功能: 提供语法检查、拼写纠正、风格建议和语气调整等功能。 可以帮助提高写作的语法和词汇准确性,支持多种语言。 优点: 易于使用,支持多种平台(如浏览器扩展、桌面应用、手机应用),适用于多种语言。 网站: 使用方法:将写作内容粘贴到 Grammarly 编辑器中,获取语法和词汇改进建议。
2024-11-21
Gemma的主要功能
Gemma 具有以下主要功能: 1. 作为家用版小模型,有 2b(20 亿参数)和 7b(70 亿参数)版本。 2. 相对千亿参数的大模型,虽可能不适合解决特别复杂的任务,但被视为模型本地化提升基础操作效率的模板。 3. 支持本地部署,环境准备方面,可进入 ollama.com 下载程序并安装(支持 windows、linux 和 macos),在命令提示符中输入相关指令运行模型,如“ollama run gemma”(默认 2b),若想用 7b 则运行“ollama run gemma:7b”。 4. 模型里有一些常用的内部指令,如“/set 显示设置界面可调整的设置项”“/show 显示模型信息”“/load <model> 加载一个已有模型”“/bye 退出”。 5. 分词器和大量标语词汇使其特别适合处理各种语言,印度的开发人员可使用 Gemma 创建针对印度语言进行微调的 Navarasa 模型。 6. 2b 反应速度快,但能互动的话题有限;7b 输出内容质量相对较高,但会有明显卡顿,且对非英文语种的反馈不太稳定。 需要注意的是,Gemma 对非英文语种的反馈不是很稳定。
2024-11-14
gamma官网地址
Gamma 有以下两种含义: 1. 作为在线演示文稿制作平台,利用人工智能技术帮助用户快速创建和设计演示文稿。用户通过简单文本输入生成幻灯片,AI 系统提供布局建议和设计元素,支持多种多媒体格式嵌入,有多种预设主题和自定义选项,目标是简化创建过程,让非设计专业人士也能轻松制作出专业外观的演示文稿,节省设计时间,专注内容表达和创意发挥。 2. 谷歌推出的全新开源模型系列“Gemma”,相比 Gemini 更加轻量,保持免费可用,模型权重开源且允许商用。包含 Gemma 2B 和 Gemma 7B 两种权重规模的模型,每种规模都有预训练和指令微调版本。可通过 Kaggle、谷歌的 Colab Notebook 或 Google Cloud 访问,也第一时间上线了 HuggingFace 和 HuggingChat。官方页面:https://ai.google.dev/gemma/ 模型地址: 。
2024-11-10
Roo Code 的API Provider 参数哪里设置
要设置 Roo Code 的 API Provider 参数,您可以按照以下步骤进行操作: 1. 首先,进入 deepseek 的官网(https://www.deepseek.com/)。 2. 进入右上角的 API 开放平台。早期 deepseek 是有赠送额度,如果没有赠送的余额,可以选择去充值,支持美元和人民币两种结算方式,以及各种个性化的充值方式,并创建一个 API key。注意,API key 只会出现一次,请及时保存下来。 3. 接下来,以 cursor 作为代码编辑器为例,下载安装 cursor(https://www.cursor.com/),在插件页面搜索并安装 Roocline。安装完后,打开三角箭头,就可以看到 RooCline,选中 RooCline,并点击齿轮,进入设置。 4. 依次设置配置基本参数: API Provider:选择 DeepSeek。 API Key:填入已创建的 key。 模型:选择 DeepSeekreasoner。 5. 进行语言偏好设置。 6. 小贴士:记得把 HighRisk 选项都打开,这样 AI 才能帮您自动生成文件。最后做完所有不要忘记点击 Done 保存修改。在聊天框输入产品需求,输入需求后点击这个 blingbling 的星星,优化提示词。最终,在 deepseekr1 的加持下基本上是一遍过,各种特效效果交互逻辑也都正确。画面也算优雅,交互效果也不错,是您想要的。
2025-01-26
1. laptop 2. artificial intelligence 3. generative 4. log in 5. AI-driven 6. bluetooth headset 7. video call 8. platform Write some interesting sentences with these words
以下是为您生成的包含这些关键词的有趣句子: 当我使用配备强大 GPU 的 AI 笔记本电脑,如戴尔 Precision 移动工作站,通过蓝牙耳机关闭了周围的噪音,登录到专门的 AI 驱动平台,与远方的朋友进行视频通话,探讨生成式人工智能的奇妙之处,感觉真是太棒了! 在微星 Creator/Workstation 系列的 AI 笔记本上,我利用预装的深度学习框架,如 NVIDIA CUDA 和 cuDNN,进行着生成式模型的训练,同时通过蓝牙连接着蓝牙耳机,享受着不受干扰的创作过程,然后登录到特定的平台分享我的成果,这一切都由 AI 驱动,借助高速的网络实现了如同面对面的视频通话交流。 联想 ThinkPad P 系列的 AI 笔记本,拥有出色的散热和续航,让我能长时间专注于生成式项目的开发。我戴上蓝牙耳机,登录 AI 平台,与团队进行视频通话,共同推动项目前进,这一切都离不开 AI 驱动的强大力量。
2025-01-20
vidu如何使用
Vidu 的使用方法如下: 访问 Web 端:https://www.vidu.studio/ 极速生成,实测 30 秒最快推理速度 具有动漫风格,万物皆可二次元 角色可控,任意场景、任何动作,角色保持一致 精准理解,镜头、文字、动作,理解更准、生成更稳 大片质感,影视级画面和特效一键直出 关于如何使用“文生视频”“图生视频(用作起始帧)”“参考人物角色生成视频”,您可以参考以下链接获取相关视频: 为了保证更好地画面效果,丰富而准确的提示词对于将要创作的视频至关重要。本指南提供了基本示例结构、关键词以及风格化提示技巧,以帮助您更好地呈现创意灵感。请谨记,这些示例仅仅只是起点,您可以自由探索和创新,发挥自己天马行空的想象。
2025-01-19
nvidia
以下是关于您提到的“nvidia”的相关信息: 1. 英伟达在 AI 领域有新的动作,推出了通过画图提示词自动生成匹配的 ComfyUI 工作流的 ComfyGen,目前仅支持文生图模型。英伟达称其可以生成高质量的图并泛化到其他领域,效果甚至更符合人类对提示词的判断和理解,且在与其他模型和人类写的提示词的对比中略胜一筹,但项目未开源。 2. 英伟达起步于看到游戏市场的需求,如今在 AI 领域有重要地位。 3. 在 2024 年,全球芯片出口管制下,中国仍是重要市场。美国商务部长警告英伟达,中国在美芯片制造商中所占份额减少,但中国当地分支机构目前未受控制。字节跳动通过美国的甲骨文租用 NVIDIA H100 访问权限,阿里巴巴和腾讯与 NVIDIA 就在美国建立自己的数据中心进行谈判,同时谷歌和微软向中国大型企业推销云服务。 4. 2024 年,提供强大模型的成本下降,如 OpenAI 成本下降 100 倍,Google Gemini 也有价格下降且性能强劲。由于计算成本高,模型构建者越来越依赖与大型科技公司建立合作伙伴关系,反垄断监管机构担心这将巩固现有公司的地位。
2025-01-09
Video-LLaVA与多模态图像视频识别
以下是对 26 个多模态大模型的全面比较总结: 1. Flamingo:是一系列视觉语言(VL)模型,能处理交错的视觉数据和文本,并生成自由格式的文本作为输出。 2. BLIP2:引入资源效率更高的框架,包括用于弥补模态差距的轻量级 QFormer,能利用冻结的 LLM 进行零样本图像到文本的生成。 3. LLaVA:率先将 IT 技术应用到多模态(MM)领域,为解决数据稀缺问题,引入使用 ChatGPT/GPT4 创建的新型开源 MM 指令跟踪数据集及基准 LLaVABench。 4. MiniGPT4:提出简化方法,仅训练一个线性层即可将预训练的视觉编码器与 LLM 对齐,能复制 GPT4 展示的功能。 5. mPLUGOwl:提出新颖的 MMLLMs 模块化训练框架,结合视觉上下文,包含用于评估的 OwlEval 教学评估数据集。 6. XLLM:陈等人将其扩展到包括音频在内的各种模式,具有强大的可扩展性,利用 QFormer 的语言可迁移性成功应用于汉藏语境。 7. VideoChat:开创高效的以聊天为中心的 MMLLM 用于视频理解对话,为该领域未来研究制定标准,并为学术界和工业界提供协议。
2025-01-07
what are the free video generation ai
以下是一些免费的视频生成 AI 工具: 1. Hidreamai(国内,有免费额度):支持文生视频、图生视频。提示词使用中文、英文都可以。文生视频支持正向提示词、反向提示词、运镜控制、运动强度控制,支持多尺寸,可以生成 5s 和 15s 的视频。网址:https://hidreamai.com//AiVideo 2. ETNA(国内):由七火山科技开发的文生视频 AI 模型,可根据用户简短的文本描述生成相应的视频内容。生成的视频长度在 8 15 秒,画质可达到 4K,最高 38402160,画面细腻逼真,帧率 60fps。网址:https://etna.7volcanoes.com/ 3. Pika Labs:被网友评价为目前全球最好用的文本生成视频 AI。功能包括直接发送指令或上传图片生成 3 秒动态视频,目前内测免费。生成服务托管在 discord 中,加入方式为在浏览器中打开链接 https://discord.gg/dmtmQVKEgt ,在“generate”子区输入指令或上传图片生成视频。 4. Pika:非常出色的文本生成视频 AI 工具,擅长动画制作,并支持视频编辑。 5. SVD:如果熟悉 Stable Diffusion,可以直接安装这款最新的插件,在图片基础上直接生成视频。这是由 Stability AI 开源的 video model。 更多的文生视频的网站可以查看这里:https://www.waytoagi.com/category/38 。请注意,内容由 AI 大模型生成,请仔细甄别。
2024-12-26
deepseek教程
以下是关于 DeepSeek 的教程: 网址:https://www.deepseek.com/zh 。国内能访问,网页登录方便,目前完全免费。 获得游戏代码:只需点击开始对话,左边选择代码助手,直接向其许愿即可。 提示词使用: 效果对比:用 Coze 做了小测试,可对比查看 。 如何使用: 1. 搜索 www.deepseek.com,点击“开始对话”。 2. 将装有提示词的代码发给 DeepSeek 。 3. 认真阅读开场白之后,正式开始对话。 设计思路: 1. 将 Agent 封装成 Prompt,将 Prompt 储存在文件,保证最低成本的人人可用的同时,减轻自己的调试负担。 2. 通过提示词文件,让 DeepSeek 实现同时使用联网功能和深度思考功能。 3. 在模型默认能力的基础上优化输出质量,并通过思考减轻 AI 味,增加可读性。 4. 照猫画虎参考大模型的 temperature 设计了阈值系统,但是可能形式大于实质,之后根据反馈可能会修改。 5. 用 XML 来进行更为规范的设定,而不是用 Lisp(对作者有难度)和 Markdown(运行下来似乎不是很稳定)。 完整提示词:v 1.3 。 特别鸣谢:李继刚的【思考的七把武器】在前期提供了很多思考方向,Thinking Claude 是作者现在最喜欢使用的 Claude 提示词,也是设计 HiDeepSeek 的灵感来源,Claude 3.5 Sonnet 是最得力的助手。 使用技巧: 特点与优势: 1. 推理型大模型:核心是推理型大模型,不需要用户提供详细步骤指令,通过理解用户真实需求和场景提供答案。 2. 更懂人话:能够理解用户用“人话”表达的需求,不需要用户学习和使用特定提示词模板。 3. 深度思考:回答问题时能够进行深度思考,不是简单罗列信息。 4. 文风转换器:可以模仿不同作家的文风进行写作,适用于多种文体和场景。 正确方法: 1. 可以扔掉提示词模板:用自然语言描述,直接描述真实场景和具体需求,提示词模板的目的是清晰表达,如果使用也完全没问题。 2. 让 DeepSeek“说人话”:在提问时加上“说人话”“小学生能听懂”“菜市场大妈能听懂的话”等,可以让 DeepSeek 的回答更加通俗易懂。 3. 激发深度思考:让 DeepSeek 进行批判性思考、反面思考和复盘,以恢复其深度思考能力。 4. 文风转换:通过指定模仿的作家和文体,让 DeepSeek 生成符合特定风格的文本。
2025-02-01
零基础,如何系统性的学习和运用AI,请提供一个系统性的教程学习
对于零基础学习和运用 AI,以下是一个系统性的教程: 一、了解 AI 基本概念 首先,建议阅读「」部分,熟悉 AI 的术语和基础概念。了解什么是人工智能,它的主要分支(如机器学习、深度学习、自然语言处理等)以及它们之间的联系。同时,浏览入门文章,这些文章通常会介绍 AI 的历史、当前的应用和未来的发展趋势。 二、开始 AI 学习之旅 在「」中,您将找到一系列为初学者设计的课程。这些课程将引导您了解生成式 AI 等基础知识,特别推荐李宏毅老师的课程。您还可以通过在线教育平台(如 Coursera、edX、Udacity)上的课程,按照自己的节奏学习,并有机会获得证书。 三、选择感兴趣的模块深入学习 AI 领域广泛(比如图像、音乐、视频等),您可以根据自己的兴趣选择特定的模块进行深入学习。同时,建议您一定要掌握提示词的技巧,它上手容易且很有用。 四、实践和尝试 理论学习之后,实践是巩固知识的关键。尝试使用各种产品做出您的作品。在知识库提供了很多大家实践后的作品、文章分享,欢迎您实践后的分享。 五、体验 AI 产品 与现有的 AI 产品进行互动是学习 AI 的另一种有效方式。尝试使用如 ChatGPT、Kimi Chat、智谱、文心一言等 AI 聊天机器人,了解它们的工作原理和交互方式。通过与这些 AI 产品的对话,您可以获得对 AI 在实际应用中表现的第一手体验,并激发您对 AI 潜力的认识。 六、深入学习 Python 编程(如果希望继续精进) 至少熟悉以下内容: 1. Python 基础 基本语法:了解 Python 的基本语法规则,比如变量命名、缩进等。 数据类型:熟悉 Python 中的基本数据类型,如字符串(String)、整数(Integer)、浮点数(Float)、列表(List)、元组(Tuple)、字典(Dictionary)等。 控制流:学习如何使用条件语句(if)、循环语句(for 和 while)来控制程序的执行流程。 2. 函数 定义和调用函数:学习如何定义自己的函数,以及如何调用现有的函数。 参数和返回值:理解函数如何接收参数和返回结果。 作用域和命名空间:了解局部变量和全局变量的概念,以及它们是如何在 Python 中工作的。 3. 模块和包 导入模块:学习如何导入 Python 标准库中的模块或者第三方库。 使用包:理解如何安装和使用 Python 包来扩展程序的功能。 4. 面向对象编程(OOP) 类和对象:了解面向对象编程的基本概念,包括类的定义和实例化。 属性和方法:学习如何为类定义属性和方法,以及如何通过对象来调用它们。 继承和多态:了解类之间的继承关系以及如何实现多态。 5. 异常处理 理解异常:了解什么是异常,以及它们在 Python 中是如何工作的。 异常处理:学习如何使用 try 和 except 语句来处理程序中可能发生的错误。 6. 文件操作 文件读写:学习如何打开文件、读取文件内容以及写入文件。 文件与路径操作:理解如何使用 Python 来处理文件路径,以及如何列举目录下的文件。
2025-01-29
cursor教程
以下是关于 Cursor 教程的相关内容: 1. 中文教程网站: 网站:,提供中文教程,帮助用户更好地掌握 AI 代码编辑器 Cursor 的使用方法,适合想深入了解和学习 Cursor 的用户。 2. 配置教程: 从穷👻套餐 2.0 开始,对 Cursor 的配置主要集中在接入更多模型,如 Qwen2.5Coder、Llama3.3、deepseek v3、gemini2.0flash 等,大部分是为了省 API 费用,但未完全挖掘出 Cursor 的潜力。接入再多的模型也无法完全填平 Cursor 免费版和 Cursor Pro 的差距,如 Agent、Yolo、Composer、Tab 代码补全等功能被限制。此次收集到 3 个插件,2 大 API 和 N 个新的提示语用法,给 Cursor 装配上 Tab 代码补全、AI Agent、全系大模型接入、开发进度管理、状态回滚等功能。 3. 0 编程基础入门极简使用指南: 下载 Cursor:https://www.cursor.com/ 注册账号,可用邮箱如 google/github/163/qq 邮箱,直接接受二维码登录。 安装中文包插件。 在设置中 Rule for AI 配置,按 ctrl/cmd+i 输入需求,如“帮我做一个贪吃蛇游戏,在网页中玩”,并清晰表达需求,包括游戏界面、蛇的移动、食物、增长、死亡条件、得分、难度递增和游戏结束等规则。
2025-01-29
coze教程
以下是关于 Coze 教程的相关内容: 可能是全网最好的 Coze 教程之一,能一次性带您入门 Coze 工作流。即使是非技术出身的爱好者也能上手跟学,一站式学会 AI Agent 从设计到落地的全流程方法论。 阅读指南: 长文预警,请视情况收藏保存。 核心看点: 通过实际案例逐步演示,用 Coze 工作流构建能够稳定按照模板要求生成结构化内容的 AI Agent。 开源 AI Agent 的设计到落地的全过程思路。 10+项常用的 Coze 工作流的配置细节、常见问题与解决方法。 适合人群: 任何玩过 AI 对话产品的一般用户(如果没用过,可以先找个国内大模型耍耍)。 希望深入学习 AI 应用开发平台(如 Coze、Dify),对 AI Agent 工作流配置感兴趣的爱好者。 注:本文不单独讲解案例所涉及 Prompt 的撰写方法。文末「拓展阅读」中,附有相关 Prompt 通用入门教程、Coze 其他使用技巧等内容,以供前置或拓展学习。 Coze 概述: 字节的官方解释:Coze 是新一代一站式 AI Bot 开发平台。无论是否有编程基础,都可在 Coze 平台上快速搭建基于 AI 模型的各类问答 Bot,从解决简单的问答到处理复杂逻辑的对话。并且,可以将搭建的 Bot 发布到各类社交平台和通讯软件上,与这些平台/软件上的用户互动。 个人认为:Coze 是字节针对 AI Agent 这一领域的初代产品,在 Coze 中将 AI Agent 称之为 Bot。 字节针对 Coze 这个产品部署了两个站点,分别是国内版和海外版。 国内版: 网址:https://www.coze.cn 官方文档教程:https://www.coze.cn/docs/guides/welcome 大模型:使用的是字节自研的云雀大模型,国内网络即可正常访问。 海外版: 网址:https://www.coze.com 官方文档教程:https://www.coze.com/docs/guides/welcome 大模型:GPT4、GPT3.5 等大模型(可以在这里白嫖 ChatGPT4,具体参考文档:),访问需要突破网络限制的工具。 参考文档:https://www.coze.com/docs/zh_cn/welcome.html AI Agent 的开发流程: Bot 的开发和调试页面布局主要分为如下几个区块: 提示词和人设的区块。 Bot 的技能组件。 插件。 工作流。 Bot 的记忆组件。 知识库。 变量。 数据库。 长记忆。 文件盒子。 一些先进的配置,如触发器(例如定时发送早报)、开场白(用户和 Bot 初次对话时,Bot 的招呼话语)、自动建议(每当和 Bot 一轮对话完成后,Bot 给出的问题建议)、声音(和 Bot 对话时,Bot 读对话内容的音色)。下面会逐一讲解每个组件的能力以及使用方式。
2025-01-28
liblib教程
以下是关于 liblib 的教程: 线稿提取教程: 1. 出两张彩色的稍连贯的图片。 2. 提取第一张的线稿图: 用 liblib 提取,进入 https://www.liblib.art/ 。 点击【在线生图】。 滑到下面找出【ControlNet】并点击右侧。 点击上传图片。 勾选【启用】、【允许预览】、【Lineart】,预处理器选择【写实线稿提取】,并点击【运行&预览】。 把右侧的黑白图拉到左侧栏,预处理器改为【invert(白底黑线反色)】,并点击【运行&预览】,线稿提取大功告成!右键图片另存即可。 文生图简明操作流程: 1. 定主题:确定要生成的图片主题、风格和表达的信息。 2. 选择 Checkpoint:根据主题选择贴近的 checkpoint,如麦橘、墨幽的系列模型。 3. 选择 lora:寻找内容重叠的 lora 以控制图片效果及质量。 4. 设置 VAE:选择 840000 那一串。 5. CLIP 跳过层:设成 2。 6. Prompt 提示词:用英文写需求,单词、短语之间用英文半角逗号隔开。 7. 负向提示词 Negative Prompt:用英文写避免产生的内容,单词、短语组合,中间用英文半角逗号隔开。 8. 采样方法:一般选 DPM++2M Karras,也可参考 checkpoint 详情页上模型作者推荐的采样器。 9. 迭代步数:选 DPM++2M Karras 时,在 30 40 之间。 10. 尺寸:根据喜好和需求选择。 11. 生成批次:默认 1 批。 此外,还有 Liblibai 简易上手教程,包含概念与功能说明、简明操作流程、prompt 简易技巧三部分。可通过进入免费在线生图。若有不明白之处,可在评论区交流或添加微信:designurlife1st 沟通。
2025-01-28
从零到一的 LLM 学习教程
以下是从零到一学习 LLM 的教程: 1. 掌握深度学习和自然语言处理基础: 学习机器学习、深度学习、神经网络等基础理论。 掌握自然语言处理基础,如词向量、序列模型、注意力机制等。 相关课程:吴恩达的深度学习课程、斯坦福 cs224n 等。 2. 理解 Transformer 和 BERT 等模型原理: 了解 Transformer 模型架构及自注意力机制原理。 掌握 BERT 的预训练和微调方法。 阅读相关论文,如 Attention is All You Need、BERT 论文等。 3. 学习 LLM 模型训练和微调: 进行大规模文本语料预处理。 运用 LLM 预训练框架,如 PyTorch、TensorFlow 等。 微调 LLM 模型进行特定任务迁移。 相关资源:HuggingFace 课程、论文及开源仓库等。 4. LLM 模型优化和部署: 掌握模型压缩、蒸馏、并行等优化技术。 进行模型评估和可解释性研究。 实现模型服务化、在线推理、多语言支持等。 相关资源:ONNX、TVM、BentoML 等开源工具。 5. LLM 工程实践和案例学习: 结合行业场景,进行个性化的 LLM 训练。 分析和优化具体 LLM 工程案例。 研究 LLM 新模型、新方法的最新进展。 6. 持续跟踪前沿发展动态: 关注顶会最新论文、技术博客等资源。 此外,为您推荐以下 LLM 开源中文大语言模型及数据集集合的学习资源: 1. 面向开发者的 LLM 入门课程: 地址: 简介:一个中文版的大模型入门教程,围绕吴恩达老师的大模型系列课程展开,主要包括:吴恩达《ChatGPT Prompt Engineering for Developers》课程中文版,吴恩达《Building Systems with the ChatGPT API》课程中文版,吴恩达《LangChain for LLM Application Development》课程中文版等。 2. 提示工程指南: 地址: 简介:该项目基于对大语言模型的浓厚兴趣,编写了这份全新的提示工程指南,介绍了大语言模型相关的论文研究、学习指南、模型、讲座、参考资料、大语言模型能力以及与其他与提示工程相关的工具。 3. LangChain🦜️🔗中文网,跟着 LangChain 一起学 LLM/GPT 开发: 地址: 简介:Langchain 的中文文档,由是两个在 LLM 创业者维护,希望帮助到从刚进入 AI 应用开发的朋友们。 4. LLMs 九层妖塔: 地址: 简介:ChatGLM、ChineseLLaMAAlpaca、MiniGPT4、FastChat、LLaMA、gpt4all 等实战与经验。 关于 LLM 的预测原理: LLM 接触了包括教科书、文章、网站等在内的庞大数据集。在训练阶段,它们学会了理解语言的上下文和流动性,掌握了包括语法、风格,甚至是文本的语调等方面。当您用一个句子或问题来指导 LLM 时,它便利用自己所学的知识,预测接下来最可能的一个或几个词。这不仅是基于它在训练期间观察到的模式和规则的推测。 在提示工程方面,鉴于 LLM 的概率本质,提示工程师面临的挑战是如何引导 LLM 向着高度可预测和准确的结果方向发展。在相关课程中,您将学习许多技巧,这些技巧将帮助您掌握高度可预测的 LLM 输出结果的艺术和科学。但在深入学习之前,可以先从一些简单的练习开始,激活思维。
2025-01-28
coze中使用搜索插件,是不是无法搜索最新的新闻
Coze 集成了新闻搜索插件,其中的头条新闻插件能够持续更新,让您了解最新的头条新闻和新闻文章。所以在 Coze 中使用搜索插件是可以搜索到最新新闻的。Coze 还提供了多样化的插件库,涵盖了从基础的文本处理到高级的机器学习功能,以及众多符合平民生活化的插件,如天气预报、出行必备、生活便利等方面的插件。
2025-02-04
怎么注册并使用Claude
Claude 是由 Anthropic 公司开发的一款基于自然语言处理技术和人工智能算法的聊天机器人,以开创性计算机科学家克劳德·香农(Claude Shannon)的名字命名,利用先进的机器学习技术等为各种应用提供支持。 要注册 Claude.ai,您可以按以下步骤操作: 1. 访问 Claude 的官方网站。 2. 点击注册或登录界面中的“Sign Up”或“Continue with email”选项。 3. 填写您的邮箱地址并设置密码,然后提交表单。 4. 系统会向您的邮箱发送一封验证邮件,您需要打开邮件并使用其中的验证码来完成邮箱验证。 如果在注册过程中遇到需要海外手机号接收验证码的问题,您可以尝试以下解决方案: 1. 使用虚拟海外号服务,如 SMSActivate、SMSPool 等,购买一个海外虚拟手机号来接收 Claude 的验证码。 2. 借助第三方服务网站如 uiuihao.com 完成注册您的 Claude 账号。 3. 如果您有海外朋友,可以请他们帮忙接收验证码,并将验证码告诉您。 完成注册后,如果您希望升级到 Claude Pro 版本以获取更强大的功能和更高的 API 调用限额,您需要填写支付信息并选择一个合适的订阅计划。值得注意的是,订阅 Claude Pro 可能需要使用海外支付方式。 请注意,Claude.ai 目前处于公开测试阶段,未付费用户使用平台可能会受到一些限制。如果您在注册过程中遇到任何问题,可以参考其他用户分享的详细注册教程和解决策略。 Cursor 的注册和使用: 安装和使用前,请自备魔法! 1. 先安装 Cursor。进入 Cursor 官方:cursor.com,点击 Download for Free 进行下载。 2. 点击下载后的安装文件,按照提示一步一步安装。 3. 接下来注册账户,官方支持三种注册方式:GitHub、谷歌账号、普通邮箱地址,测试下来,发现也支持国内邮箱地址。 4. 普通用户注册后,可以免费体验 14 天的 Pro 版本,拥有高级模型的 500 次对话机会,比如 claude3.5sonnet、gpt4o。除此之外,可以无限使用 gpt4omini 和 cursorsmall 模型。 5. 其订阅模式为:免费用户一共可以使用 2000 次普通模型的问答;Pro 模式 20 刀/月,500 次高级模型问答,不限次普通模型问答;Business 模式 40 刀/月,全部不限制次数。 COZE 的注册: 点击:去注册账号:https://www.coze.com/ ,注册完成后登录,然后: 1. 点击 Creat bot 2. (后续步骤未详细说明) Discode 的注册: 先注册:https://discord.com/ ,注册后登录,然后: 1. (后续步骤未详细说明) 6. 点击这个地址进入:https://discord.com/developers/applications ,注意:Coze_bot1 的:APPLICATION ID、TOKEN 要保存好。 7. 继续:(后续步骤未详细说明)
2025-02-04
对于没有编程经验的使用者,Cursor和VSCode+roo code相比哪个更适合用来软件开发?需要从哪几方面进行考虑?
对于没有编程经验的使用者,在选择 Cursor 和 VSCode + Roo code 用于软件开发时,需要从以下几个方面进行考虑: 环境配置方面: 首先到 deepseek 的官网(https://www.deepseek.com/),进入右上角的 API 开放平台。早期 deepseek 有赠送额度,如果没有赠送余额,可以选择充值,支持美元和人民币两种结算方式以及各种个性化充值方式,并创建一个 API key,注意 API key 只会出现一次,请及时保存。 代码编辑器选择与设置方面: 可以下载 cursor(https://www.cursor.com/)或者 vscode(https://code.visualstudio.com/),只要代码编辑器可以下载插件即可。 以 cursor 作为代码编辑器为例,下载安装后,在插件页面搜索并安装 Roocline。安装完后,打开三角箭头可看到 RooCline,选中并点击齿轮进入设置,依次设置以下内容: 配置基本参数: API Provider:选择 DeepSeek。 API Key:填入已创建的 key。 模型:选择 DeepSeekreasoner。 语言偏好设置。 小贴士:记得把 HighRisk 选项都打开,这样 AI 才能帮您自动生成文件。最后做完所有不要忘记点击 Done 保存修改。 在聊天框输入产品需求,输入需求后点击这个 blingbling 的星星优化提示词,最终在 deepseekr1 的加持下基本上能一遍得到想要的结果,各种特效效果交互逻辑正确,画面优雅,交互效果不错。
2025-02-04
如何使用ai
使用 AI 可以通过以下方式实现不同的任务: 在阿里巴巴营销技巧和产品页面优化方面: 1. 市场分析:利用 AI 分析工具研究市场趋势、消费者行为和竞争对手情况,处理大量数据以获取关键信息。 2. 关键词优化:借助 AI 分析和推荐高流量、高转化的关键词,优化产品标题和描述,提高搜索排名和可见度。 3. 产品页面设计:使用 AI 设计工具根据市场趋势和用户偏好生成吸引人的产品页面布局。 4. 内容生成:依靠 AI 文案工具撰写有说服力的产品描述和营销文案,提高转化率。 5. 图像识别和优化:通过 AI 图像识别技术选择或生成高质量的产品图片,展示产品特点。 6. 价格策略:利用 AI 分析不同价格点对销量的影响,制定有竞争力的价格策略。 7. 客户反馈分析:借助 AI 分析客户评价和反馈,了解客户需求,优化产品和服务。 8. 个性化推荐:依靠 AI 根据用户购买历史和偏好提供个性化产品推荐,增加销售额。 9. 聊天机器人:使用 AI 驱动的聊天机器人提供 24/7 客户服务,解答疑问,提高满意度。 10. 营销活动分析:利用 AI 分析不同营销活动的效果,了解哪些活动更能吸引顾客并产生销售。 11. 库存管理:借助 AI 预测需求,优化库存管理,减少积压和缺货情况。 12. 支付和交易优化:利用 AI 分析不同支付方式对交易成功率的影响,优化支付流程。 13. 社交媒体营销:依靠 AI 在社交媒体上找到目标客户群体,通过精准营销提高品牌知名度。 14. 直播和视频营销:使用 AI 分析观众行为,优化直播和视频内容,提高观众参与度和转化率。 安装灵码 AI 编程助手: 在配置 AI 插件之前,需要先安装 python 的运行环境。具体操作是点击左上角的 FileSettingsPluginsMarketplace。安装完成插件会提示登录,按要求注册登录即可。使用上和 Fitten 差不多。 利用 AI 写课题方面: 1. 确定课题主题:明确研究兴趣和目标,选择具有研究价值和创新性的主题。 2. 收集背景资料:使用 AI 工具如学术搜索引擎和文献管理软件搜集相关研究文献和资料。 3. 分析和总结信息:利用 AI 文本分析工具分析收集到的资料,提取关键信息和主要观点。 4. 生成大纲:使用 AI 写作助手生成课题大纲,包括引言、文献综述、方法论、结果和讨论等部分。 5. 撰写文献综述:利用 AI 工具帮助撰写文献综述部分,确保内容准确完整。 6. 构建方法论:根据研究需求,利用 AI 建议的方法和技术设计研究方法。 7. 数据分析:若课题涉及数据收集和分析,使用 AI 数据分析工具处理和解释数据。 8. 撰写和编辑:利用 AI 写作工具撰写课题各部分,并进行语法和风格检查。 9. 生成参考文献:使用 AI 文献管理工具生成正确的参考文献格式。 10. 审阅和修改:利用 AI 审阅工具检查课题逻辑性和一致性,并根据反馈修改。 11. 提交前的检查:最后,使用 AI 抄袭检测工具确保课题原创性,并进行最后的格式调整。 需要注意的是,AI 工具可作为辅助,但不能完全替代研究者的专业判断和创造性思维。在使用 AI 进行课题写作时,应保持批判性思维,并确保研究的质量和学术诚信。
2025-02-03
我是AI 0基础使用者,如何学习使用AI
以下是为 AI 0 基础使用者提供的学习建议: 1. 了解 AI 基本概念: 阅读「」部分,熟悉 AI 的术语和基础概念,包括人工智能的主要分支(如机器学习、深度学习、自然语言处理等)以及它们之间的联系。 浏览入门文章,了解 AI 的历史、当前的应用和未来的发展趋势。 2. 开始 AI 学习之旅: 在「」中,找到为初学者设计的课程,特别推荐李宏毅老师的课程。 通过在线教育平台(如 Coursera、edX、Udacity)上的课程,按照自己的节奏学习,并有机会获得证书。 3. 选择感兴趣的模块深入学习: AI 领域广泛,比如图像、音乐、视频等,根据自己的兴趣选择特定的模块进行深入学习。 掌握提示词的技巧,它上手容易且很有用。 4. 实践和尝试: 理论学习之后,实践是巩固知识的关键,尝试使用各种产品做出作品。 在知识库提供了很多大家实践后的作品、文章分享,欢迎实践后的分享。 5. 体验 AI 产品: 与现有的 AI 产品进行互动,如 ChatGPT、Kimi Chat、智谱、文心一言等 AI 聊天机器人,了解它们的工作原理和交互方式。 6. 如果希望继续精进: 了解 AI 背景知识,包括基础理论(人工智能、机器学习、深度学习的定义及其之间的关系)、历史发展(简要回顾 AI 的发展历程和重要里程碑)。 掌握数学基础,如统计学基础(熟悉均值、中位数、方差等统计概念)、线性代数(了解向量、矩阵等线性代数基本概念)、概率论(基础的概率论知识,如条件概率、贝叶斯定理)。 熟悉算法和模型,包括监督学习(了解常用算法,如线性回归、决策树、支持向量机(SVM))、无监督学习(熟悉聚类、降维等算法)、强化学习(简介强化学习的基本概念)。 学会评估和调优,包括性能评估(了解如何评估模型性能,包括交叉验证、精确度、召回率等)、模型调优(学习如何使用网格搜索等技术优化模型参数)。 掌握神经网络基础,包括网络结构(理解神经网络的基本结构,包括前馈网络、卷积神经网络(CNN)、循环神经网络(RNN))、激活函数(了解常用的激活函数,如 ReLU、Sigmoid、Tanh)。 首先,带着好奇心去尝试。随便找一个国产 AI,然后随便聊点什么,比如小学奥数题,写一篇演讲稿,怎么看待 996 的牛马生活。看看 AI 擅长什么,不擅长什么,有没有地方能帮到你,有哪些地方做的其实不够好。不用一开始带着太强的目的性,就把它当作天猫精灵来玩。在聊了一段时间之后,每个人会有自己觉得更顺手的应用,留下来 1 2 个增加使用深度。当然如果条件足够,也可以直接氪 ChatGPT 或者 Claude,之后在处理一些复杂的任务时会省力一些。
2025-02-03
国内如何使用好chatgpt
在国内使用 ChatGPT 存在一些限制和需要注意的地方: 1. ChatGPT 是由 OpenAI 开发的知名 AI 助手。它具有开创性,是首批向公众开放的大规模商用 AI 对话系统之一,改变了人们对 AI 的认知,为技术发展指明方向。其界面简洁直观,交互流畅自然,降低了使用门槛。从技术角度看,背后的 GPT 系列模型性能和能力领先,能应对各种复杂任务和挑战。 2. 但也要认识到其局限性,随着 AI 技术发展,它已不是市场上唯一顶级选择,其他产品在特定领域可能超越它。 3. 对于国内用户,可能会因网络连接问题遇到连接不稳定、响应延迟等困扰,影响使用体验。 4. 如果您想在国内使用 ChatGPT,若身在海外或有稳定国际网络连接,它是不错的选择。若没有,可能需要考虑本地化替代方案。 5. 对于苹果系统用户,在中国区正常下载不了,需切换到美区。美区 Apple ID 注册教程可参考知乎链接: 。最终在 Apple Store 搜到 ChatGPT 下载安装,注意别下错。 6. 可以通过支付宝购买苹果礼品卡,地区切换到美区任意区,找到【品牌精选 折扣礼品卡】,点击【大牌礼品卡】,往下滑找到【App Store&iTunes US】礼品卡,按需购买,建议先买 20 刀。然后在 apple store 中兑换礼品卡,在 chatgpt 中购买订阅 gpt plus,中途不想订阅可在订阅列表中取消。 7. 使用时,打开 ChatGPT 应用或网页,点击开始对话。会员在苹果或安卓手机上购买的,电脑上也能登录。版本切到 ChatGPT 4o,点击右下角“耳机🎧”图标,选择声音可体验语音对话功能。
2025-02-02