直达「 通往AGI之路 」飞书知识库 →
首页/问答列表/问答详情

大模型安全相关资料

回答

以下是关于大模型安全的相关资料:

  • 大模型的架构:包括 encoder-only、encoder-decoder 和 decoder-only 三种类型。其中,我们熟知的 AI 助手基本采用 decoder-only 架构,这些架构都是由谷歌 2017 年发布的“attention is all you need”论文中提出的 transformer 衍生而来。
  • 大模型的特点:预训练数据量大,往往来自互联网上的论文、代码、公开网页等,通常用 TB 级别的数据进行预训练;参数非常多,如 Open 在 2020 年发布的 GPT-3 就已达到 170B 的参数。
  • 大模型的安全性保障:通过对齐(指令调优),包括监督微调、获取 reward model 与进行强化学习来调整语言模型的输出分布,以保证语言模型不会输出有害内容和信息。例如 LLAMA2 专门使用了安全有监督微调确保安全。但 Alignment 并不足以防护所有安全问题,存在越狱(Jailbreak)现象,会使模型对齐失效。此外,还有隐私问题。
  • 相关资源:如果想进一步了解大语言模型安全,可以访问 Github awesome-llm-safety 项目:https://github.com/ydyjya/Awesome-LLM-Safety
内容由 AI 大模型生成,请仔细甄别(powered by aily)

参考资料

从 0 到 1 了解大模型安全,看这篇就够了

[title]从0到1了解大模型安全,看这篇就够了encoder-only:这些模型通常适用于可以自然语言理解任务,例如分类和情感分析.最知名的代表模型是BERTencoder-decoder:此类模型同时结合了Transformer架构的encoder和decoder来理解和生成内容。该架构的一些用例包括翻译和摘要。encoder-decoder的代表是google的T5decoder-only:此类模型更擅长自然语言生成任务。典型使用包括故事写作和博客生成。这也是我们现在所熟知的众多AI助手的结构我们目前耳熟能详的AI助手基本都来自左侧的灰色分支,当然也包括ChatGPT。这些架构都是根据谷歌2017年发布的论文“attention is all you need”中提出的transformer衍生而来的,在transformer中,包括Encoder,Decoder两个结构目前的大型语言模型就是右侧只使用Decoder的Decoder-only架构的模型大模型又大在哪呢?第一,大模型的预训练数据非常大,这些数据往往来自于互联网上,包括论文,代码,以及可进行爬取的公开网页等等,一般来说,现在最先进的大模型一般都是用TB级别的数据进行预训练。第二,参数非常多,Open在2020年发布的GPT-3就已经达到170B的参数在GPT3中,模型可以根据用户输入的任务描述,或给出详细的例子,完成任务但这与我们熟知的ChatGPT仍然有着很大的差距,使用ChatGPT只需要像和人类一样对话,就可以完成任务。除了形式上的不同之外,还有一个更加重要的差距,那就是安全性上的差别。

从 0 到 1 了解大模型安全,看这篇就够了

[title]从0到1了解大模型安全,看这篇就够了这张图来自于OpenAI()于2022年发布的论文,正是这篇论文造就了我们所熟知的ChatGPT。通过对齐,也叫做指令调优,使得语言模型更好的理解人类意图,同时也对语言模型增加了安全保障,确保语言模型不会输出有害的内容和信息。对于对齐任务来说,我们可以拆解为两部分第一个部分是图中的Step-1.监督微调第二个部分则是图中的二和三,通过Step2获取reward model与通过Step3进行强化学习,调整语言模型的输出分布。这两种方法都能用于保证语言模型的安全LLAMA2()是当前使用最广泛的开源大型语言模型,在其技术报告中提到他们专门使用了安全有监督微调用于确保语言模型的安全.通过给定危险的问题和拒绝的回答,语言模型就像背诵一样,学会了对危险的查询生成拒绝的响应强化学习通过引入带有人类反馈的数据对模型进行强化学习,根据人类的偏好和反馈,语言模型在调整分布的过程中,需要更细粒度的思考,究竟什么样的答案是更好的,更安全的.并且由于引入了类似思考的过程,语言模型在面对训练分布外的数据,也有可能学会举一反三的拒绝掉不该回答的内容,更少的胡编乱造,产生幻觉性的输出那么Alignment就足够防护所有的安全问题了吗?毕竟现在的大型语言模型如GPT-4和Claude()等已经几乎不会回复危险的问题了.不,并不安全,就像测试工程师经常苦恼的问题一样,用户们的创造力是无穷的.,他们会用各种各样难以想象的方法试图得到他们想要的”不受束缚的”AI这种技术被统称为越狱,Jailbreak!通过Jailbreak,模型的对齐基本失效,重新变为一个回答各种问题的模型关于越狱部分,我将在文章的后半部分中专门详细讲解。在这里,我们先来讲讲隐私问题。

从 0 到 1 了解大模型安全,看这篇就够了

[title]从0到1了解大模型安全,看这篇就够了原创陈财猫财猫AI 2024-01-27 18:39发表于北京原文:https://mp.weixin.qq.com/s/YIPmEKHsfW5xqYAUSl2_zg引子:大家好,我是陈财猫。有人在想尽心思骗取GPTs的内置Prompt,有人坑蒙拐骗让AI客服把一辆新轿车卖给他,也有人在费尽心思地让GPT教他怎么做大炸弹:这都属于大模型安全的范畴。GPT越聪明,离我们越近,在生活中越常见,也就越危险。如何预防与阻止类似的风险,便是LLM Safety的研究范畴。今天,财猫AI团队为你撰写了《从0到1了解大模型安全,看这篇就够了》,带你一篇文章了解大语言模型安全研究领域。如果你想进一步了解大语言模型安全,可以访问我们的Github awesome-llm-safety项目:https://github.com/ydyjya/Awesome-LLM-Safety下面是正文,祝你阅读愉快!在过去的一年里,我相信许多人已经主动或被动地了解了ChatGPT()。事实上,在座的各位中,有不少人可能已经使用过ChatGPT。这个工具的强大之处,在于它能在人类生活的各个方面发挥作用。下面是大型语言模型近些年的演化图,从2018年之前灰色部分的词嵌入开始发展,而后三种颜色的分支代表着不同的技术路线。

其他人在问
大模型合规
大模型的安全问题包括以下方面: 1. 对齐保障:通过对齐(指令调优),如 ChatGPT 从 GPT3 经过对齐而来,使其更好地理解人类意图,增加安全保障,确保不输出有害内容。对齐任务可拆解为监督微调及获取奖励模型和进行强化学习来调整输出分布。例如 LLAMA2 使用安全有监督微调确保安全,强化学习能让模型根据人类反馈更细粒度思考答案的安全性,面对训练分布外数据也能拒绝不当回答。 2. 数据过滤:在预训练阶段对数据进行过滤,如 baichuan2 采用此技术减少有害输出,但因数据关联性,仅靠此方法可能不够,模型仍可能从关联中学到有害内容,且面对不良信息时可能因缺少知识而处理不当。 3. 越狱问题:用户可能通过越狱(Jailbreak)使模型的对齐失效,重新回答各种问题。 大模型的特点包括: 1. 架构:分为 encoderonly、encoderdecoder、decoderonly 三类,目前熟知的 AI 助手多为 decoderonly 架构,由 transformer 衍生而来。 2. 规模:预训练数据量大,来自互联网的多种来源,且参数众多,如 GPT3 已达 170B 的参数。 GPT3 与 ChatGPT 相比,除形式不同外,安全性也有差别。
2024-10-18
目前最好用的机关公文写作大模型或智能体
目前在机关公文写作方面表现较好的大模型或智能体有: 智谱清言:由智谱 AI 和清华大学推出,基础模型为 ChatGLM 大模型。在工具使用排名国内第一,在计算、逻辑推理、传统安全能力上排名国内前三。更擅长专业能力,但在代码能力上还有优化空间,知识百科方面稍显不足。可应用场景广泛,在 AI 智能体方面相关的应用,包括任务规划、工具使用及长文本记忆相关场景表现出色,在较复杂推理应用上效果不错,也适用于广告文案、文学写作等。 此外,在大模型中,智能体是大模型的一个重要发展方向。智能体可以理解为在大模型(如 LLM)基础上增加了工具、记忆、行动、规划等能力。目前行业里主要用到的如 langchain 框架,能通过代码或 prompt 的形式将 LLM 与 LLM 之间以及 LLM 与工具之间进行串接。
2024-10-18
你知道有支持个性化训练的大预言模型么
以下是一些支持个性化训练的大语言模型: 1. Character.ai:更注重人格属性,试图满足社交、情感、陪伴等需求,与 ChatGPT 侧重不同,后者注重提高效率和解放生产力。 2. Midjourney:今天发布了模型个性化 Personalization 或 'p'的早期测试版本。模型个性化会学习用户的喜好,以便更可能用用户的口味来填补空白。其要求包括目前从成对排名中的投票和喜欢的探索页面上的图像中学习,需要大约 200 个成对排名/喜欢才能生效。使用时只需在提示后输入 'p',或使用提示栏中的设置按钮为所有提示启用个性化功能,还可以使用 's 100'控制个性化效果的强度。但需注意个性化目前不是一个稳定的功能,会随着进行更多的成对排名而变化,且可能会在接下来的几周内推出算法更新。
2024-10-18
我该如何利用文心一言、kimi等已有的大语言模型去作个性化训练?
已有的大语言模型如文心一言、kimi 等通常不支持个人进行个性化训练。 大语言模型的相关知识包括: 国内大模型有通用模型如文心一言、讯飞星火等,处理自然语言;还有垂直模型,专注特定领域。 大语言模型工作原理包括训练数据、算力、模型参数,在训练数据一致情况下,模型参数越大能力越强。 Transformer 是大语言模型训练架构,具备自我注意力机制能理解上下文和文本关联。 大模型可能因错误数据导致给出错误答案,优质数据集对其很重要。 Prompt 分为 system prompt、user prompt 和 assistant prompt,写好 prompt 的法则包括清晰说明、指定角色、使用分隔符、提供样本等。 Fine tuning 是基于通用大模型,针对特定领域任务提供数据进行学习和调整,以适应特定领域的需求。 学习大型语言模型(LLM)的开发是一个系统性的过程,需要涵盖多个方面的知识和技能: 掌握深度学习和自然语言处理基础,包括机器学习、深度学习、神经网络等基础理论,以及自然语言处理基础,如词向量、序列模型、注意力机制等。 理解 Transformer 和 BERT 等模型原理,掌握相关论文。 学习 LLM 模型训练和微调,包括大规模文本语料预处理,使用预训练框架,以及微调 LLM 模型进行特定任务迁移。 掌握 LLM 模型优化和部署,包括模型压缩、蒸馏、并行等优化技术,模型评估和可解释性,以及模型服务化、在线推理、多语言支持等。 进行 LLM 工程实践和案例学习,结合行业场景,进行个性化的 LLM 训练,分析和优化具体 LLM 工程案例,研究 LLM 新模型、新方法的最新进展。 持续跟踪前沿发展动态。 机器学习是人工智能的一个子领域,深度学习是机器学习的一个子领域,大语言模型是深度学习在自然语言处理领域的应用之一,具有生成式 AI 的特点。
2024-10-18
如何训练自己的文生文大模型?
训练自己的文生文大模型是一个复杂且计算量巨大的过程,主要包括以下步骤: 1. 准备资源:需要大量的互联网文本资源,通常约 10TB 的文本,用于模型的训练。 2. 硬件设施:需要一个 GPU 集群,大约 6000 个 GPU,运行约 12 天,费用约 200 万美元。 3. 模型选择与理解:了解不同的模型架构和算法,例如 Llama2 70B 等开源模型,以及其训练方式和相关论文。 4. 数据处理:对获取的大量文本进行处理和压缩,将其转化为适合模型训练的格式。 5. 训练过程:这是一个复杂的计算过程,类似于对互联网的一大块内容进行有损压缩,以获取模型的参数。 需要注意的是,模型训练比模型推理要复杂得多,模型推理可以在 MacBook 上运行,但训练需要强大的计算能力和大量的资源支持。
2024-10-18
如何用大模型写公众号文章
以下是使用大模型写公众号文章的步骤: 1. 搭建工作流: 大模型批量总结文章内容: 模型选择:默认的豆包 32k 够用,怕上下文长度不够可选择更大的模型,如 kimi128k。 配置参数:选择批处理,批处理输入参数包括读取的文章内容正文、代码处理后的 url 链接和标题。下方的输入参数选择大模型节点输出的 content 正文、title 标题、url 文章链接、author 作者。提示词输入相关内容,将这四部分内容一起送给大模型进行总结,最终拼接成 markdown 格式输出。 汇总格式化最终输出内容:使用代码节点,将大模型输出的内容进行最终输出的格式化。参数配置包括输入选择上一步输出的 outputList,在 IDE 中编辑选择 Python 并输入相关代码,配置输出项为 result。 公众号总结推送到微信:根据 Server 酱的 API 文档,自建插件实现把格式化好的内容推送到用户微信。配置包括 title 为汇总公众号总结页面的标题,参数值选择“输入”并起名;desp 为页面主体内容,选择上一步最终输出内容;key 引用开始节点的 key。 2. 获取指定网站内容:比如获取 36kr 网站 AI 频道资讯:https://36kr.com/information/AI/ ,并在 Coze 中设置提示词和输出结果。 3. 使用工作流重写: 工作流思路:将获取的新闻让大模型重新按照自己的风格创作新闻内容,如搞笑、严肃、中二风格等,甚至加入个人元素。 搭建工作流:使用 GetToutiaoNews、大模型等组件,配置 GetToutiaoNews 和大模型。 4. 使用 Webpilot 插件:省去工作流获取新闻列表,让 Webpilot 去分析,思考是否可增加大模型重写及相关配置。 5. 同步飞书:将数据同步到飞书,可变为训练数据。 此外,还有关于【SD】大模型/Lora 触发词插件 loraprompttool 的介绍,安装该插件后可直接看到官方例图并一键拷贝提示词和设置参数,有助于学习关键提示词写法。若想要该插件,可添加公众号【白马与少年】,回复【SD】获取。
2024-10-17
通过cursor编程的最新资料
以下是关于 Cursor 编程的最新资料: 小白视角: 已经通过 Cursor 跑出来第一个 html 文件,后续将继续探索,包括: 第一弹,一点小小的震撼——cursor 黑客松。 第二弹,文案工作者的福音——cursor 批量写 prompt、写文章。 第三弹,上一辈的崛起——cursor 的“向上”,给爹妈一场安利。 Cursor 官方功能介绍: Chat 聊天:允许与看到代码库的 AI 交谈,能看到当前文件和光标,可通过特定操作添加代码块到上下文或与整个代码库聊天。 Codebase Answers 代码库答案:使用特定操作询问有关代码库的问题,Cursor 会搜索代码库查找相关代码。 引用您的代码:通过@符号引用代码用作 AI 的上下文,键入@可查看文件夹中文件和代码符号列表。 使用图像:点击聊天下方的图片按钮或拖入图片可将视觉上下文包含在聊天中。 询问 Web:使用@Web 从 Internet 获取最新信息,Cursor 会构建搜索查询并搜索 Web 查找相关信息作为附加上下文。 @Web 相关:借助@Web,Cursor 会根据查询和提供的上下文构建搜索查询并在 Web 上搜索以查找相关信息,可在 Cursor 设置中开启“始终搜索 Web”使 Cursor 在每个查询中搜索 Web 聊天。
2024-10-12
有了解AI视频以及学习AI视频制作比较好的资料吗
以下是一些学习 AI 视频制作的较好资料: 软件教程: 工作流教程: 学社精华: 3 月 24 日:【1.5 入门 AI 视频】专门整理的 AI 视频板块,包含多个工具教程,如 Dreamina、Pika、SVD、Pixverse 等。 AJ 分享了几个重要资源:
2024-10-11
给主题和相关资料,生成ppt
以下是为您生成的关于使用 AI 工具生成 PPT 的方法: 卓 sir 的方法: 1. 让 GPT4 生成 PPT 大纲,此环节最耗时,约 2 小时。 2. 将大纲导入到 WPS 中,启用 WPS AI 一键生成 PPT。 3. 让 chatPPT 添加动画。 4. 手动修改细节,如字体、事实性错误等。 熊猫 Jay 的方法: 1. 闪击 网址:https://ppt.isheji.com/?code=ysslhaqllp&as=invite 选择模版。 输入大纲和要点,将准备的大纲转换成适配闪击的语法。 点击文本转 PPT 并确定。 在线编辑,导出时会员有优势。 2. Process ON 网址:https://www.processon.com/ 输入大纲和要点,有两种方式: 导入大纲和要点,包括手动复制(较耗时)和导入方式(将大纲内容复制到本地 txt 文件并改为.md 后缀,导入 Xmind 软件后再导入 Process ON)。 输入主题自动生成大纲和要求。 选择模版并生成 PPT,点击下载,选择导入格式为 PPT 文件,选择模版后下载。可在某宝购买一天会员。
2024-10-07
我想寻找、制作并下载一份视频资料,使用什么AI工具最好?
以下为您推荐一些用于寻找、制作和下载视频资料的 AI 工具及相关方法: 1. 转绘工具 Ebsynth Utility:这是常用的转绘工具。在选取素材时,需注意主题占画面 50%以上,背景不要太杂乱,尽量不选带特效的视频。若在抖音和快手平台上遇到无法下载或有水印的视频,可复制链接在微信小程序上搜索“一键去水印”来下载。 2. 云端 Comfyui 出图结合 AI 视频软件: 打开工作流链接 https://www.esheep.com/app/5977 ,注册或登录。 步骤 1:红色框选择生成图片的大模型,绿色框添加提示词,蓝色框填写反向提示词。 步骤 2:红色框设置 16:9 的比例,绿色框修改参数,不理解可保持默认。 步骤 3:红色框上传深度图。 步骤 4:点击立即生成,在生成历史中下载图片。
2024-10-07
coze相关学习资料和案例
以下是关于 Coze 的学习资料和案例: 共学资料: 教程: 核心看点: 通过实际案例逐步演示,用 Coze 工作流构建一个能够稳定按照模板要求,生成结构化内容的 AI Agent 开源 AI Agent 的设计到落地的全过程思路 10+项常用的 Coze 工作流的配置细节、常见问题与解决方法 适合人群: 任何玩过 AI 对话产品的一般用户(如果没用过,可以先找个国内大模型耍耍) 希望深入学习 AI 应用开发平台(如 Coze、Dify),对 AI Agent 工作流配置感兴趣的爱好者 注:本文不单独讲解案例所涉及 Prompt 的撰写方法。文末「拓展阅读」中,附有相关 Prompt 通用入门教程、Coze 其他使用技巧等内容,以供前置或拓展学习。 Coze 国内版地址:https://www.coze.cn/home Coze 海外版地址:https://www.coze.com/home
2024-10-02
有没有把资料信息存放到知识库,通过问答方式得到答案的案例
以下是把资料信息存放到知识库,通过问答方式得到答案的案例: 安仔在开源 AI 社区中,基于 RAG 机制实现了知识库问答功能。首先创建一个包含大量社区 AI 相关文章和资料的知识库,例如创建有关 AI 启蒙和信息来源的知识库,通过手工录入方式上传栏目所有文章内容,然后陆续将社区其他板块的文章和资料导入。在设计 Bot 时,添加这个知识库,并设置合适的搜索策略、最大召回数量和最小匹配度,以更好地利用知识库返回的内容进行结合回答。 在阅读书籍、论文的互动式问答场景中,对应的关键词库包括书籍、报告、文件、详细信息、查询、主题、作者、出版日期、出版社、问题、方面、原则、方法、概括、主要观点、解释。需要注意的是,ChatGPT 的知识库截止于 2021 年 9 月,对于更新的数据或最新出版的书籍、报告和文件,它无法提供答案。如果有现成的 PDF,建议通过 CHATDOC 网站进行互动式问答。
2024-09-29
大模型安全攻防
大模型安全攻防主要包括以下方面: 模型侧防御:对于有模型训练能力的大模型厂商,可通过对抗训练、安全微调、带安全任务的多任务学习以及在对话过程中进行安全性的上下文动态感知等方式增强安全性,但需平衡安全性与模型性能。 开发中的提示词优化:开发者应在开发中带着安全意识优化应用和系统的提示词,加入安全引导和禁止内容等。如在提示词设计时考虑安全性,相关的智能体框架也包含此功能。 输出侧防御:可采用传统的各种防御和内容过滤手段。 攻击类型:包括白盒攻击(在知道模型参数的情况下进行攻击),以及让人类或大语言模型作为鉴别器参与攻击样本生成。 针对越狱问题的防御手段。 未来与展望:例如 OPENAI 首席科学家 ilya 联合董事会解雇 sam altman 被认为与模型安全失控的担忧有关。bengio、hinton、姚期智等著名研究者认为大模型及其驱动的 AI 必须引入安全性监管,防止其失控或对人类造成伤害,并签署了联名公开信表达对 AI 失控的担忧,呼吁学术界和工业界对大模型进行监管。 在提示词防护方面,关键要点包括: 1. 任何文本输出场景都需实施一定程度的防护措施,侧重于模型交互层面的安全。 2. 完整的 RAG 提示词应包含输入防护和输出防护,确保模型输入和输出过程安全。 3. 目前没有能百分之百拦截所有攻击的完美技术,尤其是针对提示词的拦截技术。 4. 为全面提升模型安全性能,有必要在模型训练阶段采取更全面的措施,如对抗样本训练。
2024-09-25
用ai做ppt会有数据安全和隐私泄露 风险吗
使用 AI 制作 PPT 可能存在一定的数据安全和隐私泄露风险。 一方面,取决于所使用的 AI 工具及其数据处理政策。如果该工具的开发者或服务提供商没有采取足够的安全措施来保护用户数据,那么数据就有可能被泄露。 另一方面,在输入数据到 AI 系统时,如果包含了敏感信息,且该信息未经过妥善处理和加密,也存在被窃取或不当使用的风险。 然而,许多正规和知名的 AI 工具通常会采取一系列措施来保障数据安全和用户隐私,例如数据加密、严格的访问控制、遵循相关法律法规等。但用户在选择使用 AI 工具制作 PPT 时,仍需仔细阅读服务条款和隐私政策,了解数据的处理和存储方式,以最大程度降低潜在的风险。
2024-09-22
您知道安全大模型嘛?
安全大模型是一个重要的研究领域。以下是关于安全大模型的一些关键信息: 数据过滤:在预训练阶段对模型的预训练数据进行过滤,不让模型学习有害知识。例如,baichuan2 在其开源技术报告中提到使用此技术进行数据过滤以减少有害输出,但因数据关联性,仅数据过滤可能不够。 模型对齐:ChatGPT 的早期版本 GPT3.5 由 GPT3 经过对齐得来,通过与人类价值观对齐,语言模型的任务目标和输出形式发生变化,遵循 helpful、honest、harmless 原则确保输出的无害性和真实性。 模型架构:大型语言模型通常采用 Transformer 衍生的 Decoderonly 架构,如 ChatGPT。 规模特点:大模型的预训练数据量大,来自互联网的多种来源,且参数众多。 攻击与防御:存在白盒攻击等攻击方式,同时也有相应的防御手段。 未来展望:OPENAI 首席科学家 ilya 因担心模型安全失控而解雇 sam altman。hinton 等著名研究者认为大模型及其驱动的 AI 必须引入安全性监管,防止失控或对人类造成伤害,并签署联名公开信呼吁监管。
2024-08-18
换脸免费好用软件,安全 国内可以用
以下是一些国内可以使用的免费且好用的换脸软件: facefusion:打开软件后,需返回实例列表,点击自定义服务按钮,通过 web 浏览器访问其 UI 界面。上传图片、视频后,可在右侧预览效果,点击开始按钮执行换脸处理,完成后可下载处理后的视频。 Roop:启用该插件后,选择要替换的人物照片,设置面部修复和参数。生成后,可将图片发送到“图生图”进行重绘。 Swapface:有免费额度,可进行图片换脸、视频换脸和直播实时换脸,需下载电脑客户端使用。可通过邀请好友、点评软件获取积分,换脸时可识别图片、视频里的多张脸进行替换。
2024-07-08
推荐一些不错的AI翻译相关文章
以下为您推荐一些与 AI 翻译相关的文章和资源: 关于 PDF 翻译的 AI 产品: DeepL(网站):点击页面「翻译文件」按钮,上传 PDF、Word 或 PowerPoint 文件即可。 沉浸式翻译(浏览器插件):安装插件后,点击插件底部「更多」按钮,选择「制作双语 BPUB 电子书」、「翻译本地 PDF 文件」、「翻译 THML / TXT 文件」、「翻译本地字幕文件」。 Calibre(电子书管理应用):下载并安装 calibre,并安装翻译插件「Ebook Translator」。 谷歌翻译(网页):使用工具把 PDF 转成 Word,再点击谷歌翻译「Document」按钮,上传 Word 文档。 百度翻译(网页):点击导航栏「文件翻译」,上传 PDF、Word、Excel、PPT、TXT 等格式的文件,支持选择领域和导出格式(不过进阶功能基本都需要付费了)。 彩云小译(App):下载后点击「文档翻译」,可以直接导入 PDF、DOC、DOCX、PPT、PPTX、TXT、epub、srt 等格式的文档并开始翻译(不过有免费次数限制且进阶功能需要付费)。 微信读书(App):下载 App 后将 PDF 文档添加到书架,打开并点击页面上方「切换成电子书」,轻触屏幕唤出翻译按钮。 相关文章: 《翻译:怎么把一份英文 PDF 完整地翻译成中文?》,这里介绍了 8 种方法,作者:ShowMeAI,分类:教育, 《入门经典必读》,作者: 内容由 AI 大模型生成,请仔细甄别。
2024-10-18
AI音乐相关的软件
以下是一些与 AI 音乐相关的软件: :由 AI 驱动的软件引擎,可生成音乐,能对手势、动作、代码或其他声音作出反应。 :全球最大的音乐教育平台。 :用于创作歌曲和音频录制的应用程序。 :提供无缝录音室体验的一体化在线协作平台。 :专业音频、语音、声音和音乐的扩展服务。 :视频编辑的音频解决方案。 :由 AI 驱动的音乐工作室。 :通过直观的软件/硬件生态系统为音乐演奏者提供世界级声音的民主化访问。 :AI 音频插件和社区,弥合 AI 研究与创意之间的差距。 :为音乐人、制作人和内容创作者提供 AI 驱动的混音服务。 :为创作者提供的在线音乐软件,包括音乐母带处理、数字音乐发行、分期付款插件、免费样本包和协作工具。 (被 Meta 收购):为创作者提供的音频和视频编辑软件。 :音乐人的应用程序。 (前身为 Tonz):实时神经信号处理。 :奥地利制造的音频软硬件。 以下是一些 AI 生成音乐的工具: :由前 Google DeepMind 工程师开发,通过文本提示快速生成符合用户音乐风格喜好的高质量音乐作品。 :是一款革命性的人工智能音乐生成工具,通过先进的深度学习技术,能将用户的输入转化为富有情感且高质量的音乐作品。 以下是一些人工智能音频初创公司: :人工智能驱动的音乐相似性搜索和自动标记,适合任何以音乐发现为业务的人。 :用于音频和声音目录的直观音频搜索引擎。 :发现将音乐从歌曲和播放列表的束缚中解放出来的艺术家。 :每次播放公平报酬。 (被 SoundCloud 收购):使用人工智能帮助自动化您的工作流程。 (被 Spotify 收购):构建人工智能驱动的音乐应用程序。 :用于音乐标记和相似性搜索的人工智能。 (被 SongTradr 收购):B2B AI 音乐元数据服务,例如自动标记、元数据丰富和语义搜索。 :基于歌词的音乐发现、推荐和搜索的算法和工具。 :寻找最好的音乐,讲述更好的故事,扩大您的听众。人工智能驱动的引擎可帮助找到正确的配乐。 :音乐识别和版权合规性。音频指纹、大规模翻唱识别。 :AI 音乐分析,包括歌词摘要、主题提取和音乐特征。
2024-10-17
给我几个跟AI相关的奖项名字
以下是一些与 AI 相关的奖项名字: 1. AI 视频切磋大会的奖项:最佳影片奖、最佳剧本奖、最佳剪辑奖、最佳视觉奖、最佳人气奖。 2. 《令人不安的 AI》作图比赛的奖项:一等奖、二等奖、三等奖。 3. ProductHunt 2023 年度最佳产品榜单中 AI 功能类别的奖项:Notion AI(在笔记和文档中应用 AI 的力量)、Guidde AI(用 AI 创建视频文档)、Arc Max(用 AI 优化浏览体验)、Trickle(用 AI 将截图转换成可搜索的珍贵资源)。
2024-10-17
有相关图片识别的相关知识和工具么?
以下是关于图片识别的相关知识和工具: 知识: 图片识别中,对于印刷体图片的识别,可能先将图片变为黑白、调整为固定尺寸,再与数据库对比得出结论。但实际情况复杂,存在多种字体、拍摄角度等例外情况,传统基于规则的方法不可行。 神经网络专门处理未知规则的情况,其发展得益于生物学研究支持和数学方向的指引,能处理如手写体识别等未知情况。 图像融合是将两个或多个图像合成为一个新的图像,以获得更全面和丰富的信息,可通过像素级、特征级和决策级融合等技术实现,在多个领域有应用。 目标检测是在图像或视频中准确识别和定位特定对象,多模态信息融合可提高其性能和鲁棒性。 工具和参考文献: 推荐阅读《这就是 ChatGPT》这本书,有助于深入了解相关内容。 以下是一些相关的参考文献: VisionLanguage Models for Vision Tasks:A Survey Visual Instruction Tuning towards GeneralPurpose Multimodal Model:A Survey ViTs are Everywhere:A Comprehensive StudyShowcasing Vision Transformers in Different Domain Multimodal Foundation Models:From Specialists to GeneralPurpose Assistants VisionLanguage Pretraining:Basics,Recent Advances,and Future Trends An Image is Worth 16x16 Words:Transformers for Image Recognition at Scale COGVLM:VISUAL EXPERT FOR LARGE LANGUAGE MODELS CogAgent:A Visual Language Model for GUI Agents AppAgent:Multimodal Agents as Smartphone Users Gemini:A Family of Highly Capable Multimodal Models QwenVL:A Versatile VisionLanguage Model for Understanding,Localization,Text Reading,and Beyond arxiv:ChatVideo:A Trackletcentric Multimodal and Versatile Video Understanding System arxiv:Video Understanding with Large Language Models:A Survey arxiv:Vid2Seq:LargeScale Pretraining of a Visual Language Model for Dense Video Captioning CSDN 博客:视频理解多模态大模型(大模型基础、微调、视频理解基础) CSDN 博客:逐字稿| 9 视频理解论文串讲(下)【论文精读】_视频理解论文串讲(下) Youtube:Twostream Convolutional Networks for Action Recognition in Videos arxiv:Is SpaceTime Attention All You Need for Video Understanding? 相关算法: 图像融合的相关算法有:小波变换、基于金字塔变换的多分辨率融合、基于区域的图像融合、基于特征的图像融合等。 目标检测的相关算法有:基于深度学习的目标检测算法(如 RCNN、Fast RCNN、Faster RCNN、YOLO、SSD 等)、基于传统计算机视觉技术的目标检测算法(如 HOG、SIFT、SURF 等)。
2024-10-16
AI和人工标注相关
以下是关于 AI 和人工标注相关的内容: 在 Agent 相关比赛的赛道介绍中,涉及到多个与 AI 和人工标注相关的参考方向,包括: 1. 内容生成:AI 可自动编写文章并选择或生成相应图片。 2. 图像标注:AI 能识别和理解图片内容,并生成相应文字描述。 3. 图文匹配:为给定图片找到合适文字描述,或为给定文字找到匹配图片。 4. 数据可视化:将复杂数据用图表、信息图等方式可视化展示,使解读更直观简洁。 5. 设计辅助:例如生成 LOGO、海报设计等。 6. 自动化排版:根据文本内容与结构自动进行页面布局和美观排版。 7. 图文识别:借助 OCR 技术抓取图文内容后,AI 能够理解并处理。 8. 新闻和社交媒体:AI 可对大量新闻和社交媒体信息自动编辑和汇总,生成图文摘要。 9. 艺术创作:辅助绘画、音乐创作。 在 OpenAI O1 的训练中,可能采用的训练数据包括人工标注数据和合成数据。对于人工标注数据,会人工标注一批 COT 思考过程,形成<问题,思考过程(包括思考过程中出现的错误及错误修正过程),答案>,用这些数据 SFT 一下 o1 初始的模型,启动其输出模式。但人工标注存在难度大、成本高、可扩展性差的问题,优点是质量较高。之后可以采用合成数据的模式,如从人工标注的 COT 里截取片段,用 MCTS 树搜索方式补齐后续推理过程,或者对于有确定标准答案的逻辑问题,通过不断试错的模式搜索答案,这些正确或错误的答案都可用于训练 o1 模型。
2024-10-14
小白想了解AI相关知识,请提供合理化建议
以下是为小白提供的关于 AI 相关知识的合理化建议: 一、概念部分 1. 生成式 AI 生成的内容被称为 AIGC。 2. 相关技术名词: AI 即人工智能。 机器学习是指电脑通过找规律进行学习,包括监督学习、无监督学习、强化学习。 监督学习使用有标签的训练数据,目标是学习输入和输出之间的映射关系,包括分类和回归。 无监督学习的数据没有标签,算法自主发现规律,经典任务如聚类,例如让模型将一堆新闻文章根据主题或内容特征分成相似组。 强化学习从反馈中学习,以最大化奖励或最小化损失,类似训练小狗。 深度学习是一种参照人脑构建神经网络和神经元的方法(因层数多而称为深度),神经网络可用于监督学习、无监督学习、强化学习。 生成式 AI 能够生成文本、图片、音频、视频等内容形式。 LLM 是大语言模型。对于生成式 AI,生成图像的扩散模型不属于大语言模型;对于大语言模型,生成只是其中一个处理任务,如谷歌的 BERT 模型可用于语义理解(不擅长文本生成),像上下文理解、情感分析、文本分类。 二、技术里程碑 2017 年 6 月,谷歌团队发表论文《Attention is All You Need》,首次提出了 Transformer 模型,它完全基于自注意力机制(SelfAttention)处理序列数据,无需依赖循环神经网络(RNN)或卷积神经网络(CNN)。GPT 中 Transformer 是关键,且 Transformer 比 RNN 更适合处理文本的长距离依赖性。
2024-10-14