直达「 通往AGI之路 」飞书知识库 →
首页/问答列表/问答详情

以图片为主的PDF文件向量化的本地大模型推荐

回答

以下是关于以图片为主的 PDF 文件向量化的本地大模型的相关信息:

RAG 技术: 利用大模型的能力搭建知识库是 RAG 技术的应用。大模型训练数据有截止日期,当需要依靠不在训练集中的数据时,可通过检索增强生成 RAG 技术实现。RAG 应用包括 5 个过程:

  1. 文档加载:从多种来源加载文档,如包括 PDF 在内的非结构化数据、SQL 在内的结构化数据以及代码等。
  2. 文本分割:把文档切分为指定大小的块。
  3. 存储:包括将切分好的文档块嵌入转换成向量形式,并将向量数据存储到向量数据库。
  4. 检索:通过检索算法找到与输入问题相似的嵌入片。
  5. 输出:把问题以及检索出来的嵌入片一起提交给 LLM,生成更合理的答案。

PDF 翻译的 AI 产品

  1. DeepL(网站):www.deepl.com,点击页面「翻译文件」按钮,上传 PDF、Word 或 PowerPoint 文件。
  2. 沉浸式翻译(浏览器插件):immersivetranslate.com,安装插件后,点击插件底部「更多」按钮,选择相关翻译选项。
  3. Calibre(电子书管理应用):calibre-ebook.com,下载安装并安装翻译插件「Ebook Translator」。
  4. 谷歌翻译(网页):translate.google.com,使用工具把 PDF 转成 Word,再点击谷歌翻译「Document」按钮上传 Word 文档。
  5. 百度翻译(网页):fanyi.baidu.com,点击导航栏「文件翻译」,上传多种格式文件,支持选择领域和导出格式。
  6. 彩云小译(App):下载后点击「文档翻译」,可导入多种格式文档,但有免费次数限制且进阶功能需付费。
  7. 微信读书(App):下载 App 后将 PDF 文档添加到书架,打开并点击页面上方「切换成电子书」,轻触屏幕唤出翻译按钮。

请注意,以上内容由 AI 大模型生成,请仔细甄别。

内容由 AI 大模型生成,请仔细甄别(powered by aily)

参考资料

手把手教你本地部署大模型以及搭建个人知识库

文本加载器就是将用户提供的文本加载到内存中,便于进行后续的处理

问:推荐 pdf 翻译的 AI 产品

[title]问:推荐pdf翻译的AI产品有许多翻译PDF的方法,以下是几种适用方法:1.DeepL(网站)[www.deepl.com](https://www.deepl.com/translator):点击页面「翻译文件」按钮,上传PDF、Word或PowerPoint文件即可。2.沉浸式翻译(浏览器插件)[immersivetranslate.com](https://immersivetranslate.com/):安装插件后,点击插件底部「更多」按钮,选择「制作双语BPUB电子书」、「翻译本地PDF文件」、「翻译THML / TXT文件」、「翻译本地字幕文件」。3.Calibre(电子书管理应用)[calibre-ebook.com](https://calibre-ebook.com/zh_CN):下载并安装calibre,并安装翻译插件「Ebook Translator」。4.谷歌翻译(网页)[translate.google.com](https://translate.google.com/):使用工具把PDF转成Word,再点击谷歌翻译「Document」按钮,上传Word文档。5.百度翻译(网页)[fanyi.baidu.com](https://fanyi.baidu.com/):点击导航栏「文件翻译」,上传PDF、Word、Excel、PPT、TXT等格式的文件,支持选择领域和导出格式(不过进阶功能基本都需要付费了)。6.彩云小译(App):下载后点击「文档翻译」,可以直接导入PDF、DOC、DOCX、PPT、PPTX、TXT、epub、srt等格式的文档并开始翻译(不过有免费次数限制且进阶功能需要付费)。7.微信读书(App):下载App后将PDF文档添加到书架,打开并点击页面上方「切换成电子书」,轻触屏幕唤出翻译按钮。同类问题:免费将PDF内各国文字翻译为中文的工具内容由AI大模型生成,请仔细甄别。

其他人在问
我要如何将一个pdf或者txt里面的内容,非人工地整理成表格或者按照文件里面的标题整理入notion的知识库里面?
要将 PDF 或 TXT 里的内容非人工地整理成表格或按照文件里的标题整理入 Notion 的知识库,可以按照以下步骤进行操作: Notion 上传方式: 1. 在文本格式页签下,选择 Notion,然后单击下一步。 2. 单击授权。首次导入 Notion 数据和页面时,需要进行授权。 在弹出的页面完成登录,并选择要导入的页面。 选择要导入的数据,然后单击下一步。 3. 选择内容分段方式: 自动分段与清洗:系统会对上传的文件数据进行自动分段,并会按照系统默认的预处理规则处理数据。 自定义:手动设置分段规则和预处理规则。 分段标识符:选择符合实际所需的标识符。 分段最大长度:设置每个片段内的字符数上限。 文本预处理规则: 替换掉连续的空格、换行符和制表符。 删除所有 URL 和电子邮箱地址。 4. 单击下一步完成内容上传和分片。 自定义上传方式: 1. 在文本格式页签下,选择自定义,然后单击下一步。 2. 输入单元名称,然后单击确认。 3. 单击创建分段,然后在弹出的页面输入要上传的内容。每个分段最多可添加 2000 个字符。 4. 单击保存。
2024-10-04
如何用AI翻译英文文献,文件格式是PDF
以下是几种将英文 PDF 文献翻译成中文的方法: 1. DeepL(网站):访问,点击页面「翻译文件」按钮,上传 PDF、Word 或 PowerPoint 文件即可。 2. 沉浸式翻译(浏览器插件):在安装插件后,点击插件底部「更多」按钮,选择「制作双语 BPUB 电子书」、「翻译本地 PDF 文件」、「翻译 THML / TXT 文件」、「翻译本地字幕文件」。 3. Calibre(电子书管理应用):在下载并安装 calibre,并安装翻译插件「Ebook Translator」。 4. 谷歌翻译(网页):使用工具把 PDF 转成 Word,再在点击谷歌翻译「Document」按钮,上传 Word 文档。 5. 百度翻译(网页):在点击导航栏「文件翻译」,上传 PDF、Word、Excel、PPT、TXT 等格式的文件,支持选择领域和导出格式(不过进阶功能基本都需要付费)。 6. 彩云小译(App):下载后点击「文档翻译」,可以直接导入 PDF、DOC、DOCX、PPT、PPTX、TXT、epub、srt 等格式的文档并开始翻译(不过有免费次数限制且进阶功能需要付费)。 7. 微信读书(App):下载 App 后将 PDF 文档添加到书架,打开并点击页面上方「切换成电子书」,轻触屏幕唤出翻译按钮。 8. 浏览器自带的翻译功能:如果一些 PDF 太大,翻译工具不支持,除了将 PDF 压缩或者切分外,还可以转成 HTML 格式,然后使用浏览器自带的网页翻译功能。 请注意,内容由 AI 大模型生成,请仔细甄别。
2024-10-04
我想要AI工具帮我快速梳理出这10个左右PDF文档/PDF文档链接中我想要的关键信息,并且整理成表格,请推荐可以实现相关功能、支持自主阅读多个篇幅10页以上文档并且能快速响应的工具给我
以下是一些可以帮助您快速梳理 PDF 文档关键信息并整理成表格的工具推荐: 1. Inhai: Agentic Workflow:能够重塑获取信息的方式,辅助高效处理信息,实现信息表达更简便。 2. 彩云小译(App):下载后点击「文档翻译」,可导入多种格式文档并翻译,但有免费次数限制且进阶功能需付费。 3. 微信读书(App):下载 App 后将 PDF 文档添加到书架,打开并点击相关操作可进行翻译。 4. DeepL(网站):,点击页面「翻译文件」按钮,上传相应格式文件即可。 5. 沉浸式翻译(浏览器插件):,安装插件后按相关操作进行。 6. Calibre(电子书管理应用):,下载安装并安装翻译插件「Ebook Translator」。 7. 谷歌翻译(网页):,需先将 PDF 转成 Word 再上传。 8. 百度翻译(网页):,点击导航栏「文件翻译」上传相应格式文件,支持选择领域和导出格式,但进阶功能基本需付费。
2024-09-25
请问大家使用过AI工具一次性阅读10个左右的PDF文档/PDF文档链接吗?针对篇幅较大的说明书,哪些工具、以及如何使用工具辅助阅读整理信息效果响应会比较好
目前在 AI 领域,能够一次性阅读 10 个左右 PDF 文档并辅助整理信息的工具包括但不限于: 1. ChatPDF:您可以将多个 PDF 文档上传至该平台,然后通过提问获取文档中的关键信息和总结。 2. Adobe Acrobat Pro:具有强大的文档处理和阅读功能,能帮助您标记、注释和整理文档内容。 使用这些工具时,一般步骤如下: 1. 注册并登录相关工具的账号。 2. 按照工具的指引上传您的 PDF 文档。 3. 输入您想要获取的信息或提出整理要求,等待工具处理并给出结果。 需要注意的是,不同工具的具体操作和效果可能会有所差异,您可以根据自己的需求和文档特点选择合适的工具。
2024-09-25
推荐分析PDF文档 提炼标注关键词的AI
以下是一些可以分析 PDF 文档、提炼标注关键词的 AI 产品或方法: 1. DeepL(网站):点击页面“翻译文件”按钮,上传 PDF、Word 或 PowerPoint 文件即可。 2. 沉浸式翻译(浏览器插件):安装插件后,点击插件底部“更多”按钮,选择“制作双语 BPUB 电子书”、“翻译本地 PDF 文件”、“翻译 THML / TXT 文件”、“翻译本地字幕文件”。 3. Calibre(电子书管理应用):下载并安装 calibre,并安装翻译插件“Ebook Translator”。 4. 谷歌翻译(网页):使用工具把 PDF 转成 Word,再点击谷歌翻译“Document”按钮,上传 Word 文档。 5. 百度翻译(网页):点击导航栏“文件翻译”,上传 PDF、Word、Excel、PPT、TXT 等格式的文件,支持选择领域和导出格式(不过进阶功能基本都需要付费了)。 6. 彩云小译(App):下载后点击“文档翻译”,可以直接导入 PDF、DOC、DOCX、PPT、PPTX、TXT、epub、srt 等格式的文档并开始翻译(不过有免费次数限制且进阶功能需要付费)。 7. 微信读书(App):下载 App 后将 PDF 文档添加到书架,打开并点击页面上方“切换成电子书”,轻触屏幕唤出翻译按钮。 请注意,以上内容由 AI 大模型生成,请仔细甄别。
2024-09-14
有没有可以自动翻译pdf文档并生产新pdf,同时自动注释关键词的ai
以下是一些可以自动翻译 PDF 文档并可能具备自动注释关键词功能的 AI 工具: 1. DeepL(网站): ,点击页面「翻译文件」按钮,上传 PDF、Word 或 PowerPoint 文件即可。 2. 沉浸式翻译(浏览器插件): ,安装插件后,点击插件底部「更多」按钮,选择「制作双语 BPUB 电子书」、「翻译本地 PDF 文件」、「翻译 THML / TXT 文件」、「翻译本地字幕文件」。 3. Calibre(电子书管理应用): ,下载并安装 calibre,并安装翻译插件「Ebook Translator」。 4. 谷歌翻译(网页): ,使用工具把 PDF 转成 Word,再点击谷歌翻译「Document」按钮,上传 Word 文档。 5. 百度翻译(网页): ,点击导航栏「文件翻译」,上传 PDF、Word、Excel、PPT、TXT 等格式的文件,支持选择领域和导出格式(不过进阶功能基本都需要付费了)。 6. 彩云小译(App):下载后点击「文档翻译」,可以直接导入 PDF、DOC、DOCX、PPT、PPTX、TXT、epub、srt 等格式的文档并开始翻译(不过有免费次数限制且进阶功能需要付费)。 7. 微信读书(App):下载 App 后将 PDF 文档添加到书架,打开并点击页面上方「切换成电子书」,轻触屏幕唤出翻译按钮。 请注意,内容由 AI 大模型生成,请仔细甄别。
2024-09-14
数据如何向量化
数据向量化是为了实现高效的文档检索,将原始的文本数据转化为数值向量的过程。其目的是将文本数据映射到低维向量空间,使语义相似的文本距离较近,不相似的较远。但这一过程会导致一定程度的信息损失,因为文本的复杂性和多样性难以用有限向量完全表达,可能忽略细节和特征,影响文档检索准确性。 在语义搜索中,根据用户问题从文档集合中检索语义最相关的文档,主流方法是基于数据向量化结果,利用向量空间中的距离或相似度度量语义相似度,但存在局限性,如不能完全反映真实语义相似度,向量空间中的噪声和异常值会干扰结果,导致准确率无法 100%保证。 在计算机科学和数据分析中,向量常被用作表示数据点的方式,是一个数值列表或数组,每个数值代表数据点的一个特征。多维数据运算常以矩阵形式进行,矩阵乘法是基本操作。归一化是数据预处理的关键技术,用于调整数值数据范围,常用方法有最小最大缩放和 Z 得分标准化。 在向量数据库中,当用户输入查询时,如“激动人心的科幻冒险”,会转换成一个向量,例如,表示对不同元素的偏好程度。向量数据库存放的是词在不同维度上的相对位置,数据的存储和检索与传统 Excel 和关系数据库有很大不同。关于文字如何转换成向量,实际的向量结构会很复杂。
2024-10-12
大模型合规
大模型的安全问题包括以下方面: 1. 对齐保障:通过对齐(指令调优),如 ChatGPT 从 GPT3 经过对齐而来,使其更好地理解人类意图,增加安全保障,确保不输出有害内容。对齐任务可拆解为监督微调及获取奖励模型和进行强化学习来调整输出分布。例如 LLAMA2 使用安全有监督微调确保安全,强化学习能让模型根据人类反馈更细粒度思考答案的安全性,面对训练分布外数据也能拒绝不当回答。 2. 数据过滤:在预训练阶段对数据进行过滤,如 baichuan2 采用此技术减少有害输出,但因数据关联性,仅靠此方法可能不够,模型仍可能从关联中学到有害内容,且面对不良信息时可能因缺少知识而处理不当。 3. 越狱问题:用户可能通过越狱(Jailbreak)使模型的对齐失效,重新回答各种问题。 大模型的特点包括: 1. 架构:分为 encoderonly、encoderdecoder、decoderonly 三类,目前熟知的 AI 助手多为 decoderonly 架构,由 transformer 衍生而来。 2. 规模:预训练数据量大,来自互联网的多种来源,且参数众多,如 GPT3 已达 170B 的参数。 GPT3 与 ChatGPT 相比,除形式不同外,安全性也有差别。
2024-10-18
大模型安全相关资料
以下是关于大模型安全的相关资料: 大模型的架构:包括 encoderonly、encoderdecoder 和 decoderonly 三种类型。其中,我们熟知的 AI 助手基本采用 decoderonly 架构,这些架构都是由谷歌 2017 年发布的“attention is all you need”论文中提出的 transformer 衍生而来。 大模型的特点:预训练数据量大,往往来自互联网上的论文、代码、公开网页等,通常用 TB 级别的数据进行预训练;参数非常多,如 Open 在 2020 年发布的 GPT3 就已达到 170B 的参数。 大模型的安全性保障:通过对齐(指令调优),包括监督微调、获取 reward model 与进行强化学习来调整语言模型的输出分布,以保证语言模型不会输出有害内容和信息。例如 LLAMA2 专门使用了安全有监督微调确保安全。但 Alignment 并不足以防护所有安全问题,存在越狱(Jailbreak)现象,会使模型对齐失效。此外,还有隐私问题。 相关资源:如果想进一步了解大语言模型安全,可以访问 Github awesomellmsafety 项目:https://github.com/ydyjya/AwesomeLLMSafety
2024-10-18
目前最好用的机关公文写作大模型或智能体
目前在机关公文写作方面表现较好的大模型或智能体有: 智谱清言:由智谱 AI 和清华大学推出,基础模型为 ChatGLM 大模型。在工具使用排名国内第一,在计算、逻辑推理、传统安全能力上排名国内前三。更擅长专业能力,但在代码能力上还有优化空间,知识百科方面稍显不足。可应用场景广泛,在 AI 智能体方面相关的应用,包括任务规划、工具使用及长文本记忆相关场景表现出色,在较复杂推理应用上效果不错,也适用于广告文案、文学写作等。 此外,在大模型中,智能体是大模型的一个重要发展方向。智能体可以理解为在大模型(如 LLM)基础上增加了工具、记忆、行动、规划等能力。目前行业里主要用到的如 langchain 框架,能通过代码或 prompt 的形式将 LLM 与 LLM 之间以及 LLM 与工具之间进行串接。
2024-10-18
你知道有支持个性化训练的大预言模型么
以下是一些支持个性化训练的大语言模型: 1. Character.ai:更注重人格属性,试图满足社交、情感、陪伴等需求,与 ChatGPT 侧重不同,后者注重提高效率和解放生产力。 2. Midjourney:今天发布了模型个性化 Personalization 或 'p'的早期测试版本。模型个性化会学习用户的喜好,以便更可能用用户的口味来填补空白。其要求包括目前从成对排名中的投票和喜欢的探索页面上的图像中学习,需要大约 200 个成对排名/喜欢才能生效。使用时只需在提示后输入 'p',或使用提示栏中的设置按钮为所有提示启用个性化功能,还可以使用 's 100'控制个性化效果的强度。但需注意个性化目前不是一个稳定的功能,会随着进行更多的成对排名而变化,且可能会在接下来的几周内推出算法更新。
2024-10-18
我该如何利用文心一言、kimi等已有的大语言模型去作个性化训练?
已有的大语言模型如文心一言、kimi 等通常不支持个人进行个性化训练。 大语言模型的相关知识包括: 国内大模型有通用模型如文心一言、讯飞星火等,处理自然语言;还有垂直模型,专注特定领域。 大语言模型工作原理包括训练数据、算力、模型参数,在训练数据一致情况下,模型参数越大能力越强。 Transformer 是大语言模型训练架构,具备自我注意力机制能理解上下文和文本关联。 大模型可能因错误数据导致给出错误答案,优质数据集对其很重要。 Prompt 分为 system prompt、user prompt 和 assistant prompt,写好 prompt 的法则包括清晰说明、指定角色、使用分隔符、提供样本等。 Fine tuning 是基于通用大模型,针对特定领域任务提供数据进行学习和调整,以适应特定领域的需求。 学习大型语言模型(LLM)的开发是一个系统性的过程,需要涵盖多个方面的知识和技能: 掌握深度学习和自然语言处理基础,包括机器学习、深度学习、神经网络等基础理论,以及自然语言处理基础,如词向量、序列模型、注意力机制等。 理解 Transformer 和 BERT 等模型原理,掌握相关论文。 学习 LLM 模型训练和微调,包括大规模文本语料预处理,使用预训练框架,以及微调 LLM 模型进行特定任务迁移。 掌握 LLM 模型优化和部署,包括模型压缩、蒸馏、并行等优化技术,模型评估和可解释性,以及模型服务化、在线推理、多语言支持等。 进行 LLM 工程实践和案例学习,结合行业场景,进行个性化的 LLM 训练,分析和优化具体 LLM 工程案例,研究 LLM 新模型、新方法的最新进展。 持续跟踪前沿发展动态。 机器学习是人工智能的一个子领域,深度学习是机器学习的一个子领域,大语言模型是深度学习在自然语言处理领域的应用之一,具有生成式 AI 的特点。
2024-10-18
如何训练自己的文生文大模型?
训练自己的文生文大模型是一个复杂且计算量巨大的过程,主要包括以下步骤: 1. 准备资源:需要大量的互联网文本资源,通常约 10TB 的文本,用于模型的训练。 2. 硬件设施:需要一个 GPU 集群,大约 6000 个 GPU,运行约 12 天,费用约 200 万美元。 3. 模型选择与理解:了解不同的模型架构和算法,例如 Llama2 70B 等开源模型,以及其训练方式和相关论文。 4. 数据处理:对获取的大量文本进行处理和压缩,将其转化为适合模型训练的格式。 5. 训练过程:这是一个复杂的计算过程,类似于对互联网的一大块内容进行有损压缩,以获取模型的参数。 需要注意的是,模型训练比模型推理要复杂得多,模型推理可以在 MacBook 上运行,但训练需要强大的计算能力和大量的资源支持。
2024-10-18
ai现在拍摄一本书的图片能够识别到这是什么书么
目前的 AI 技术在拍摄一本书的图片并识别其是什么书方面已经取得了一定的进展。 在图像识别领域,神经网络发挥着重要作用。例如,对于识别印刷体图片,通常会先将图片转换为黑白,调整至固定尺寸,然后与数据库中的内容进行对比以得出结论。但实际情况较为复杂,存在多种字体、不同拍摄角度等多种例外情况,单纯依靠添加规则的方法不可行,而神经网络专门处理这类未知规则的情况。 不过,要准确识别一本书,还面临一些挑战,如书籍的版本、封面设计的多样性等。但随着技术的不断发展和数据的积累,未来 AI 识别一本书的准确性有望不断提高。 同时,也有一些相关的实验和研究,比如通过设计工作流让 AI 自举式地进行创造,从作家的作品中提取名场面并转译成绘画指令等。
2024-10-17
怎么用AI绘制一个我指定的动漫人物原型的各类图片,例如日漫《好想告诉你》中的黒沼爽子
要使用 AI 绘制指定的动漫人物原型,如日漫《好想告诉你》中的黑沼爽子,您可以按照以下步骤进行: 1. 选择合适的 AI 绘画工具:目前有许多在线的 AI 绘画平台和软件可供选择,例如 DALL·E2、StableDiffusion 等。 2. 明确描述特征:在输入描述时,尽可能详细地描述黑沼爽子的外貌特征,包括发型(如黑色的长直发)、眼睛(如大而明亮的眼睛)、服装(如校服的款式和颜色)、表情(如羞涩的微笑)等。 3. 参考相关图片:如果可能,找到黑沼爽子的官方图片或其他粉丝绘制的作品,作为参考提供给 AI 绘画工具,以帮助其更好地理解您的需求。 4. 不断调整和优化:根据生成的初步结果,对描述进行调整和优化,例如修改某些特征的描述、增加更多细节等,以获得更符合您期望的图片。 需要注意的是,AI 绘画的结果可能会受到多种因素的影响,不一定能完全符合您的预期,但通过不断尝试和优化,您有机会获得较为满意的作品。
2024-10-17
有可以查询图片的快速方法吗?
以下为一些快速查询图片的方法: 1. 利用 Perplexity.AI 的 Search Images 功能:点击搜索结果旁的加号,可快速浏览并选择与主题紧密相连的图片资源。在挑选图片时,要避免使用带有水印、画质不清晰或分辨率较低的图片。图片出处主要在 twitter 和官方网站。 2. 对于 Midjourney 生成的图片: 作业 ID 是其唯一标识符,格式类似于 9333dcd0681e4840a29c801e502ae424,可以在图像文件名的第一部分、网站上的 URL 和图像文件名中找到。 在网页上,可通过选择...> Copy...>作业 ID 来在作品库中查找任何图像的作业 ID。 从 URL 中,可在打开作品的网页链接末尾找到 Job ID。 从文件名中,Job ID 在文件名的最后一部分。 使用表情符号✉️可以将已完成的作业发送到私信中,私信中将包括图像的 seed 号和作业 ID,但✉️表情符号只适用于您自己的作业。 3. 如果不喜欢用模板找封面图,可根据文章内容搜索匹配的封面。比如在公众号中搜索同行的封面,直接“拿来主义”。若文章正文里没有封面图,可用壹伴浏览器插件的“查看封面”按钮(需会员),或者使用秘塔 AI 搜索工具,输入文章链接获取封面。相关在线工具链接:https://www.mgpaiban.com/tool/wxfm.html ,为方便使用可将其收藏。
2024-10-16
有相关图片识别的相关知识和工具么?
以下是关于图片识别的相关知识和工具: 知识: 图片识别中,对于印刷体图片的识别,可能先将图片变为黑白、调整为固定尺寸,再与数据库对比得出结论。但实际情况复杂,存在多种字体、拍摄角度等例外情况,传统基于规则的方法不可行。 神经网络专门处理未知规则的情况,其发展得益于生物学研究支持和数学方向的指引,能处理如手写体识别等未知情况。 图像融合是将两个或多个图像合成为一个新的图像,以获得更全面和丰富的信息,可通过像素级、特征级和决策级融合等技术实现,在多个领域有应用。 目标检测是在图像或视频中准确识别和定位特定对象,多模态信息融合可提高其性能和鲁棒性。 工具和参考文献: 推荐阅读《这就是 ChatGPT》这本书,有助于深入了解相关内容。 以下是一些相关的参考文献: VisionLanguage Models for Vision Tasks:A Survey Visual Instruction Tuning towards GeneralPurpose Multimodal Model:A Survey ViTs are Everywhere:A Comprehensive StudyShowcasing Vision Transformers in Different Domain Multimodal Foundation Models:From Specialists to GeneralPurpose Assistants VisionLanguage Pretraining:Basics,Recent Advances,and Future Trends An Image is Worth 16x16 Words:Transformers for Image Recognition at Scale COGVLM:VISUAL EXPERT FOR LARGE LANGUAGE MODELS CogAgent:A Visual Language Model for GUI Agents AppAgent:Multimodal Agents as Smartphone Users Gemini:A Family of Highly Capable Multimodal Models QwenVL:A Versatile VisionLanguage Model for Understanding,Localization,Text Reading,and Beyond arxiv:ChatVideo:A Trackletcentric Multimodal and Versatile Video Understanding System arxiv:Video Understanding with Large Language Models:A Survey arxiv:Vid2Seq:LargeScale Pretraining of a Visual Language Model for Dense Video Captioning CSDN 博客:视频理解多模态大模型(大模型基础、微调、视频理解基础) CSDN 博客:逐字稿| 9 视频理解论文串讲(下)【论文精读】_视频理解论文串讲(下) Youtube:Twostream Convolutional Networks for Action Recognition in Videos arxiv:Is SpaceTime Attention All You Need for Video Understanding? 相关算法: 图像融合的相关算法有:小波变换、基于金字塔变换的多分辨率融合、基于区域的图像融合、基于特征的图像融合等。 目标检测的相关算法有:基于深度学习的目标检测算法(如 RCNN、Fast RCNN、Faster RCNN、YOLO、SSD 等)、基于传统计算机视觉技术的目标检测算法(如 HOG、SIFT、SURF 等)。
2024-10-16
现在最新的 AI 生成图片产品有哪些
目前最新的 AI 生成图片产品主要有以下这些: 1. Artguru AI Art Generator:在线平台,能生成逼真图像,为设计师提供灵感,丰富创作过程。 2. Retrato:AI 工具,可将图片转换为非凡肖像,有 500 多种风格供选择,适合制作个性头像。 3. Stable Diffusion Reimagine:新型 AI 工具,通过稳定扩散算法生成精细、具细节的全新视觉作品。 4. Barbie Selfie Generator:专为喜欢梦幻童话风格的人设计,能将上传的照片转换为芭比风格,效果出色。 此外,还有一些用于设计海报的 AI 产品: 1. Canva(可画):https://www.canva.cn/ ,是受欢迎的在线设计工具,提供大量模板和设计元素,AI 功能可协助选择颜色搭配和字体样式。 2. 稿定设计:https://www.gaoding.com/ ,智能设计工具采用先进人工智能技术,自动分析和生成设计方案。 3. VistaCreate:https://create.vista.com/ ,简单易用的设计平台,提供大量设计模板和元素,用户可使用 AI 工具创建个性化海报,智能建议功能可帮助快速找到合适设计元素。 4. Microsoft Designer:https://designer.microsoft.com/ ,通过简单拖放界面,可快速创建演示文稿、社交媒体帖子等视觉内容,集成丰富模板库和自动图像编辑功能。 以下是图像生成的 Top30 AI 产品数据: |排名|产品名|分类|6 月访问量(万 Visit)|相对 5 月变化| |||||| |1|Adobe firefly|图像生成|28890|0.053| |2|Freepik|图像生成|8341|0.076| |3|Shutterstock|图像生成|6389|0.068| |4|Civitai|图像生成|2592|0.046| |5|Leonardo.Ai|图像生成|1680|0.027| |6|Midjourney|图像生成|1673|0.109| |7|Yodayo|图像生成|1554|0.044| |8|Ideogram|图像生成|1140|0.081| |9|Picsart Al|图像生成|1103|0| |10|Sea Art AI|图像生成|912|0.018| |11|PixAI|图像生成|899|0.07| |12|Openart|图像生成|650|0.074| |13|NovelAI|图像生成|639|0.052| |14|Playground|图像生成|631|0.065| |15|Krea|图像生成|611|0.119| |16|nightcafe|图像生成|606|0.039| |17|Media.io|图像生成|551|0.086|
2024-10-16
我想找一些具有「图片理解」能力的模型,最好是国内的
以下是一些具有“图片理解”能力的国内模型: 1. Gemini 模型:在各种图像理解基准测试中表现出色,如在表 7 中的各项测试中是最先进的,在回答自然图像和扫描文档的问题,以及理解信息图表、图表和科学图解等任务中性能强大。在 zeroshot 评估中表现优于其他模型,在多学科的 MMMU 评估基准测试中也取得了最好的分数。 2. 国内大模型: 北京企业机构:百度(文心一言)https://wenxin.baidu.com 、抖音(云雀大模型)https://www.doubao.com 、智谱 AI(GLM 大模型)https://chatglm.cn 、中科院(紫东太初大模型)https://xihe.mindspore.cn 、百川智能(百川大模型)https://www.baichuanai.com/ 上海企业机构:商汤(日日新大模型)https://www.sensetime.com/ 、MiniMax(ABAB 大模型)https://api.minimax.chat 、上海人工智能实验室(书生通用大模型)https://internai.org.cn 3. 智谱·AI 开源模型: CogAgent18B:基于 CogVLM17B 改进的开源视觉语言模型,拥有 110 亿视觉参数和 70 亿语言参数,支持 11201120 分辨率的图像理解,具备 GUI 图像的 Agent 能力。 CogVLM17B:强大的开源视觉语言模型,在多模态权威学术榜单上综合成绩第一,在 14 个数据集上取得了 stateoftheart 或者第二名的成绩。 Visualglm6B:开源的支持图像、中文和英文的多模态对话语言模型,语言模型基于 ChatGLM6B,具有 62 亿参数;图像部分通过训练 BLIP2Qformer 构建起视觉模型与语言模型的桥梁,整体模型共 78 亿参数。 RDM:Relay Diffusion Model,级联扩散模型,可以从任意给定分辨率的图像快速生成,而无需从白噪声生成。
2024-10-16