Navigate to WaytoAGI Wiki →
Home/Question List/Question Detail

有哪些效果好的开源OCR模型值得推荐

Answer

以下是一些效果较好的开源 OCR 模型推荐:

  1. Mistral OCR:当前最强的 OCR 模型,具有多语言支持,超越 Gemini 2.0 Flash,可在 Le Chat 及 API 调用。ElevenLabs 赠送 $25 Mistral API 额度,免费领取!领取地址:https://aiengineerpack.com/?success=1 领取成功示例:https://x.com/dotey/status/1898044743738675434
  2. Gemini 2.0 Flash:也是一款 OCR 模型。
Content generated by AI large model, please carefully verify (powered by aily)

References

宝玉 日报

🫧宝玉日报「3月7日」✨✨✨✨✨✨✨1⃣️📄Mistral OCR:当前最强OCR模型多语言支持,超越Gemini 2.0 Flash,可在Le Chat&API调用。ElevenLabs赠送$25 Mistral API额度,免费领取!🔗领取地址:[https://aiengineerpack.com/?success=1](https://aiengineerpack.com/?success=1)🔗领取成功示例:[https://x.com/dotey/status/1898044743738675434](https://x.com/dotey/status/1898044743738675434)2⃣️🔍谷歌测试“纯AI搜索”,不再显示传统网页链接!未来,谷歌搜索可能直接给你答案,而非10个蓝色链接。Gemini 2.0驱动“AI摘要”,甚至在实验“纯AI模式”。现阶段仅对Google One AI Premium($20/月)用户开放。🔗[https://x.com/dotey/status/1898037198210957378](https://x.com/dotey/status/1898037198210957378)🔗谷歌官方介绍:[https://blog.google/products/search/ai-mode-search/](https://blog.google/products/search/ai-mode-search/)3⃣️📖经典论文推荐:《自动化的反讽》

宝玉 日报

Gemini Flash 2.0:OCRSonnet 3.7:编程GPT-4o:写作&语音模式o3-high:推理Flux Pro Ultra:图像生成可灵1.6:视频生成Eleven Labs:音频处理Deepseek R1、通义千问:开源爱好者首选🔗[https://x.com/dotey/status/1901863697942725104](https://x.com/dotey/status/1901863697942725104)4⃣️🔌MCP是大模型的“USB协议”,能干啥?类比USB协议,MCP让模型能调用天气、搜索、聊天记录等外部服务。普通用户不必着急使用,生态未成熟时可观望,未来潜力巨大。对开发者而言,现在是布局MCP应用的好机会。🔗[https://x.com/dotey/status/1901857901943161216](https://x.com/dotey/status/1901857901943161216)5⃣️📚Pensieve携Claude打造AI教育系统Claude成为高等教育AI助教核心引擎,助力批改作业与个性化辅导。使用Claude 3.7 Sonnet模型后,准确率显著提升。学生成绩提升7%、提问频率翻5倍,课堂教学全面升级。🔗[https://x.com/dotey/status/1901802531162104260](https://x.com/dotey/status/1901802531162104260)6⃣️🖥️shadcn发布酷炫后台面板模板

3月8日 社区动态速览

1⃣️📄Mistral OCR:当前最强OCR模型多语言支持,超越Gemini 2.0 Flash,可在Le Chat&API调用。ElevenLabs赠送$25 Mistral API额度,免费领取!🔗领取地址:[https://aiengineerpack.com/?success=1](https://aiengineerpack.com/?success=1)🔗领取成功示例:[https://x.com/dotey/status/1898044743738675434](https://x.com/dotey/status/1898044743738675434)2⃣️🔍谷歌测试“纯AI搜索”,不再显示传统网页链接!未来,谷歌搜索可能直接给你答案,而非10个蓝色链接。Gemini 2.0驱动“AI摘要”,甚至在实验“纯AI模式”。现阶段仅对Google One AI Premium($20/月)用户开放。🔗[https://x.com/dotey/status/1898037198210957378](https://x.com/dotey/status/1898037198210957378)🔗谷歌官方介绍:[https://blog.google/products/search/ai-mode-search/](https://blog.google/products/search/ai-mode-search/)3⃣️📖经典论文推荐:《自动化的反讽》

Others are asking
OCR
OCR(Optical Character Recognition,光学字符识别)是一种将图像中的文字转换为计算机可处理的文本数据的技术。在移动端图片视觉处理中,特别是试卷拍照去除书写笔迹方面,OCR 有着重要的应用。以下是相关的处理方法: 1. 图像预处理: 图像去噪:使用去噪算法(如高斯滤波、中值滤波)去除图像中的噪声。 图像增强:通过增强算法(如直方图均衡化、对比度增强)提升图像的清晰度和对比度。 2. 图像分割:使用图像分割算法将试卷图像中的书写笔迹和背景分离。常用的分割算法包括阈值分割、边缘检测和基于区域的分割方法。 3. 文字检测:在分割后的图像中,使用文字检测算法(如基于深度学习的文本检测模型)识别出试卷上的文字区域。 4. 文字识别:对检测到的文字区域进行文字识别,将文字内容转换为计算机可处理的文本数据。常用的文字识别技术包括基于深度学习的端到端文本识别模型和传统的 OCR 技术。 5. 后处理:根据需求进行后处理,如去除残余的噪点、填补文字区域的空白等。 6. 机器学习模型训练(可选):如有足够的数据,可以采用机器学习技术训练模型,通过学习样本中的书写笔迹特征来自动去除试卷上的笔迹。 7. 优化算法:对整个处理流程进行优化,提高处理速度和准确度。可以采用并行计算、硬件加速等方法提升算法的效率。 8. 移动端集成:将设计好的算法和模型集成到移动应用程序中,以实现试卷拍照去除书写笔迹的功能。可以使用移动端开发框架(如 iOS 的 Core ML、Android 的 TensorFlow Lite)来实现模型的部署和调用。 当前最强的 OCR 模型如 Mistral OCR,具有多语言支持,超越 Gemini 2.0 Flash,可在 Le Chat&API 调用。ElevenLabs 赠送 $25 Mistral API 额度,免费领取! 在一些项目中,如 0 基础跨界 AI 编程共学零基础手搓 AI 拍立得,也应用了 OCR 识别,对图片进行 OCR 识别以获取图片中的文本信息,并对识别结果进行调整和优化。
2025-03-24
OCR识别
OCR 识别是指对图片进行光学字符识别,以获取图片中的文本信息。以下是关于 OCR 识别的一些相关内容: 在拍立得工作流中,OCR 识别可对图片进行处理,获取文本信息,并对识别结果进行调整和优化。 GPT 在进行 OCR 识别时可能存在问题,如开启代码执行功能时会尝试用代码完成 OCR 导致无法正确识别图片文字。解决方案包括:如果是自定义 GPT,关闭 Code Interpreter;无法关闭时,提问时明确说明“不要执行代码,请用自身多模态能力识别文字”;直接使用 ChatGPT 而非 GPT。 在移动端试卷拍照去除书写笔迹方面,OCR 识别可作为其中的一个环节。具体步骤包括图像预处理(去噪、增强)、图像分割、文字检测、文字识别、后处理等,还可以进行机器学习模型训练和算法优化,并将其集成到移动端应用程序中。
2025-03-18
请罗列出你掌握的OCR技术 以【方式名称+曾使用过自认最熟练的操作】的格式填写
以下是我掌握的 OCR 技术: OCR 识别:对图片进行 OCR 识别,获取图片中的文本信息,并对识别结果进行调整和优化。
2025-03-10
我希望你向我推荐一个AI培养我画画的兴趣爱好。我目前23岁,无任何画画基础,目前用IPA中的procrate APP绘画比较方便,我喜欢颜色鲜艳的简笔画,但是我对procrate APP并不熟悉,希望有一个AI能充当我的花花启蒙老师,带领我使用procrate APP学习简笔画
很抱歉,以上提供的内容中没有直接针对您需求的有效推荐。不过,您可以考虑以下途径: 1. 【野菩萨的 AIGC 资深课】:由工信部下属单位【人民邮电出版社】开设,是市面上为数不多的值得推荐的 AI 课程之一,也是全网技术更新最快的课程!课程内容涵盖 AI 绘画等多个体系的知识。 2. 您还可以在网络上搜索关于 Procreate APP 以及简笔画的教学视频和教程,有很多免费或付费的资源可供选择。 希望这些建议对您有所帮助。
2025-02-10
有ocr工具没
以下为您介绍一些 OCR 工具: 1. Zerox OCR 工具:这是一款开源的 GPT OCR 工具,支持将 PDF、DOCX 转换为 Markdown。可并发处理,能选择特定页面及模型选项。详细介绍可参考: 2. Surya:这是一款多语言文档 OCR 工具,能提供准确的逐行文本检测和识别。支持包括英语、中文、日文、印地语等语言。详情可查看:
2025-02-08
文档自动化的技术方案: OCR+NLP pipeline指的是什么,个人具体怎么实施
OCR(Optical Character Recognition,光学字符识别)+NLP(Natural Language Processing,自然语言处理)pipeline 是一种将 OCR 技术和 NLP 技术相结合的文档自动化处理流程。 OCR 用于将文档中的图像或扫描的文字转换为可编辑的文本。 NLP 则对转换后的文本进行分析、理解和处理,例如提取关键信息、分类、情感分析等。 对于个人实施 OCR + NLP pipeline,大致可以按照以下步骤进行: 1. 选择合适的 OCR 工具和服务:有许多开源和商业的 OCR 工具可供选择,根据您的需求和技术能力进行评估和选用。 2. 准备数据:收集和整理需要处理的文档,并确保其质量适合 OCR 处理。 3. 进行 OCR 处理:使用选定的 OCR 工具对文档进行转换。 4. 选择 NLP 框架和模型:根据具体的任务和需求,选择适合的 NLP 框架和预训练模型。 5. 数据预处理:对 OCR 输出的文本进行清洗、预处理,以便 NLP 模型能够更好地处理。 6. 训练和优化 NLP 模型(如果需要):如果通用模型不能满足需求,可以使用标注数据进行训练和优化。 7. 集成和部署:将 OCR 和 NLP 部分集成在一起,并部署到实际应用环境中。 需要注意的是,实施过程中可能会遇到一些技术挑战,例如文档格式的复杂性、OCR 识别的准确性、NLP 模型的适应性等,需要不断调试和优化。
2025-02-08
帮我列举2025年3月1日以来,国内外、闭源开源模型厂商的更新记录。
以下是 2025 年 3 月 1 日以来,国内外、闭源开源模型厂商的部分更新记录: 2025 年 3 月 20 日,OpenAI 推出了一套全新的音频模型,旨在通过 API 为开发者提供更智能、更可定制的语音代理支持,包括改进的语音转文本和文本转语音功能,为语音交互应用带来显著提升。 李开复公开表示 OpenAI 面临生存危机,商业模式不可持续。他强调中国的 DeepSeek 以极低成本提供接近的性能,开源模式将主导未来 AI 发展。他认为企业级 AI 应用将成为投资重点,资源限制反而促进了创新。李开复大胆预测,中国将出现三大 AI 玩家,竞争愈发激烈。 SuperCLUE 发布《中文大模型基准测评 2025 年 3 月报告》,指出 2022 2025 年经历多阶段发展,国内外模型差距缩小。测评显示 o3mini总分领先,国产模型表现亮眼,如 DeepSeekR1 等在部分能力上与国际领先模型相当,且小参数模型潜力大。性价比上,国产模型优势明显。DeepSeek 系列模型深度分析表明,其 R1 在多方面表现出色,蒸馏模型实用性高,不同第三方平台的联网搜索和稳定性有差异。 以上信息来源包括: 《》 《》 《》
2025-03-26
现在Ai作图用什么?还是以前的Stable Diffusion吗?还是又出现了新的开源软件?
目前在 AI 作图领域,Stable Diffusion 仍然是常用的工具之一。Stable Diffusion 是 AI 绘画领域的核心模型,能够进行文生图和图生图等图像生成任务,其完全开源的特点使其能快速构建强大繁荣的上下游生态。 除了 Stable Diffusion,也出现了一些新的相关开源软件和工具,例如: :Stability AI 开源的 AI 图像生成平台。 :拥有超过 700 种经过测试的艺术风格,可快速搜索查找各类艺术家,并支持一键复制 Prompt。 同时,市面上主流的 AI 绘图软件还有 Midjourney,其优势是操作简单方便,创作内容丰富,但需要科学上网并且付费。如果您想尝试使用 Stable Diffusion,可以参考 B 站【秋葉 aaaki】这个 Up 主的视频了解具体的安装方法。
2025-03-24
字节跳动开源的AGENT TARS
字节跳动开源的自学型 GUI Agent 名为 UITARS,具有以下特点和优势: 能够实现复杂任务自动化,支持跨平台操作,包括网页、桌面和移动端。 性能优于主流模型(如 GPT4 等)。 适用于复杂动态交互、表单填写、批量处理、在线预订等应用场景。 提供开发框架,支持桌面和网页端运行。 相关链接: 其核心能力包括界面识别与元素定位的感知能力、执行操作指令的行动能力、多步任务规划的推理能力以及记录并优化操作流程的记忆能力,能够实现端到端学习,支持“直觉式”反应(System1)与深度思考(System2)。
2025-03-24
有什么开源大模型
以下是一些开源大模型: 1. FengshenbangLM: 地址: 简介:是 IDEA 研究院认知计算与自然语言研究中心主导的大模型开源体系,开源了姜子牙通用大模型 V1,是基于 LLaMa 的 130 亿参数的大规模预训练模型,具备翻译、编程、文本分类、信息抽取、摘要、文案生成、常识问答和数学计算等能力。除姜子牙系列模型之外,还开源了太乙、二郎神系列等模型。 2. BiLLa: 地址: 简介:开源了推理能力增强的中英双语 LLaMA 模型。较大提升 LLaMA 的中文理解能力,并尽可能减少对原始 LLaMA 英文能力的损伤;训练过程增加较多的任务型数据,利用 ChatGPT 生成解析,强化模型理解任务求解逻辑;全量参数更新,追求更好的生成效果。 3. Moss: 地址: 简介:支持中英双语和多种插件的开源对话语言模型,MOSS 基座语言模型在约七千亿中英文以及代码单词上预训练得到,后续经过对话指令微调、插件增强学习和人类偏好训练具备多轮对话能力及使用多种插件的能力。 4. Qwen: 相关信息:国产大模型,多次冲进 LMSys 榜单,最早出现的是通义千问 14B 开源视频 Qwen14B,后来是 Qwen 系列的 72B、110B 以及通义千问闭源模型 QwenMax,得分一个比一次高,LMSys 也曾官方发推认证通义千问开源模型的实力。Qwen 系列开源模型的累计下载量突破了 1600 万,国内外有海量开发者都基于 Qwen 开发了自己的模型和应用。 5. Grok1: 地址: 简介:拥有 3140 亿参数的专家混合模型,使用旋转位置嵌入,词汇量达到 131,072,未针对任何特定应用程序进行微调。
2025-03-23
我需要的是开源工具,来完成创作流程
以下是一些开源工具可用于完成创作流程: 在图文内容生产方面,有选题生成、文案创作、智能配图和智能发布等定制化服务。 设计了一套覆盖从构思到完稿整个创作流程的提示词工具,并为学员打造了创作的标准操作流程(SOP)。 小财鼠程序版 agent ,但尚未正式对外发布。 在 AI 视频创作方面: 剧本生成:不同模型生成的剧本在对白、人物动作、场景等方面有差异,如 cloud 效果较好但需付费和一定网络门槛。 分镜脚本:利用分镜大师提示词生成分镜脚本,每次让模型处理 3 5 个分镜。 提示词生成:将分镜粘贴生成图像和视频提示词,不同模型生成效果有差异。 图像生成工具:如 Flex 模型生成质量高,有 Control Net 功能;谷歌 Image FX 提示词理解能力强;记梦对中文处理到位等。 提示词辅助工具:通义望向可智能扩写生成详细提示词;堆有能根据上传图片反推提示词;季梦可根据主题生成多种风格提示词。 图像优化:用 MJ 做局部重绘,用 ComfyUI 做高清放大。 视频生成:可灵的图生视频功能效果质量高且稳定但贵和慢;Pika 最新上线的 2.2 版本在首尾帧过渡上有不错表现;追求效率可尝试 Pixverse ,还有即梦、vidu、海螺、通义万相、智谱清言等平台。 后期制作:将生成的视频素材丢进剪映进行剪辑、添加音效、字幕和转场特效。
2025-03-18
哪里可以找到开源的ai agent
以下是一些可以找到开源 AI Agent 的途径和相关信息: AutoGPT 和 BabyAGI 是最早实现让 LLM 自己做自动化多步骤推理的开源智能代理,在去年 GPT4 刚发布时风靡全球科技圈。 智谱·AI 开源了一些包含 Agent 能力的模型,如 AgentLM7B、AgentLM13B、AgentLM70B 等,相关信息和代码链接可在相应的平台获取。 Andrej 的 LLM OS 中包含了相关模块。 OpenAI 的研究主管 Lilian Weng 曾写过一篇博客《LLM Powered Autonomous Agents》介绍了 Agent 的设计框架。
2025-03-13
搭建私有大模型
搭建私有大模型可以参考以下几种方法: 1. 方法一 搭建,用于汇聚整合多种大模型接口,方便后续更换使用各种大模型,同时会告知如何白嫖大模型接口。 搭建,这是一个知识库问答系统,将知识文件放入,并接入上面的大模型作为分析知识库的大脑,最后回答问题。若不想接入微信,搭建完此系统即可,它也有问答界面。 搭建,其中的cow插件能进行文件总结、MJ绘画。 2. 方法二 部署大语言模型: 下载并安装Ollama,根据电脑系统,从https://ollama.com/download 下载。下载完成后,双击打开,点击“Install”。安装完成后,将下方地址复制进浏览器中,若出现相关字样,表示安装完成:http://127.0.0.1:11434/ 。 下载qwen2:0.5b模型(0.5b是为了方便测试,下载快,设备充足可下载更大模型)。若为windows电脑,点击win+R,输入cmd,点击回车;若为Mac电脑,按下Command(⌘)+Space键打开Spotlight搜索,输入“Terminal”或“终端”,然后从搜索结果中选择“终端”应用程序。复制相关命令行,粘贴进入,点击回车,等待下载完成。 3. 方法三 企业大模型四步走的第一步是私有化部署通用大模型,一是解决AI科普问题,二是满足一些通用需求。若有能力,可赠送免费的私有化部署通用大模型,其为千亿模型的缩小版、浓缩版,能解决科普问题,让企业员工熟悉大模型,同时满足办公等通用需求。此外,还提供了360AI办公的一套会员服务,围绕办公营销需求做了很多工具,以订阅模式耗费算力,每天几乎一块钱。
2025-03-26
我是一位程序开发小白,不会用代码开发程序。我现在有一台安装Window 11操作系统的笔记本电脑,配置为14代i7CPU、32G内存、1TB硬盘、1张RTX4070显卡。我想部署一套本地的大模型+智能体+知识库。我要怎么样才能实现无代码部署,请列出详细的安装步骤。
以下是为您提供的无代码部署本地大模型、智能体和知识库的详细安装步骤: 1. 硬件评估:您的笔记本电脑配置为 14 代 i7 CPU、32G 内存、1TB 硬盘、1 张 RTX4070 显卡,基本满足部署要求。但需要注意,运行内存最低 32GB,越高越好,最低配可能会经常爆显存。建议将软件和模型部署在 SSD(固态硬盘)上,以提高加载模型的速度。 2. 选择合适的部署工具:ComfyUI 是一个相对配置要求较低、系统资源占用少、出图速度快的工具。它最低可在小于 3G 的 GPU 上运行,甚至没有 GPU 光用 CPU 也可以,但速度极慢。SDXL 出来后提高了运行配置,最低需要 8GB 显存+32GB 运行内存,12GB 流畅运行,推荐 16GB 以上。 3. 安装准备:如果您的电脑能顺畅清晰地玩 3A 游戏,那么运行相关部署工具一般也没问题。 4. 预算和需求:根据您的需求和预算来选择合适的配置。例如,如果有做 AIGC 视频、建模渲染和炼丹(lora)的需求,可能需要更高的配置。 请注意,以上步骤仅为参考,实际部署过程可能会因具体情况而有所不同。
2025-03-26
ai大模型和工具组合使用技巧
以下是关于 AI 大模型和工具组合使用的技巧: 1. 在 Obsidian 中的使用: 简单方法:通过命令面板打开创建的页面(默认快捷键 Ctrl+P),在弹出的搜索框中输入插件名称(如 custom frames),选择 OpenKimi 并打开设置好的窗口。 进阶配置:包括笔记仓库嵌入大模型(Copilot)、笔记内容作为 RAG 嵌入大模型(Smart Conections)、笔记内使用大模型编写内容。 2. 利用大模型与工具的典型例子:如使用 Kimi Chat 查询问题时,它会在互联网上检索相关内容并总结分析给出结论,同时还有很多不同领域类型的工具为大模型在获取、处理、呈现信息上做补充。 3. Agentic Workflow 方面: Agent 通过自行规划任务执行的工作流路径,面向简单或线性流程的运行。 多 Agent 协作:吴恩达通过开源项目 ChatDev 举例,让大语言模型扮演不同角色相互协作开发应用或复杂程序。 AI Agent 基本框架:OpenAI 的研究主管 Lilian Weng 提出“Agent=LLM+规划+记忆+工具使用”的基础架构,其中大模型 LLM 扮演“大脑”,规划包括子目标分解、反思与改进。 4. 从提示词优化到底层能力提升: 任务拆解:将复杂任务的提示词拆解成若干步骤的智能体,每个智能体负责特定子任务。 工作流构建:组合多个提示词或 AI 工具搭建高频重复工作的工作流。 创作场景的灵活应用:在创作过程中使用简单提示词和连续追问调整大模型回答。 深度思考辅助:将大模型用于辅助深度思考,从居高临下的指挥变为伙伴式的协作和相互学习,关注利用大模型训练和增强认知能力。
2025-03-26
用扣子的时候怎么让大模型严格按照知识库内容进行输出
以下是关于让大模型严格按照知识库内容进行输出的相关信息: 扣子的知识库功能强大,可上传和存储知识内容,提供多种查找方法。在智能体中使用知识库,收集相关内容,当智能体回答用户时会先检索知识库,使回复更准确。 在“掘金 x 扣子 Hackathon 活动 深圳站”的总冠军工作流中,对于用户向小说人物角色的提问,通过一系列节点,包括开始节点接收问题、知识库节点检索、大模型节点生成答案等,本质上是一个根据用户 query 进行检索增强生成(RAG)的任务,每个工作流中都嵌入了知识库节点,维护了如小说合集等知识库。 大模型节点是调用大语言模型,使用变量和提示词生成回复。按需选择基础版或专业版模型,基础版支持扣子预设的一批模型资源,专业版除默认添加的豆包模型外,还支持按需接入火山引擎方舟平台的模型资源。模型选择右下角生成多样性可从多个维度调整不同模型在生成内容时的随机性,有精确模式、平衡模式和创意模式等预置模式。输入方面,开启智能体对话历史后,上下文信息将自动携带进入大模型,参数名可随意设置但建议有规律,变量值可引用前面链接过的节点的输出或进行输入。
2025-03-26
我是一个没有技术背景且对AI感兴趣的互联网产品经理,目标是希望理解AI的实现原理并且能够跟开发算法工程师沟通交流,请给我举出AI模型或者机器学习的分类吧。
以下是 AI 模型和机器学习的分类: 1. AI(人工智能):是一个广泛的概念,旨在使计算机系统能够模拟人类智能。 2. 机器学习:是人工智能的一个子领域,让计算机通过数据学习来提高性能。包括以下几种类型: 监督学习:使用有标签的训练数据,算法学习输入和输出之间的映射关系,包括分类和回归任务。 无监督学习:学习的数据没有标签,算法自主发现规律,经典任务如聚类。 强化学习:从反馈中学习,以最大化奖励或最小化损失,类似训练小狗。 3. 深度学习:是机器学习的一个子领域,模拟人脑创建人工神经网络处理数据,包含多个处理层,在图像识别、语音识别和自然语言处理等任务中表现出色。 4. 大语言模型:是深度学习在自然语言处理领域的应用,目标是理解和生成人类语言,如 ChatGPT、文心一言等。同时具有生成式 AI 的特点,能够生成文本、图像、音频和视频等内容。 2017 年 6 月,谷歌团队发表论文《Attention is All You Need》,首次提出了 Transformer 模型,它基于自注意力机制处理序列数据,不依赖循环神经网络或卷积神经网络。生成式 AI 生成的内容称为 AIGC。
2025-03-26
最值得了解的AI专业名称,及解释
以下是一些值得了解的 AI 专业名称及解释: 1. 人工智能(Artificial Intelligence,简称 AI):一种目标,让机器展现智慧。 2. 生成式人工智能(Generative AI,简称 GenAI):一种目标,让机器产生复杂有结构的内容。 3. 机器学习:一种手段,让机器自动从资料中找到公式。 4. 深度学习:一种更厉害的手段,类神经网络 非常大量参数的函数。 5. 大语言模型(Large Language Models,简称 LLMs):是一类具有大量参数的“深度学习”模型。 6. ChatGPT:一个应用实例,通过投喂大量资料预训练后,会通过聊天玩“文字接龙游戏”。英文解释:Chat 聊天,G:Generative 生成,P:Pretrained 预训练,T:Transformer 类神经网络模型。 7. AIGC(Artificial Intelligence Generated Content):利用人工智能技术生成内容的新型生产方式,包括文本、图像、音频和视频等内容。 这些概念之间存在一定的关系,AIGC 技术可以用于多种应用,ChatGPT 是 AIGC 技术在文本生成领域的一个应用实例。对于新手学习 AI,建议先了解 AI 基本概念,如阅读相关的入门文章和熟悉术语。可以在特定的学习路径中找到为初学者设计的课程,通过在线教育平台按自己节奏学习。选择感兴趣的模块深入学习,比如掌握提示词技巧。实践和尝试很关键,可使用各种产品做出作品,并体验如 ChatGPT 等 AI 产品。
2025-03-11
manus值得关注技术创新有哪些
Manus 值得关注的技术创新包括以下方面: 虚拟机技术:如 VMware 的诞生、x86 虚拟化的挑战与解决方案、服务器虚拟化的兴起(如 VMware ESX/ESXi)、硬件辅助虚拟化(Intel VTx 和 AMDV)、开源虚拟化的崛起(如 Xen 和 KVM)、虚拟化管理平台的发展、虚拟化技术在企业 IT 中的应用、虚拟化与云计算的融合,以及从虚拟机到容器技术演进的下一步等。 容器技术:重点介绍了 Linux 容器技术和 Docker,以及现代容器生态系统,包括云原生技术和最新发展。 Manus 是一款由中国团队研发的全球首款通用型 AI 代理工具,于 2025 年 3 月 5 日正式发布。它区别于传统聊天机器人,具备自主规划、执行复杂任务并直接交付完整成果的能力,被称为“首个真干活的 AI”。其具体技术架构主要基于多智能体架构,运行在独立的虚拟机中。通过规划、执行和验证三个子模块的分工协作,实现对复杂任务的高效处理。核心功能由多个独立模型共同完成,分别专注于不同任务或领域,如自然语言处理、数据分析、推理等。技术架构还包括以下关键组件: 1. 虚拟机:运行在云端虚拟机中,用户可随时查看任务进度,适合处理耗时任务。 2. 计算资源:利用计算资源生成算法,用于筛选简历等具体任务。 3. 生成物:能够生成各种类型的输出,如文本、表格、报告等。 4. 内置多个 agents:通过内置多个智能体,实现任务的分解和协同工作。 此外,Manus 还采用“少结构,多智能体”的设计哲学,强调在数据质量高、模型强大、架构灵活的情况下,自然涌现 AI 的能力,使其在处理复杂任务时更加高效和准确。
2025-03-06
帮我总结一下最近一周值得关注的AI新闻
以下是最近一周值得关注的 AI 新闻: 2024 年 6 月,苹果发布了 AI 原生操作系统,加强了硬件和模型布局;Claude Sonnet 3.5 发布,挑战 OpenAI;视频生成领域 Runway Gen3 和快手可灵表现优秀;AI 3D 技术逐渐崭露头角;Google 和月之暗面推出长上下文缓存技术。整体趋势是技术不断进步,各领域竞争激烈。 快手发布可灵网页版及大量模型更新;阶跃星辰发布多款模型;商汤打造类似 GPT4o 的实时语音演示;GraphRAG:微软开源新型 RAG 架构。 红杉资本美国合伙人 Pat Grady 在最新访谈中表示,AI 技术将为服务行业带来变革机遇,而非取代软件公司。AI 的潜力在于赋能服务行业,但人际关系和实际执行仍需人工。对于基础模型公司,Grady 认为它们可能像数据库公司一样发展,提供开发者 API,有机会进入应用层。他认为现有模型已足够强大,关键在于工程化优化和认知架构设计。 Netflix 列出了一个年薪 90 万美元的机器学习平台产品经理的 AI 产品工作岗位。 Shopify 的 AI 助手 Sidekick 现已上线,它知道如何在 Shopify 中执行任何操作,包括提取相关数据、操作新功能或创建报告。 Artifact(Ins 创始人做的 AI 新闻浏览软件)推出了自定义内容阅读语音的功能。 OpenAI、谷歌、微软和 Anthropic 组建了前沿模型论坛,主要目的是确保 AI 模型的安全发展。 Open AI 悄咪咪下线了他们的 ChatGPT 生成内容的检测器。 2024 年 1 月,斯坦福大学 Mobile Aloha;1 月 10 号 LumaAl Genie 文生 3D;1 月 11 号 GPT store 上线;1 月 MagnificAl 高清放大爆火;1 月最后一天苹果 Vision Pro 宣布发售。
2025-03-06
2024 年值得关注的中文大模型全景图
2024 年,AI 大模型在生产和生活中落地速度迅猛,被称为国内大模型落地元年。以下是一些值得关注的情况: 国内大模型行业形成了以百度、阿里、字节等科技大厂和创业“AI 六小虎”为主要玩家的竞争格局。 2024 年 1 至 11 月,国内大模型中标项目数量和金额大幅增长,中标项目共 728 个,是 2023 年全年的 3.6 倍;中标金额 17.1 亿元,是 2023 年全年的 2.6 倍。中标项目数前五的行业分别是运营商、能源、教育、政务、金融。 厂商方面,百度以 40 个中标项目数、2.74 亿元的中标金额排名所有厂商之首,科大讯飞居第二。 在金融行业,百度以 14 个中标数量、3734.4 万元中标金额排名第一;科大讯飞居第二。 在智能终端行业,超半数手机厂商都在使用文心大模型,包括三星、荣耀、vivo、OPPO、小米等主流手机品牌;上汽大众、吉利汽车、蔚来汽车、长安汽车等十余家车企已接入百度文心大模型。 百度表现突出,截至 11 月,其文心大模型日均调用量超过 15 亿次,千帆平台帮助客户精调了 3.3 万个模型、开发了 77 万个企业应用。今年三季度财报披露,百度智能云营收达 49 亿元,同比增长 11%。 2024 年 9 月 AI 行业大事记: 9 月 12 日:李继刚再现神级 Prompt,玩法持续翻新;Mistral 发布首个多模态模型 Pixtral 12B。 9 月 13 日:商汤 Vimi 相机开放微博小程序;元象开源中国最大 MoE 大模型 XVERSEMoEA36B;OpenAI 发布 o1 模型。 9 月 14 日:人工智能生成合成内容标识办法;Jina AI 发布 ReaderLM、Jina Embeddings V3。 9 月 18 日:DeepSeek 发文庆祝登上 LMSYS 榜单国产第一,几小时后 Qwen 新模型表示不服。 9 月 19 日:云栖大会;通义万相 AI 生视频上线;快手可灵 1.5 模型新增运动笔刷能力。 9 月 20 日:腾讯元器智能体对外发布;秘塔科技产品经理 JD 走红 AI 圈;阶跃跃问接入 Step2 万亿参数 MoE 语言大模型。 9 月 21 日:大模型测试基准研究组正式成立。 9 月 23 日:钉钉 365 会员上线。 9 月 24 日:讯飞星火 API 全新升级;豆包大模型全系列发布&更新。 9 月 25 日:Vidu API 正式开放,加速企业级视频创作;OpenAI 发布高级语音功能;西湖心辰开源 WestlakeOmni。 大模型进入产业落地后,除了大模型本身能力质量要过硬外,落地应用所需要的全栈技术能力、工程化配套工具等对落地效果有直接影响。企业想要真正将大模型在自身场景落地,需要具备构建算力、数据治理、模型训练、场景落实、应用搭建、持续运营、安全合规等整套能力,大模型的竞争正在加速成为体系化之战。
2025-02-21
帮我想想三年内有争议有公众性时效性的新闻评议选题,关于无人驾驶的,贴近生活,有新意。 例子:《强制加班不应该成为企业文化》《不敢看体检报告,是我们这一代人的命吗》《理发师因听得懂话爆火,这份作业值得抄》《“网红探墓”别“自挖坟墓”》《大学生挂科8门后离奇失踪,学校有责任吗》《不招疫情班应届生,一种赤裸裸的求职歧视》
以下是为您提供的一些关于无人驾驶三年内有争议、有公众性时效性且贴近生活、有新意的新闻评议选题: 1. 《无人驾驶汽车事故频发,谁来负责?》 2. 《无人驾驶能否解决城市交通拥堵难题?》 3. 《无人驾驶普及,传统司机将何去何从?》 4. 《无人驾驶技术,是便利还是安全隐患?》 5. 《无人驾驶车辆的隐私保护,你放心吗?》 6. 《无人驾驶时代,驾照是否会成为历史?》 7. 《无人驾驶汽车的保险政策,公平吗?》 8. 《无人驾驶上路,行人安全如何保障?》 9. 《无人驾驶出租车,你敢坐吗?》 10. 《无人驾驶公交,能否改变城市出行方式?》
2024-12-05
目前有哪些值得关注的AIGC短片
以下是一些值得关注的 AIGC 短片: AIGC Weekly 76 中: Luma AI 发布的 Dream Machine 视频生成模型,图生视频表现惊艳,如美少女混剪(https://x.com/KakuDrop/status/1800928377693687890)和可爱怪物动画(https://x.com/LumaLabsAI/status/1800921393321934915)。 用已有的表情包图片生成的视频也生动搞笑,如奥斯卡合影图片(https://x.com/fofrAI/status/1801198998289608925)。 作者自己跑的测试(https://x.com/op7418/status/1801138865224454480)总结了一些要点。 Luma 官方发布的视频(https://x.com/op7418/status/1801828221996122144)介绍了模型特点和擅长内容。 AIGC Weekly 95 中: 将视频拆分为各个层级的 Demo(https://x.com/dmvrg/status/1851480809477455899)。 Midjourney 的图片编辑加上 C4D 渲染的 Framer LOGO(https://x.com/andyorsow/status/1851771716852420632)。 两个同事计划午餐约会的短片(https://x.com/iamneubert/status/1851615112878076164)。 Nicolas 这段 AI 视频素材混剪(https://x.com/iamneubert/status/1851256571856052467)。 此外,浙江在线报道了 AI 春晚,如《10 万人观看的这场 AI 春晚,有何不同》(https://china.zjol.com.cn/pinglun/202402/t20240212_26647577.shtml)提到了 Way to AGI 社区组织的相关情况。
2024-11-08