Navigate to WaytoAGI Wiki →

Home/Question List/Question Detail

如何评价大模型分不清9.11与9.09哪个更大的问题

Answer

大模型在处理数字比较这类简单任务时出现分不清大小的情况，可能反映出以下几个方面的问题：

数据质量和训练不足：大模型的训练数据可能存在缺陷或不全面，导致对这类基本的数字比较理解不准确。
模型架构和算法局限：当前的模型架构和算法可能在处理这类直观的数字逻辑问题上存在一定的局限性。
复杂语境干扰：在某些复杂的语境中，可能存在干扰信息，影响了大模型对数字本身大小的准确判断。

然而，需要指出的是，大模型的能力是多方面的，不能仅仅因为这一个方面的表现不佳就全面否定其价值和作用。同时，随着技术的不断发展和改进，这类问题有望在未来得到更好的解决。

Content generated by AI large model, please carefully verify (powered by aily)

Others are asking

现在AI领域做语音模型比较好的有哪几家？音色复刻做的比较好的有哪些

在 AI 领域，做语音模型较好的有阿里，其 CosyVoice 语音合成模型有以下特点：精细控制：能生成符合性别、年龄和个性特征的声音。自然模拟：可模拟笑声、咳嗽和呼吸等人类语音自然特征。情感和风格：能够为声音添加情感和风格，更具表现力。 GitHub 链接：https://github.com/FunAudioLLM/CosyVoice 相关链接：https://x.com/imxiaohu/status/1818942399705710700 。但关于音色复刻做的比较好的，上述信息中未明确提及。

目前ai搜索功能最强的是什么模型

目前在 AI 搜索功能方面，Meta 于 2024 年 7 月 23 日发布的源模型 Llama 3.1 表现较为出色，其包含 8B、70B 和 405B 三个版本，其中 405B 是迄今为止最强大的模型，性能与 GPT4 和 Claude 3.5 相当。在 AI 时代，搜索引擎结合大模型极大地增强了自身能力，比较优秀的公司有秘塔搜索（https://metaso.cn/）和 Perplexity（https://www.perplexity.ai/?loginsource=oneTapHome）。 AI 搜索结合了多种能力，如 fine tuning、实时联网查询和查询知识源等，能够为用户整理出想要的内容，一些 AI 搜索平台专注于特定领域，如为程序员提供代码搜索。 RAG 是一种通过引用外部数据源为模型做数据补充的方式，适用于动态知识更新需求高的任务，其原理是在基础大模型基础上引用外部数据，对搜索到的数据信息进行切片、拆分和语义理解，再根据用户提问进行检索和回答，但比基座模型更耗时，且能够支持在本地运行。多模态大模型具有多种能力，像能唱会跳、精通多种技能的机器人，能看见、听见、思考、说话，例如能识别物体、听取指令等。生成式模型和决策式模型有所区别，决策式模型偏向逻辑判断，按预设程序固定输出；生成式模型偏随机性，能动态组合并结构化呈现，如在图像识别中，决策式模型返回关键词，生成式模型用语言表达结构化信息。

世界模型方面的相关信息如下：谷歌发布了世界模型 Genie，这是一个 110 亿参数的基础世界模型，能够通过单张图像提示生成可玩的交互式环境。它由潜在动作模型、视频 tokenizer 和动态模型三个部分组成。可以用未见过的图像进行提示，并与想象中的虚拟世界互动，能处理合成图像、照片甚至手绘草图，生成无穷无尽的可玩世界。Genie 学到的潜在动作可以转移到真实的人类设计的环境中，谷歌针对机器人视频训练了相关模型作为概念验证。润米咨询创始人刘润指出，世界模型是人类理解世界的方式，比如知道一杯咖啡的重量从而预测拿起所需的力。人类做的事情越多，大脑里形成的世界模型越复杂，用于更准确地预测世界的反应。 Genie 在模型训练方面，能通过在无动作标签的视频上训练较小模型展示学习一致动作空间的能力；在模拟可变形物体方面，能够模拟衣物飘动、橡胶球变形等复杂物理行为；它不仅开启了从图像或文本生成完整交互式世界的新时代，还可能极大推动 AI 技术发展，特别是在创建自适应、多功能的 AI 方面。项目地址：

搜索模型搭建

以下是关于搜索模型搭建的相关知识：嵌入（Embeddings）：概述：第一代模型（以001结尾的模型）都使用 GPT3 分词器，最大输入为 2046 个分词。第一代嵌入由五个不同的模型系列生成，针对三个不同任务进行调整，包括文本搜索、文本相似性和代码搜索。搜索模型成对出现，有用于短查询和长文档的。不同系列包括多种质量和速度不同的型号，如 Davinci 能力最强但更慢更贵，Ada 能力最差但速度快成本低。相似性嵌入：最擅长捕捉文本片段之间语义相似性，如 textsimilaritybabbage001、textsimilaritycurie001、textsimilaritydavinci001。文本搜索嵌入：有助于衡量长文档与短搜索查询的相关性，使用两种模型，分别用于嵌入搜索查询和要排名的文档，如 textsearchadaquery001 等。代码搜索嵌入：与搜索嵌入类似，有两种类型，分别用于嵌入自然语言搜索查询和要检索的代码片段，如 codesearchadatext001 等。对于001 文本嵌入，建议将输入中的换行符替换为单个空格。部署大语言模型：下载并安装 Ollama：根据电脑系统，从 https://ollama.com/download 下载，双击打开点击“Install”，安装完成后将下方地址复制进浏览器中，若出现相关字样表示安装完成，即 http://127.0.0.1:11434/ 。下载 qwen2:0.5b 模型：Windows 电脑按 win+R 输入 cmd 回车，Mac 电脑按下 Command（⌘）+Space 键打开 Spotlight 搜索输入“Terminal”或“终端”选择“终端”应用程序，复制相关命令行粘贴回车等待完成。检索原理：信息筛选与确认：对检索器提供的信息进行评估，筛选出最相关和最可信的内容，涉及对信息来源、时效性和相关性的验证。消除冗余：识别和去除多个文档或数据源中的重复信息。关系映射：分析不同信息片段之间的逻辑和事实关系，如因果、对比、顺序等。上下文构建：将筛选和结构化的信息组织成连贯的上下文环境，包括排序、归类和整合。语义融合：合并意义相近但表达不同的信息片段。预备生成阶段：整合好的上下文信息被编码成适合生成器处理的格式。大模型生成回答：全新的上下文传递给大语言模型，大语言模型根据提供的信息回答问题。

哪款ai可以用于渲染模型

以下是一些可以用于渲染模型的 AI 工具和相关信息：在游戏领域，用于纹理生成的有 BariumAI（https://barium.ai/）、Ponzu（https://www.ponzu.gg/）和 ArmorLab（https://armorlab.org/）。在动画方面，涉足从视频中捕捉动画等领域的公司包括 Kinetix（https://www.kinetix.tech/）、DeepMotion（https://www.deepmotion.com/）、RADiCAL（https://getrad.co/）、Move Ai（https://www.move.ai/）和 Plask（https://plask.ai/）。此外，在软件架构设计中，以下工具可用于绘制逻辑视图、功能视图、部署视图等： Lucidchart：流行的在线绘图工具，支持多种图表创建，包括相关视图，用户可通过拖放界面轻松创建架构图。 Visual Paradigm：全面的 UML 工具，提供创建各种架构视图的功能。 ArchiMate：开源建模语言，与 Archi 工具配合可创建逻辑视图。 Enterprise Architect：强大的建模、设计和生成代码工具，支持多种视图创建。 Microsoft Visio：广泛使用的图表和矢量图形应用程序，提供丰富模板。 draw.io（现称 diagrams.net）：免费在线图表软件，支持多种类型图表创建。 PlantUML：文本到 UML 转换工具，可通过描述性文本自动生成相关视图。 Gliffy：基于云的绘图工具，提供创建各种架构图的功能。 Archi：免费开源工具，支持逻辑视图创建。 Rational Rose：IBM 的 UML 工具，支持多种视图创建。

大模型辩论

在大模型的相关辩论中：邬嘉文认为在 CES 2024 上，李飞飞争论 LLM 和 AIGC 名称不能混用，吴恩达觉得在公众传播中没关系，李飞飞难以接受，可能是因为这模糊了大模型的本质。在公众传播层面，AIGC 指用 Stable Diffusion 或 Midjourney 生成图像内容，后来泛指用 AI 生成音乐、图像、视频等内容；LLM 指 NLP 领域的大语言模型，如 ChatGPT；GenAI 是生成式人工智能模型，国内官方政策文件使用这个词相对科学，涵盖了 LLM 和 AIGC；AGI 指通用人工智能，部分人觉得 LLM 具有 AGI 潜力，LeCun 反对。公众传播一般会混用上述名词，其底层是 Transformer 结构。Transformer 底层是 function loss 损失函数，是一个大参数（千亿级别）的回归方程，能在一定 prompt condition 情况下，repeat 曾经出现过的数据内容实现“生成”能力。大语言模型是一个 perfect memory，repeat 曾经出现的内容，与 Alpha Go 有差异，Alpha Go 是增强学习模型，有推理能力，而大语言模型这块很弱，Transformer 决定 LLM 是一个生成式模型。 Ranger 针对唱衰 AI 大模型的风潮指出，唱衰者认为大模型仅能实现如 chatbox、文生图等功能，难以找到商用场景且存在幻觉问题，同时算力有成本。但这种观点建立在大模型后续仅能用于特定功能且算力费用持续居高不下这两个前提上，而实际上，今年内算力成本问题将不再是难题，并且对于大模型能带来的改变，需要明晰其运作原理，期望通过简单描述帮助非技术人员理解大模型。