Navigate to WaytoAGI Wiki →
Home/Question List/Question Detail

到今天,大语言模型还会产生“幻觉”吗

Answer

截至今天,大语言模型仍会产生“幻觉”。

大语言模型偶尔会根据输入输出一些荒谬或不符合事实的内容,目前各家大语言模型在该问题上的表现都不尽如人意。产生“幻觉”的原因包括:

  1. 样本存在错误(Imitative Falsehoods):如果大语言模型学习的“教材”中有错误,它也容易给出错误回答。缓解该问题的一个办法是上采样(Up Sampling)。
  2. 信息过时(Outdated Factual Knowledge):以前正确的信息现在可能过时了。

此外,大语言模型通过训练数据猜测下一个输出结果,可能因错误数据导致给出错误答案,优质数据集对其很重要。如果在其训练过程中,模型被暴露于大量知识之中,它并没有完美地记忆所见到的信息,并不十分清楚自己的知识边界,可能会尝试回答有关深奥话题的问题,并虚构听起来有道理但实际不正确的内容。

在构建应用程序时,可以使用一些技术来避免这种情况,例如要求模型先从文本中找到相关引文,然后使用引文回答问题,并将答案追溯回源文件,这通常有助于减少“幻觉”的发生。

Content generated by AI large model, please carefully verify (powered by aily)

References

从 0 到 1 了解大模型安全,看这篇就够了

隐私泄露可以被大致分为三种:记忆隐私泄露,系统隐私泄露与上下文隐私泄露。我们先来聊聊第一种:记忆数据了、泄露。自回归语言模型的训练可以类比为模型在预训练数据中不断学习的过程,在学习的过程中,除了提取的`语言知识之外,模型无可避免的会记住一些数据。就像背诵一样,可能查询是完全没有恶意的,但模型返回了他人的隐私信息,例如左侧的ChatGPT回答,就正是模型输出了无意识记忆的url,而该url正好指向他人的隐私相册。模型的记忆形式其实和人类很类似,如果模型背诵的次数少,那么模型的记忆能力就会显著下降例如右图所示,横轴是重复次数,纵轴是被记住的可能性,可以看到见过的次数越多,模型就越容易背下来因此在LLM的数据隐私保护中,一个直观地解决办法就是让模型减少见数据的次数,少看几遍,也就记不住了第二种则是系统隐私泄露。例如,大家熟知的“骗取GPTs的System Prompt”就是系统隐私泄漏的一种。第三种则是“上下文隐私泄露”。接下来,我们来讲讲大家耳熟能详的“幻觉”问题。大语言模型偶尔会根据输入,输出一些荒谬或不符合事实的内容。目前,各家大语言模型都在该问题上表现得不尽如人意。为什么大语言模型会出现幻觉呢?以下的论文提供了一些解释:例如第一种:Imitative Falsehoods,样本存在错误。如果大语言模型这个“学生”学习的“教材”中有错误,那它也对不到哪里去。缓解该问题的一个办法是上采样(Up Sampling)。第二种是Outdated Factual Knowledge:以前正确,现在过时了的信息

02-基础通识课

[heading2]总结大语言模型的介绍与原理国内大模型的分类:国内大模型有通用模型如文心一言、讯飞星火等,处理自然语言;还有垂直模型,专注特定领域如小语种交流、临床医学、AI蛋白质结构预测等。大模型的体验:以‘为什么我爸妈结婚的时候没有邀请我参加婚礼’和‘今天我坐在凳子上’为例,体验了Kimi、通义千问、豆包等大模型的回答和续写能力,发现回复有差异,且大模型基于统计模型预测生成内容。大语言模型的工作原理:大语言模型工作原理包括训练数据、算力、模型参数,在训练数据一致情况下,模型参数越大能力越强,参数用b链形容大小。Transformer架构:Transformer是大语言模型训练架构,17年出现用于翻译,具备自我注意力机制能理解上下文和文本关联,其工作原理是单词预测,通过嵌入、位置编码、自注意力机制生成内容,模型调教中有控制输出的temperature。关于大语言模型的原理、应用及相关概念Transformer模型原理:通过不断检索和匹配来寻找依赖关系,处理词和词之间的位置组合,预测下一个词的概率,是一个偏向概率预测的统计模型。大模型幻觉:大模型通过训练数据猜测下一个输出结果,可能因错误数据导致给出错误答案,优质数据集对其很重要。Prompt的分类和法则:分为system prompt、user prompt和assistant prompt,写好prompt的法则包括清晰说明、指定角色、使用分隔符、提供样本等,核心是与模型好好沟通。Fine tuning微调:基于通用大模型,针对特定领域任务提供数据进行学习和调整,以适应特定领域的需求。RAG概念:未对RAG的具体内容进行详细阐述,仅提出了这个概念。

2.提示工程关键原则

因此,接下来我们将讨论一些模型的局限性,因为我认为在开发具有大型语言模型的应用程序时保持这些局限性非常重要。如果在其训练过程中,模型被暴露于大量的知识之中,那么它并没有完美地记忆所见到的信息,因此它并不十分清楚它的知识边界。这意味着它可能会尝试回答有关深奥话题的问题,并且可能会虚构听起来很有道理但实际上不正确的东西。我们将这些捏造的想法称为幻觉。因此,我将向您展示一个例子,在这个例子中模型会产生幻觉。这是一个例子,展示了模型如何编造一个来自真实牙刷公司的虚构产品名称的描述。因此,这个提示是:“告诉我关于Boy的AeroGlide Ultra Slim智能牙刷的情况。”如果我们运行它,模型将为我们提供一个相当逼真的虚构产品的描述。这样做的危险在于,这听起来实际上是相当逼真的。因此,当您构建自己的应用程序时,请确保使用本笔记本中介绍的一些技术来避免出现这种情况。这是模型已知的弱点,我们正在积极努力应对。在您希望模型根据文本生成答案的情况下,另一种减少幻觉的策略是要求模型首先从文本中找到任何相关的引文,然后要求它使用那些引文来回答问题,并将答案追溯回源文件通常是非常有帮助的,可以减少这些幻觉的发生。大功告成!您已经完成提示指南,接下来您将进入下一个视频,了解迭代提示开发过程。

Others are asking
基础搭建的知识库效果很差,模型答案的幻觉很严重,我应该怎么改进?(Deepseek调用api接入本地faiss的rag库)
以下是一些改进基础搭建的知识库效果、减轻模型答案幻觉问题的建议: 1. 更换大模型:例如从 ChatGLM26B 替换成 baichuan213b,针对您的场景,后者的性能可能提升一倍左右。 2. 更换 embedding 模型:将 embedding 模型从 LangChain Chatchat 默认的 m3ebase 替换为 bgelargezh,后者可能更优。 3. 测试不同 Top k 的值:比较 Top 5、Top 10、Top 15 的结果,发现 Top 10 时效果可能最优。 4. 对文档名称进行处理:人工对文件进行重命名,上传相同文件构建知识库,同时在构建知识库时勾选【开启中文标题加强】选项,虽然重命名文件对结果的提升效果不明显,但勾选该选项后,回答的无关信息可能减少,效果有所提升。 RAG(RetrievalAugmented Generation)即检索增强生成,由检索器和生成器两部分组成。检索器从外部知识中快速找到与问题相关的信息,生成器利用这些信息制作精确连贯的答案,适合处理需要广泛知识的任务。 在大模型中,向量可想象成空间中的点位,每个词或短语对应一个点。系统通过查看词在虚拟空间中点的位置,寻找直线距离最近的点来检索语义上接近的词语或信息。理解向量后,当收到一个对话时,RAG 的完整工作流程为:检索器从外部知识中检索相关信息,生成器利用这些信息生成答案。 要优化幻觉问题和提高准确性,需要了解从“问题输入”到“得到回复”的过程,针对每个环节逐个调优,以达到最佳效果。
2025-02-27
我想了解现在有什么文生图的模型或者工具,可以精准的按照prompt给的位置大小把文字写在最终出来的图像上的,这个字不会是幻觉,是实打实的字,或者有没有通过训练lora来达到这个效果的
以下是一些关于文生图的模型和工具的信息: Tusiart: 定主题:确定生成图片的主题、风格和表达的信息。 选择基础模型 Checkpoint:可选用麦橘、墨幽等系列模型。 选择 lora:寻找与生成内容重叠的 lora 以控制图片效果和质量。 ControlNet:可控制图片中特定的图像。 设置 VAE:选择 840000 。 Prompt 提示词:用英文写需求,单词和短语用英文半角逗号隔开。 负向提示词 Negative Prompt:用英文写避免产生的内容,单词和短语用英文半角逗号隔开。 采样算法:一般选 DPM++2M Karras ,也可参考模型作者推荐的采样器。 采样次数:选 DPM++2M Karras 时,采样次数在 30 40 之间。 尺寸:根据需求和喜好选择。 吐司网站: 文生图的操作方式:在首页的对话生图对话框输入文字描述即可生成图片,不满意可通过对话修改。 模型及生成效果:Flex 模型对语义理解强,不同模型生成图片的积分消耗不同,生成效果受多种因素影响。 图生图及参数设置:可基于图片做延展,能调整尺寸、生成数量等参数,高清修复消耗算力多,建议先出小图。 特定风格的生成:国外模型对中式水墨风等特定风格的适配可能不足,可通过训练 Lora 模型改善。 Liblibai: 定主题:确定生成图片的主题、风格和表达的信息。 选择 Checkpoint:可选用麦橘、墨幽等系列模型。 选择 lora:寻找与生成内容重叠的 lora 以控制图片效果和质量。 设置 VAE:选择 840000 。 CLIP 跳过层:设成 2 。 Prompt 提示词:用英文写需求,单词和短语用英文半角逗号隔开。 负向提示词 Negative Prompt:用英文写避免产生的内容,单词和短语用英文半角逗号隔开。 采样方法:一般选 DPM++2M Karras ,也可参考模型作者推荐的采样器。 迭代步数:选 DPM++2M Karras 时,迭代步数在 30 40 之间。 尺寸:根据需求和喜好选择。 生成批次:默认 1 批。
2025-02-25
清华AI幻觉
以下是关于清华 AI 幻觉的相关信息: 在 AI 领域,特别是大型语言模型(LLM)中,幻觉是一个常见的问题。LLM 会产生幻觉,编造事实性信息,原因在于它们本质上是在模仿训练数据中的统计模式,而非真正理解或检索知识。例如,模型在训练数据中学习到“who is X”类型的问题通常有确定的答案,所以即使面对未知问题,也会倾向于编造答案以符合训练数据的风格。 对于幻觉问题,有一些研究和应对方法。牛津大学的研究重点关注了幻觉的一个分支——虚构症,通过生成一个问题的多个答案,并使用另一个模型根据相似含义分组来衡量 LLM 不确定性。Google DeepMind 推出了 SAFE,通过将 LLM 响应分解为单个事实、使用搜索引擎验证事实以及对语义相似的陈述进行聚类来评估 LLM 响应的真实性。同时,OpenAI 推出了 CriticGPT,它使用基于大量有缺陷输入数据集进行训练的 GPT 式 LLM 来发现其他 LLM 生成的代码中的错误。 此外,清华大学在这方面也有相关研究,如“DeepSeek 与 AI 幻觉”。但关于其具体内容,您可以通过相关链接进一步了解。
2025-02-24
AI幻觉
AI 幻觉是指 AI 在生成内容时出现的错误或与现实世界不符的情况。以下是关于 AI 幻觉的一些重要方面: 在写东西方面,AI 容易“产生幻觉”并生成看似合理但可能完全错误且令人信服的事实。例如,GPT4 通常更扎实,而 Bing 因互联网连接可拉入相关事实,但幻觉仍难以完全消除。同时,AI 不会真正解释自身,给出的解释可能是完全编造的。当被要求解释思考过程时,它只是生成听起来合理的文本,这使得理解系统中的偏见非常困难。 在艺术创作方面,许多 AI 工具会出现幻觉,如照片中突然出现第三只手臂,或者处理请求时间长。对于大多数消费者可能可接受,但对于试图通过内容盈利的用户可能更令人沮丧。 从技术真相角度来看,AI 幻觉本质上是对信息的扭曲。人类认知偏差是大脑处理信息时为节省认知资源采取“捷径”导致对信息的扭曲和误判,而 AI 幻觉是模型对训练数据中统计模式的过度依赖,在面对新情况时无法准确理解和生成信息。其表现形式多种多样且难以察觉,如生成不存在的人物、地点、事件或对已知事实错误描述。产生原因都与经验和知识有关,人类认知偏差与个人成长经历、文化背景、知识结构等有关,AI 幻觉则与训练数据质量、模型结构和训练策略有关。其影响可能导致错误决策,如投资者受偏差影响做出错误投资决策,也可能误导用户、传播虚假信息甚至引发安全事故,如用于医疗诊断的 AI 系统给出错误诊断结果延误患者治疗。 可参考进一步了解。
2025-02-24
AI幻觉
AI 幻觉是指 AI 在生成内容时出现的错误或与现实世界不符的情况。以下是关于 AI 幻觉的一些重要方面: 在写东西方面,AI 容易“产生幻觉”并生成看似合理但可能完全错误的内容,且非常令人信服。例如,当被要求为互联网提供参考、引用、引文和信息时(对于未连接到互联网的模型),风险尤其大。GPT4 通常更扎实,而 Bing 的互联网连接意味着它能引入相关事实,但幻觉仍无法完全消除。同时,AI 不会真正解释自己,对其思考过程的回答往往是编造的,这使得理解系统中的偏见非常困难。 在艺术创作方面,许多 AI 工具会出现幻觉,如照片中突然出现第三只手臂,或者处理请求时间长。对于大多数消费者可能可接受,但对于试图通过内容盈利的人可能更令人沮丧。为满足高级用户需求,预计很多公司会推出如 ChatGPT 那样的“专业版”套餐提供更高质量服务。 从技术真相角度来看,AI 幻觉本质上是对信息的扭曲。人类认知偏差源于大脑处理信息时为节省认知资源采取的“捷径”,易导致信息误判;AI 幻觉则是模型对训练数据中统计模式过度依赖,面对新情况无法准确理解和生成信息。其表现形式多种多样且难以察觉,如生成不存在的人物、地点、事件或对已知事实错误描述。产生原因都与经验和知识有关,人类认知偏差与个人成长经历、文化背景等有关,AI 幻觉与训练数据质量、模型结构和训练策略有关。其影响可能导致错误决策,如投资者受偏差影响做出错误投资决策;在 AI 领域,可能误导用户、传播虚假信息甚至引发安全事故,如用于医疗诊断的 AI 系统给出错误诊断结果延误治疗。
2025-02-24
AI 幻觉
AI 幻觉是指 AI 系统生成的信息与事实不符或与预期不符的现象。其表现形式多种多样,包括生成不存在的人物、地点、事件,对已知事实进行错误描述等。 产生的原因主要与经验和知识有关: 对于人类,认知偏差是大脑在处理信息时为节省认知资源而采取的“捷径”,容易导致对信息的扭曲和误判。 对于 AI,与训练数据的质量、模型的结构和训练策略有关。若训练数据存在偏差或错误,模型会学习到这些并体现在生成内容中。 AI 幻觉的影响可能很严重: 导致错误决策,例如投资者受偏差影响做出错误投资决策。 误导用户,如医疗 AI 助手给出错误诊断建议延误患者治疗。 传播虚假信息,用于政治宣传或商业炒作,影响社会稳定。 损害 AI 系统的可信度,降低用户信任度,阻碍 AI 技术推广和应用。 为避免 AI 幻觉,可参考,但无法完全消除。同时需注意,AI 不会解释自己,对其输出的内容需全部检查,且对工具的输出负责。
2025-02-21
AIGC大模型是什么?
AIGC 大模型是一个较为复杂的概念,下面为您详细解释: 首先,生成式 AI 生成的内容称为 AIGC。 相关技术名词包括: 1. AI 即人工智能。 2. 机器学习是指电脑通过找规律进行学习,包括监督学习、无监督学习和强化学习。 监督学习使用有标签的训练数据,目标是学习输入和输出之间的映射关系,包括分类和回归。 无监督学习的数据没有标签,算法自主发现规律,经典任务如聚类,例如让模型将一堆新闻文章根据主题或内容特征分成相似的组。 强化学习从反馈中学习,以最大化奖励或最小化损失,类似训练小狗。 3. 深度学习是一种参照人脑神经网络和神经元的方法(因有很多层所以叫深度),神经网络可用于监督学习、无监督学习和强化学习。 4. 生成式 AI 能够生成文本、图片、音频、视频等内容形式。 5. LLM 是大语言模型。对于生成式 AI,生成图像的扩散模型不属于大语言模型;对于大语言模型,生成只是其中一个处理任务,比如谷歌的 BERT 模型,可用于语义理解(不擅长文本生成),如上下文理解、情感分析、文本分类。 技术里程碑方面,2017 年 6 月,谷歌团队发表论文《Attention is All You Need》,首次提出了 Transformer 模型,它完全基于自注意力机制(SelfAttention)来处理序列数据,而不依赖于循环神经网络(RNN)或卷积神经网络(CNN)。
2025-03-05
UI交互设计大模型
以下是关于 UI 交互设计大模型的相关内容: ComfyUI ollama 本地大模型部署: 1. 先下载 ollama 安装。安装好后不会有任何界面弹出,可以在电脑桌面右下角或者隐藏图标里面找到。 2. 之后再去下载对应的模型,选择模型,复制对应的命令。 3. 打开命令行界面,输入对应的模型获取命令,等待下载完成。 4. 下载的模型会保存到 D:\\ollama\\blobs 。 5. Docker 安装时会下载一些文件,安装后改下目录,不要放在 C 盘。 6. Open webui 安装,输入相关命令。安装成功后,回到 docker 点击,会自动打开网页。第一次使用,需要注册一个账号,选择一个下载好的模型就可以开始使用。 7. 若出现端口占用的错误,运行下面两条命令可以解决。 8. 相关链接: ComfyUI ollama:https://github.com/stavsap/comfyuiollama?tab=readmeovfile Ollama:https://ollama.com/ Docker:https://www.docker.com/ Open webui:https://openwebui.com/ 通过 Open WebUI 使用大模型: 在默认情况下,与大模型的交互在终端中进行,但这种方式较古老。大模型有交互客户端 Open WebUI。Open WebUI 是 github 上的开源项目,参考其官方文档 https://docs.openwebui.com/gettingstarted/ 进行下载和安装。 1. 安装之前先安装 Docker,Win 或 Mac 系统参考文档:,注意下载适配电脑系统的版本。Linux 系统请自行上网找教程。 2. 官方文档中有两种安装 Open WebUI 的方式:ollama 和 open webui 一起安装、仅仅安装 open webui。若已安装 ollama,只需要安装 open webui 即可,复制相关命令。安装下载完成后即可使用。 大模型时代的产品特点: 大模型的交互方式是 NUI(自然用户界面),通过自然语言文本、语音、输入输出图片等直接交互,与现在熟悉的 GUI(图形用户界面)差异很大。现在习惯在 GUI 界面通过点击按钮与机器交互,需要一定学习成本。而 NUI 更符合人的直觉,用户几乎无需特别学习,通过对话操作,但大模型产品对普通用户使用门槛较高,用户留存率和粘性不如主流 App。若未来大模型产品都是 NUI 的,可能对整个信息产业带来深远影响。
2025-03-05
GRU+CNN模型如何操作
GRU+CNN 模型的操作主要包括以下步骤: 1. 编码器部分:使用预训练的卷积神经网络(CNN),如 Inception Resnet V2,将输入图像转换为一组特征向量。在这种情况下,大部分 CNN 部分被冻结,保留预训练的权重。 2. 解码器部分:结构较为复杂,涉及到注意力机制、嵌入层、GRU 层、添加层归一化层和最终的密集层等。可以找到很多关于注意力层和解码器步骤的说明。 3. 组合模型:将编码器和解码器组合在一起,形成一个完整的图像字幕生成模型。 4. 自定义损失函数:由于任务是生成文本序列且序列长度可能不同,使用稀疏分类交叉熵作为损失函数,并屏蔽填充的部分。 5. 编译模型:编译模型,为开始训练做准备。 6. 训练模型:可以根据需求进行更多训练以获得更好结果。 7. 推理与生成字幕:训练完成后,为新的图像生成字幕。在推理阶段,需要重构解码器模型,使其可以接收额外的 GRU 状态输入,并编写自定义推理循环,一次产生一个单词,直到生成完整句子。
2025-03-05
GRU模型
GRU(门控循环单元)是 RNN(递归神经网络)的一种变体。 在创建图像描述模型中,解码器部分包含了 GRU 层。GRU 层接受输入,更新其内部状态,并生成输出。通过传递像文本这样的顺序数据,它可以保持与先前输入(例如先前的单词)的顺序依赖关系。 在 Transformer 出现之前,序列到序列的模型主要依赖于循环神经网络(RNN)或其变种,如长短时记忆网络(LSTM)和 GRU。由于传统方法必须按顺序处理序列,在处理长序列时面临梯度消失或梯度爆炸的问题,而且计算效率不高。 在创建图像描述模型的解码器中,GRU 的输出会进入注意力层,该层混合了来自编码器(图像)和解码器(文本)的信息。解码器本身是一个迭代操作,通过自回归地多次调用,最终可以生成完整的文本。 在代码方面,注意力层有两个输入:gru_output 和 encoder_output。在内部,gru_output 用作注意力的查询和键,而 encoder_output 用作值。
2025-03-05
截止今天最强的模型是哪个
目前很难确切地指出截止今天最强的模型是哪一个。以下是一些表现出色的模型: Gemini Ultra:在报告的 32 个基准测试中,在 30 个基准测试中取得了 SOTA,包括多个领域的测试。它是第一个在 MMLU 上实现人类专家水平表现的模型,在多模态推理任务方面也有显著进展。 o3 模型:在 ARCAGI 测试中达到了 87.5%的准确率,几乎与人类水平相当。OpenAI 表示下一代 o3mini 模型的推理能力很强。 Gemini 2.0 Flash:Google 发布的该模型在重要的基准能力上,直接追平甚至部分超越了 Gemini 1.5 Pro,且模型速度有极大提升。 Llama 3.1:是迄今为止最大版本,其在推理、数学、多语言和长上下文任务中能够与 GPT4 相抗衡。 需要注意的是,模型的性能评估会因不同的基准测试和应用场景而有所差异,而且技术在不断发展,最强模型的定义也可能随之变化。
2025-03-05
Deepseek 怎么训练模型 到达写作的水准
要将 DeepSeek 训练模型达到写作的水准,可以参考以下方法: 1. 借助 AI 分析好的文章:找出您最喜欢的文章,投喂给 DeepSeek R1。然后进行多次询问,如从写作角度、读者角度分析文章,询问文章的缺点和不足以及改善和提升的空间,对作者进行侧写,分析其成长背景、个人经历和知识结构对文章的影响。 2. 让 AI 对您写的文章进行点评:使用类似“现在我希望你是一名资深中文写作教师/小学语文老师/中学语文老师/公文写作培训师,拥有 30 年教育经验,是一名传授写作技巧的专家。请先阅读我提供给你的文章,然后对文章进行分析,然后教我如何提升写作水平。请给出详细的优缺点分析,指出问题所在,并且给出具体的指导和建议。为了方便我能理解,请尽量多举例子而非理论陈述。”的提示词。 3. 根据文章内容对作者进行心理侧写:使用如“我希望你扮演一个从业 20 多年,临床诊治过两千多例心理分析案例的人性洞察和意识分析方面的专家,精通心理学、人类学、文史、文化比较。先阅读后附文章全文,然后对作者进行人格侧写。要尖锐深刻,不要吹捧包装,不要提出一些只能充当心理安慰的肤浅的见解。包括作者的基本画像、核心性格特质、认知与价值观、潜在心理动机、行为模式推测、矛盾与盲点、文化符号映射”的提示词。 此外,DeepSeek 模型具有文风出色、善用大词、发散能力强等特点,但也较难收敛,有时会出现幻觉。从创作角度看,其在文学创作上表现出色,能给予更多自由发挥空间。
2025-03-05
批量语言转文字
以下是关于批量语言转文字的相关信息: 支持的语言:南非荷兰语、阿拉伯语、亚美尼亚语、阿塞拜疆语、白俄罗斯语、波斯尼亚文、保加利亚文、加泰罗尼亚文、中文、克罗地亚文、捷克文、丹麦文、荷兰文、英国英语、爱沙尼亚文、芬兰文、法国法式英语、加利西亞語、德國語、希臘語、希伯來語、印地語、匈牙利語、冰岛语、印度尼西亚语、意大利语、日本语、卡纳达语、哈萨克语、韩语、拉脱维亚语、立陶宛语、马其顿语、马来语、马拉地语、毛里求斯语、尼泊尔语、挪威语、波斯语、波苏尼语、塔加洛语、泰米尔语、泰语、土耳其语、乌克兰语、乌尔都语。 更长输入:默认情况下,Whisper API 仅支持小于 25MB 的文件。若音频文件大于此,需将其分成每个小于 25MB 的块或使用压缩后格式。为达最佳性能,避免在句子中间断开声音以防丢失上下文字信息。可使用 PyDub 开源 Python 软件包来拆分声频文件,但 OpenAI 对其可用性或安全性不作保证。 提示:可使用提示提高 Whisper API 生成的转录质量。模型会尝试匹配提示风格,如提示使用大写和标点符号,生成结果更可能使用它们。当前提示系统较其他语言模型受限,仅提供有限控制。示例如下: 对于模型常错识的特定单词或缩略语,提示很有帮助,如改善 DALL·E 和 GPT3 等单词的转录。 为保留分段文件上下文,可用先前片段的转录引导模型,模型仅考虑最后 224 个标记并忽略之前内容。 转录可能会跳过标点符号,可用包含标点符号的简单提示避免。 模型可能省略常见填充词汇,若想保留,可用包含它们的指示。 某些语言有不同书写方式,如简体或繁体中文,默认模型处理可能不按所需风格,添加指示可改进。
2025-03-05
大语言模型学习
学习大型语言模型(LLM)的开发是一个系统性的过程,涵盖多个方面的知识和技能,以下是详细的学习路径和相关建议: 1. 深度学习和自然语言处理基础 掌握机器学习、深度学习、神经网络等基础理论。 熟悉自然语言处理基础,如词向量、序列模型、注意力机制等。 相关课程:吴恩达的深度学习课程、斯坦福 cs224n 等。 2. 理解 Transformer 和 BERT 等模型原理 深入了解 Transformer 模型架构及自注意力机制原理。 掌握 BERT 的预训练和微调方法。 研读相关论文,如 Attention is All You Need、BERT 论文等。 3. 学习 LLM 模型训练和微调 进行大规模文本语料预处理。 运用 LLM 预训练框架,如 PyTorch、TensorFlow 等。 对 LLM 模型进行微调以实现特定任务迁移。 相关资源:HuggingFace 课程、论文及开源仓库等。 4. LLM 模型优化和部署 掌握模型压缩、蒸馏、并行等优化技术。 进行模型评估和可解释性研究。 实现模型服务化、在线推理、多语言支持等。 相关资源:ONNX、TVM、BentoML 等开源工具。 5. LLM 工程实践和案例学习 结合行业场景,开展个性化的 LLM 训练。 分析和优化具体 LLM 工程案例。 研究 LLM 新模型、新方法的最新进展。 6. 持续跟踪前沿发展动态 关注顶会最新论文、技术博客等资源。 此外,关于大语言模型介绍,您可以通过以下视频课程学习: 视频课程学习地址:https://youtu.be/zizonToFXDs 宝玉 XP 的翻译版本:https://www.youtube.com/watch?v=zfFA1tb3q8Y Google 的教学视频《Introduction to Large Language Models|大语言模型介绍》,介绍了大型语言模型(Large Language Models,LLMs)的概念、使用场景、提示调整以及 Google 的 Gen AI 开发工具。大型语言模型是深度学习的一个子集,可以预训练并进行特定目的的微调。这些模型经过训练,可以解决诸如文本分类、问题回答、文档摘要、跨行业的文本生成等常见语言问题。然后,可以利用相对较小的领域数据集对这些模型进行定制,以解决零售、金融、娱乐等不同领域的特定问题。大型语言模型的三个主要特征是:大型、通用性和预训练微调。“大型”既指训练数据集的巨大规模,也指参数的数量。“通用性”意味着这些模型足够解决常见问题。“预训练和微调”是指用大型数据集对大型语言模型进行一般性的预训练,然后用较小的数据集对其进行特定目的的微调。使用大型语言模型的好处包括:一种模型可用于不同的任务;微调大型语言模型需要的领域训练数据较少;随着数据和参数的增加,大型语言模型的性能也在持续增长。此外,视频还解释了传统编程、神经网络和生成模型的不同,以及预训练模型的 LLM 开发与传统的 ML 开发的区别。在自然语言处理中,提示设计和提示工程是两个密切相关的概念,这两者都涉及创建清晰、简洁、富有信息的提示。视频中还提到了三种类型的大型语言模型:通用语言模型、指令调整模型和对话调整模型。每种模型都需要以不同的方式进行提示。 AI 教父 Hinton 最新万字精彩访谈中提到: 随着模型规模的扩大,其推理能力会得到提升。这种推理能力的提升类似于 AlphaGo 或 AlphaZero 的工作方式,它们通过蒙特卡罗推演来修改评估函数,从而提高推理精度。大型语言模型也应该开始通过推理来训练,而不仅仅是模仿人类的行为。 在多模态学习方面,引入图像、视频和声音等多种模式将极大地改变模型的理解和推理能力,特别是在空间理解方面。多模态模型可以通过更多的数据和更少的语言来进行学习,这将使其在未来占据主导地位。 在语言与认知的关系上,Hinton 提出了三种观点:符号观点、向量观点和嵌入观点。他认为,最合理的模型是将符号转换成大向量,但保留符号的表面结构,这样可以更好地理解和预测下一个符号。 Hinton 回顾了他在 2009 年提出使用 GPU 进行神经网络训练的早期直觉。他发现,使用 GPU 可以将运算速度提高 30 倍,这对于机器学习研究人员来说至关重要。他在 NIPS 会议上公开推荐了 NVIDIA 的 GPU,并向 NVIDIA 请求赞助,最终得到黄仁勋的支持。 Hinton 提出,模拟计算可以在较低的功率下运行大型语言模型,但每个硬件的特性都会有所不同,因此学习过程需要利用硬件的特定属性。然而,这种方法的局限性在于,当一个人去世后,他的大脑中的权重对其他人没有用处。相比之下,数字系统可以通过共享权重来提高效率,因为一旦有了权重,就可以在不同的计算机上复制相同的计算过程。这种方式使得数字系统在知识共享方面远胜于人类。 Hinton 还讨论了神经科学的时间尺度问题,指出在大脑中,权重改变的时间尺度很多,这是我们的神经模型尚未实现的。大脑使用快速权重进行临时记忆,而我们的模型由于需要处理大量不同的情况,所以无法实现这一点。
2025-03-04
deepseek 的提示词应该怎么写?和以往的大语言模型的提示词有什么不同?
DeepSeek 的提示词具有以下特点: 1. 语气上还原帝王语气,不过分用力,使用相对古典但兼顾可读性的文字,避免傻气的表达。 2. 对历史细节熟悉,这可能与支持“深度探索”和“联网搜索”同时开启有关,能准确还原如“太极宫”“甘露殿”“掖庭局”“观音婢”“宫门鱼符”等唐初的历史称谓。 3. 输出极其具体且充满惊人细节,行文的隐喻拿捏到位,如“狼毫蘸墨时发现指尖残留着未洗净的血痂”“史官们此刻定在掖庭局争吵。该用‘诛’还是‘戮’,‘迫’还是‘承’。‘只是这次,他不敢触碰我甲胄上元吉的掌印’”等句子,虽未直接写“愧疚与野心,挣扎与抱负”,但句句体现。 与以往大语言模型的提示词的不同在于:以往模型可能在语气、历史细节和具体细节的处理上不如 DeepSeek 出色。
2025-02-28
在汉语言文学师范领域中是否存在具有商业价值的问题,利用 AI 技术进行市场调研和分析,探索可能的创业方向
在汉语言文学师范领域,利用 AI 技术进行市场调研和分析是有可能发现具有商业价值的问题和创业方向的。 首先,通过对教育市场的大数据分析,AI 可以帮助了解汉语言文学师范专业的就业趋势和需求变化,例如特定地区对该专业教师的需求增长情况,或者新兴教育模式对该专业人才培养的新要求。 其次,利用自然语言处理技术,分析学生和家长对汉语言文学师范教育的反馈和期望,从而发现潜在的教育服务需求,比如个性化的辅导课程、线上教学平台的优化等。 再者,借助 AI 预测模型,可以评估汉语言文学师范相关教材和教育资源的市场需求,为开发创新的教育产品提供依据。 总之,结合 AI 技术,在汉语言文学师范领域进行深入的市场调研和分析,有机会挖掘出具有商业潜力的问题和创业方向。
2025-02-27
一名扬州大学汉语言文学师范专业的大一在读生,无创业经验,如何在ai帮助下在未来几年寻找创业方向和努力路径
对于一名扬州大学汉语言文学师范专业的大一在读生,无创业经验,在未来几年借助 AI 寻找创业方向和努力路径,可以参考以下建议: 首先,了解不同的发展路径特点。在学术研究方面,要培养适应能力,保持对研究的热爱以应对长期缺乏即时反馈的挑战。创业如同“当海盗”,充满刺激和不确定性,需要快速学习、适应市场和承担风险,虽能直接面对社会,但可能带来巨大压力并影响生活质量。在大公司工作需确保个人目标与公司一致,创业公司有生存压力,而打工人有稳定收入和学习机会,但可能限制思维。 其次,明确选择路径的逻辑。无论选择哪种路径,强烈的内在动机是长期成功的关键,动机可能源于内心欲望或对失败的恐惧,要直面并理解它们,将其转化为积极向上的动机,确保符合个人价值观。确定积极动机后,具有学术价值的问题可考虑读博,有商业价值的问题可尝试创业,至少有成长价值的问题可从打工开始。 最后,为持续提升自我,可以采用从导师或上级的角度每周总结工作的实用方法。分析未达成目标的原因,如果是懒惰,要直面并解决,比如找学习伙伴相互监督;如果是能力不足,可以考虑转向擅长领域或增加学习时间。 对于您来说,可以结合自身的兴趣和优势,思考在汉语言文学师范领域中是否存在具有商业价值的问题,利用 AI 技术进行市场调研和分析,探索可能的创业方向。同时,也可以通过打工或参与相关项目积累经验。
2025-02-27
搭建知识库支语言好
搭建知识库可以采用以下几种方式和涉及的相关语言: 1. 基于 GPT API 搭建定制化知识库: 需给 GPT 输入(投喂)定制化知识,但 GPT3.5(当前免费版的 ChatGPT)一次交互(输入和输出)只支持最高 4096 个 Token,约等于 3000 个单词或 2300 个汉字,容量对于多数领域知识不够。 为处理大量领域知识,OpenAI 提供了 embedding API 解决方案,embeddings 是浮点数字的向量(列表),两个向量之间的距离衡量关联性,小距离表示高关联度,大距离表示低关联度。 2. 本地部署大模型搭建个人知识库: 利用大模型的能力搭建知识库是 RAG 技术的应用,在实操前需了解 RAG。 RAG 应用包括文档加载(从多种来源加载文档,LangChain 提供 100 多种文档加载器)、文本分割(把 Documents 切分为指定大小的块)、存储(将切分好的文档块嵌入转换成向量形式并存储到向量数据库)、检索(通过检索算法找到与输入问题相似的嵌入片)、Output(把问题及检索出的嵌入片提交给 LLM 生成答案)。 3. 用 Coze 免费打造微信 AI 机器人: 设计 AI 机器人时创建知识库,整理“关键字”与“AI 相关资料链接”的对应关系并存储。 知识库文档类型支持本地文档、在线数据、飞书文档、Notion 等,可使用本地文档,按照操作指引上传文档、分段设置、确认数据处理。 知识库好不好用与内容切分粒度有关,可在内容中加特殊分割符如“”,分段标识符号选择“自定义”并填入“”。
2025-02-27