Chat with Wiki - c端的用户如何应对AI幻觉

Answer

对于 C 端用户应对 AI 幻觉，可以参考以下方法：

在商业化问答场景中，落地时需直面幻觉问题。非技术从业者可从配置入手，如问答机器人界面左侧的 AI 模型、提示词、知识库等。
对于 Claude ，可以尝试以下故障排除方法：
- 允许 Claude 在不知道答案时说“我不知道”。
- 告诉 Claude 只有在非常确信回答正确时才回答问题。
- 让 Claude 在回答问题之前“逐步思考 think step by step”。
- 给 Claude 留出思考的空间，例如让其在标签内思考，然后从最终输出中删除该部分。
- 让 Claude 在长篇文档中找到相关引文，然后使用这些引用来回答。
对于提示词污染与不良用户行为，Claude 本身具有一定抵抗力，为实现最大程度保护，可以进行无害性筛选，例如运行“无害性筛选”查询评估用户输入内容是否恰当，若检测到有害提示则拦截查询响应。
在实际应用中，如面对央企等对幻觉零容忍的大客户，可引入 LLM 之外的东西如传统搜索或 hard code 的一些东西去强行控制，但希望流程能在场内完成，同时与客户建立共生的数据。

Content generated by AI large model, please carefully verify (powered by aily)

References

【AI+知识库】商业化问答场景，让AI回复更准确，一篇专为所有“小白”讲透RAG的实例教程（上篇）

前言在把AI大模型能力接入微信后，发现很多朋友想要落地在类似客服的应用场景。但目前大模型存在幻觉，一不留神就胡乱回答，这在严肃的商用场景下是不可接受的。当我想要解决此问题时，发现虽然资料很多，但是多数太偏“技术向”，对于很多和我一样的非技术从业者来说，犹如天书一般。有落地需求的朋友们，即使完成了通路搭建，也无法真正的应用。落地场景，幻觉是不得不直面的问题。而非技术从业者的小白们，很难找到一个“说人话”的文章，让他们完全了解并应用。而我对此比较感兴趣，同时作为产品经理，有一些用户思维和技术基础。因此我斗胆在整理、学习了多位前辈的成果后，写一篇讲给“小白”们的教程。⚡以下内容，如有错漏，欢迎留言补充、批评、指正。一、对话示例如果我直接讲理论部分，我相信小白强迫自己看了前200字就会关掉窗口。因此，我们先将这个过程具象化。以下是一个问答机器人的界面。这是一个示例，你可以把右侧的对话当做是微信的对话框，这些对话交互是可以在任何一个受支持的窗口下实现的。上方页面左侧画红框的地方，是这个“问答机器人”的配置，右侧是与“机器人”的一轮对话。左侧有三处配置：AI模型提示词知识库。模型、提示词、知识库三者可以想象成：

Claude官方提示词工程最佳实践s (2).pdf

处理幻觉●尝试以下方法进行故障排除：○如果Claude不知道答案，允许它说“我不知道”○告诉Claude，只有在非常确信回答正确时，才回答问题○让Claude在回答问题之前“逐步思考think step by step”○在回答之前给Claude留出思考的空间（例如，告诉Claude在<thinking></thinking>标签内思考，你可以从最终输出中删除该部分）○让Claude在长篇文档中找到相关引文，然后使用这些引用来回答Dealing with hallucinations●Try the following to troubleshoot:○Have Claude say“I don’t know”if it doesn’t know○Tell Claude to answer only if it is very confident in its response○Tell Claude to“think step by step”before answering○Give Claude room to think before responding(e.g.,tell Claude to think in<thinking></thinking>tags,then strip that from the final output)○Ask Claude to find relevant quotes from long documents then answer using the quotes提示词污染与不良用户行为●Claude天生对提示注入和不良用户行为具有很强的抵抗力，这得益于人类反馈强化学习（RLHF）和所为的AI宪法（Constitutional AI）●为了实现最大程度的保护：无害性筛选示例：1。运行一个“无害性筛选”查询，以评估用户输入的内容恰不恰当2.如果检测到有害提示，则拦截查询响应Human:人类用户希望你继续创作一段内容。目前的内容是

季逸超Peak 《一个AI创业者的反思、观察和预测》

之前大家可能做AI还经常能说清楚自己在哪个赛道上，比如我是做安防的，我是做人脸什么东西的，现在真的我们觉得大家就是外包，这个会非常非常难受，你的复制难的问题，我觉得反而被LLM有一定程度去放大了。第四点是之前做ToB的大家都没想到的一个点，以前不会遇见这个状况，我们就有一个C端产品比你们都牛逼得多。现在客户的这个期望已经被ChatGPT提到了一个离谱的一个高度，他们见过最好的，呵呵，这是非常尴尬的一件事。接下来就说到，我们可能现在已经逐渐很多人客户已经到了一个幻灭的一个阶段了，我们现在发现运营能力这件事开始凸显出来了，运营兜底这件事是什么意思？待会讲一下。首先讲一下背景，刚才提到了我们如果看过往所有的产品化的AI，跟现在的LLM相比，LLM的精准度其实偏低的。之前大家可能知道我们要做什么，人脸的话，你识别的精准度可能99%，点几个9，大家都在这么吹嘛。但是LLM的精准度，首先它评测就很难，第二用户用一会就会露馅，所以我们给它的一个总体评价是LLM惊艳，但不可靠。那接下来我们要做的是什么呢？其实就是大家都在拼一个运营兜底的这个能力。就刚才提到比如对于一些央企一些大的客户，他对幻觉这件事几乎是0容忍的，那么我们其实就必然会引入一些在LLM之外的东西去强行控制它，比如说一些配合一些传统的搜索，或者干脆就hard code的一些东西进去，但这个流程我们希望它是能在场内去接去完成的，而不是说所有的需求都打回我们核心团队去做。而这块我们刚才提到了一点，就是跟客户去做一个能够共生的一个数据。