Chat with Wiki - AI 搜索中用户查询理解

Answer

Perplexity AI 是一家专注于开发新一代 AI 搜索引擎的公司，由前 OpenAI 研究科学家 Aravind Srinivas 与前 Meta 研究科学家 Denis Yarats（Perplexity CTO）等合伙人于 2022 年 8 月共同创办。

其优势包括：

理解能力强，能够深入理解查询的语义，而非仅仅匹配关键词，从而提供更准确和相关的结果。
生成式回答，可生成通顺的自然语言回答，而非简单返回网页链接和片段，使结果更易于理解和使用。
个性化和上下文感知，能根据用户的历史查询和偏好个性化结果，提供更贴合需求的答复。

劣势有：

训练成本高，训练大型 LLM 模型需要大量计算资源和高质量训练数据。
可解释性差，LLM 的工作原理较为黑箱，难以解释为何给出某个结果，缺乏透明度。
潜在的偏差和不当内容，由于训练数据的局限性，LLM 可能产生偏见或不当内容。

独特之处在于将 LLM 技术应用于搜索引擎领域，试图颠覆传统基于关键词匹配的搜索范式，为用户提供更自然和智能的搜索体验，还融合了个性化和上下文感知等功能，努力成为新一代的“智能助手”。

总的来说，Perplexity 凭借 LLM 的强大语义理解能力，为搜索引擎带来了新的可能性，但也面临着一些技术和伦理挑战。

在搜索领域，推荐算法存在精确推荐提高用户黏性和平台广告收益的优点，但也有导致信息茧房和信息过载等负面影响。搜索引擎采用以用户查询为导向的“拉取式”信息获取模式，极大改变了人们获取信息的方式，搜索广告因用户搜索往往携带着明确意图，点击转化率通常高于泛泛的推荐广告，在数字广告市场中长期占据重要份额。

AI 智能体中的检索增强生成（RAG）是当今大多数现代人工智能应用程序的标准架构。以 Sana 的企业搜索用例为例，其过程始于应用程序加载和转换无结构文件，将其转换为 LLM 可查询格式，分块成更小的文本块并作为向量嵌入存储在数据库中。当用户提出问题时，系统检索语义上最相关的上下文块，折叠到“元提示”中与检索到的信息一起馈送给 LLM，LLM 合成答复返回给用户。在生产中，AI 应用程序具有更复杂的流程，包含多个检索步骤和提示链，将结果综合生成最终输出。例如 Eve 法律研究的共同驾驭员，会将查询分解为独立提示链，运行每个提示链生成中间输出，并综合编写最终备忘录。

Content generated by AI large model, please carefully verify (powered by aily)

References

问：Perplexity AI 如何？

Perplexity AI是一家专注于开发新一代AI搜索引擎的公司，创立于2022年8月，由前OpenAI研究科学家Aravind Srinivas与前Meta研究科学家Denis Yarats（Perplexity CTO）等合伙人共同创办。它的搜索引擎采用了大型语言模型(LLM)技术，可以更好地理解和回答用户的自然语言查询。优势理解能力强：Perplexity的LLM模型能够深入理解查询的语义，而不仅仅是匹配关键词，从而提供更准确和相关的结果。生成式回答：它可以生成通顺的自然语言回答，而不是简单返回网页链接和片段。这使得结果更易于理解和使用。个性化和上下文感知：Perplexity可以根据用户的历史查询和偏好来个性化结果，提供更加贴合需求的答复。劣势训练成本高：训练大型LLM模型需要大量的计算资源和高质量的训练数据，成本可能较高。可解释性差：LLM的工作原理较为黑箱，很难解释为什么会给出某个结果，缺乏透明度。潜在的偏差和不当内容：由于训练数据的局限性，LLM可能会产生偏见或不当内容。独特之处Perplexity将LLM技术应用于搜索引擎领域，试图颠覆传统的基于关键词匹配的搜索范式，为用户提供更自然和智能的搜索体验。它还融合了个性化和上下文感知等功能，努力成为新一代的"智能助手"。总的来说，Perplexity凭借LLM的强大语义理解能力，为搜索引擎带来了新的可能性，但也面临着一些技术和伦理挑战。原问题：Perplexity AI如何？谁开发的？其优劣势是？有什么独特之处？

[趋势研究] Deep Research - 推荐算法落幕? 生成式AI时代的搜索复兴

大量研究关注推荐算法的有效性与影响，一方面，精确的推荐可以极大提高用户黏性和平台广告收益；另一方面，学者们也指出过度的信息茧房和信息过载可能对用户认知和社会舆论产生负面影响[arxiv.org](https://arxiv.org/abs/1403.6838#:~:text=,convention%20or%20a%20product%2C%20is)。Gomez等人的实证研究表明，社交媒体用户面对无尽的信息流时存在明显的信息处理极限，接收信息速度越快的活跃用户往往越容易陷入信息过载，需要重复多次曝光同一信息才能真正产生影响[arxiv.org](https://arxiv.org/abs/1403.6838#:~:text=,We%20show%20how)。这意味着在基于推荐的信息环境中，单条广告或内容对用户的作用可能被海量其他信息所稀释，需要更频繁的触达才能奏效。相比之下，搜索引擎采用的是以用户查询为导向的“拉取式”信息获取模式。经典的网页搜索引擎（如谷歌）通过用户输入的关键词，在庞大的网页索引中筛选匹配结果，并按照相关性排序后呈现给用户[techpolicy.press](https://techpolicy.press/whats-the-difference-between-search-and-recommendation#:~:text=Historically%2C%20there%20was%20perhaps%20more,%E2%80%9Crecommendation%E2%80%9D%20are%20included%20within%20a)。搜索算法的发展历史同样悠久，从早期基于关键词频率的检索，到Google提出的PageRank算法利用链接分析提升结果质量，搜索引擎极大改变了人们获取信息的方式。搜索广告作为商业模式也随之兴起：当用户搜索特定关键词时，展示相关的赞助商链接。由于搜索往往携带着明确的意图（如购买、咨询），搜索广告能够高效触达目标受众，其点击转化率通常高于泛泛的推荐广告。这使得搜索广告在数字广告市场中长期占据重要份额。

AI 智能体：企业自动化的新架构 - Menlo Ventures

设置基线:RAG是当今大多数现代人工智能应用程序的标准架构。让我们以Sana的企业搜索用例为例,了解它在幕后的工作原理。该过程始于应用程序加载和转换无结构文件(如PDF、幻灯片、文本文件)跨越企业数据孤岛,如Google Drive和Notion,转换为LLM可查询格式,通常通过像[Unstructured](https://menlovc.com/portfolio/unstructured/)*这样的数据预处理引擎进行。这些文件现在被"分块"成更小的文本块,以实现更精确的检索,并作为向量嵌入和存储在像[Pinecone](https://menlovc.com/portfolio/pinecone/)*这样的数据库中。当用户向AI应用程序提出问题时(例如,"总结我与公司X会议的所有笔记")，系统会检索语义上最相关的上下文块，并将其折叠到"元提示"中,与检索到的信息一起馈送给LLM。然后,LLM会从检索到的上下文中合成一个整洁的带有项目符号的答复返回给用户。当然,该图仅说明了一个带有一个LLM调用的单一检索步骤。在生产中,AI应用程序具有更复杂的应用程序流程,包含数十甚至数百个检索步骤。这些应用程序通常具有"提示链",其中一个检索步骤的输入馈送到下一步,并且不同类型的任务并行执行多个"提示链"。然后将结果综合在一起,以生成最终输出。[Eve](https://menlovc.com/portfolio/eve/)*法律研究的共同驾驭员,例如,可能会将针对《第七篇》的研究查询分解为专注于预定子主题的独立提示链,如雇主背景、就业历史、《第七篇》、相关案例法和原告案件支持证据。LLMs然后运行每个提示链,为每个生成中间输出,并综合各输出编写最终备忘录。