聚类分析是一种将数据集中相似的数据点分组在一起的方法。当数据集中的簇不是明显的球形或高斯分布时,KNN 算法也可用于聚类任务。
异常检测算法用于识别数据集中偏离常态的异常数据点。KNN 算法由于可以识别与大多数邻居不同的点,常用于异常检测。此外,大语言模型(LLM)在识别模式和趋势方面表现出色,也适用于异常检测任务,能够基于一个或多个列值来识别异常数据点。
分类问题:例如文本分类、图像识别、手写数字识别、医学诊断等。回归问题:例如房价预测、股票价格预测等。异常检测:由于KNN可以识别与大多数邻居不同的点,它常用于识别异常值或离群点。推荐系统:在推荐系统中,KNN可以用来找到与用户兴趣最相似的其他用户或物品,并基于这些相似性进行推荐。图像分割:在图像处理中,KNN可以用来识别图像中的区域,并进行图像分割。聚类分析:KNN也可以用于聚类任务,尤其是当数据集中的簇不是明显的球形或高斯分布时。
LLMs在识别模式和趋势方面表现出色。这得益于它们在庞大且多样化的数据上接受的广泛训练,能够洞察到复杂的模式,这些模式可能不是一眼就能看出来的。这使它们非常适合执行基于模式查找的任务,例如:异常检测:基于一个或多个列值,识别偏离常态的异常数据点。聚类:将具有相似特征的数据点按列分组。跨列关系:识别各列之间的联合趋势。文本分析(适用于文本列):根据主题或情感进行分类。趋势分析(针对有时间维度的数据集):识别列中的模式、季节性变化或趋势。对于这些基于模式的任务,单独使用LLMs可能实际上会在更短的时间内比使用编程代码产生更好的结果!接下来,我们将通过一个例子来详细说明这一点。