在代数领域,分类思想有着广泛的应用,主要体现在以下几个方面:
此外,在解决数学问题时,如陶哲轩解决新问题时,会用到多种方法,包括理解问题、简化表达、使用归纳法、利用生成函数、进行渐近分析、收集数值证据、寻找类似问题以及寻求反馈和合作等。
在神经网络和深度学习中,当函数的输出值是一个有限集时(例如逻辑函数),给带权重的和设置阈值是没问题的,问题在于对输入数据做好合适的标签(分类问题)。例如感知机可以用来学习对 20×20 像素输入中的简单形状进行正确分类。
线性代数是机器学习中最常用的数学主题,范围从经典的机器学习到最新和高级的LLMs。在处理基本的模型分类,聚类,回归任务时,线性代数在所有ML算法中都有极高的可用性,例如线性回归、SVM、KNN、随机森林或任何其他算法。[heading3]N维向量[content]对于数据集中存在的每个特征,我们通常都有大量样本。如果我们考虑一个具有n个数据样本的特征向量,它将是一个n维向量。由于数据在机器学习中无处不在,我们到处都需要处理n维向量;因此,了解n维向量的属性(如点积、叉积、加法和减法)至关重要。[heading3]向量之间的距离[content]在机器学习中,每个特征都被视为一维,并且通常数据集包含大量特征。我们首先计算两个特征之间的距离来观察它们的相似性。因此,计算两个n维向量之间的距离的知识至关重要。距离计算的直接用例可以在两种ML算法中找到:K-NN和K-Means。[[算法学习]KNN近邻算法分类/回归/聚类](https://waytoagi.feishu.cn/wiki/L7vlw1jVFiRitDkjUgbcBq1AnWb)[heading3][heading3]超平面投影[content]在SVM中,我们尝试找到n维样本与n维平面之间的距离。在这种情况下,我们通常会将该样本投影到超平面上。因此,平面投影的概念和超平面的知识至关重要。
1、理解问题:在深入证明之前,确保你理解了问题中的每一项。如果你不熟悉Diaconis-Graham不等式,研究一下它,了解表达式a(n)和R(n,q)中的每一项代表什么。2、简化表达:有时候,复杂的表达可以被简化。例如,你可能想看看表达式中a(n)的二项式系数是否可以简化,或者是否可以用更简单的方式计算总和。3、归纳法:由于R(n,q)是递归定义的,因此证明猜想的一种自然方法是使用数学归纳法。你可能想要证明,如果这个猜想对n成立,那么它对n+1也成立。4、生成函数:另一种方法是使用生成函数。尝试找到a(n)和R(n,0)的生成函数,然后证明它们是相等的。这有时可以把一个复杂的组合问题变成一个更简单的代数问题。5、渐近分析:正如你提到的,分析a(n)和R(n,0)的渐近行为可能会对它们的关系有一些深入的了解。这有时可以用斯特林的阶乘近似来实现,或者通过分析表达式中的主导项来实现。6、数值证据:虽然不是证明,但收集数值证据有时可以让我们了解如何证明一个猜想。因为你有PARI/GP代码,可以用数值来检查猜想,你可能想读一读每个序列的前几项,看看是否能发现任何模式。7、寻找类似问题:有时,一个问题或猜想是一个已知问题的泛化或变体。在组合文献中寻找类似的问题或定理,看看它们的证明是否可以适用于这个问题。8、寻求反馈和合作:不要犹豫,从同事那里寻求反馈,或者在MathOverflow这样的论坛上发布你的部分结果。协作和同行评议通常是解决复杂数学问题的关键。最终,陶哲轩使用建议4,也就是生成函数的方法,成功解决了问题。
这个过程很简单,产生了一个简单的结果:一个输入线性函数(加权和),正如线性回归被非线性激活函数「压扁」了一样(对带权重求和设定阈值的行为)。当函数的输出值是一个有限集时(例如逻辑函数,它只有两个输出值True/1和False/0),给带权重的和设置阈值是没问题的,所以问题实际上不在于要对任何输入数据集生成一个数值上连续的输出(即回归类问题),而在于对输入数据做好合适的标签(分类问题)。康奈尔航天实验室的Mark I感知机,第一台感知机的硬件罗森布拉特用定制硬件的方法实现了感知机的想法(在花哨的编程语言被广泛使用之前),展示出它可以用来学习对20×20像素输入中的简单形状进行正确分类。自此,机器学习问世了——建造了一台可以从已知的输入输出对中得出近似函数的计算机。在这个例子中,它只学习了一个小玩具般的函数,但是从中不难想象出有用的应用,例如将人类乱糟糟的手写字转换为机器可读的文本。