自然语言处理(NLP)是人工智能和语言学领域的分支学科。它包括让电脑对输入的语言进行认知和理解,将其转化为有意义的符号和关系,并根据目的进行处理。自然语言处理涵盖了多个方面和步骤,基本包括认知、理解、生成等部分。其旨在处理和运用自然语言,例如把计算机数据转化为自然语言。自然语言处理涉及多门学科,如概率论、统计学、逼近论、凸分析、计算复杂性理论等。在计算机科学中,为了让计算机能理解和处理自然语言这种复杂多样、具有语境依赖性和模糊性的信息,引入了 Token 化的概念,将复杂的文本数据分解成更小、更易于计算机处理的单元,如单词、短语或标点符号,从而更有效地进行语言处理和提取意义。
机器学习是人工智能的一个分支。人工智能的研究历史有着一条从以“推理”为重点,到以“知识”为重点,再到以“学习”为重点的自然、清晰的脉络。显然,机器学习是实现人工智能的一个途径之一,即以机器学习为手段,解决人工智能中的部分问题。机器学习在近30多年已发展为一门多领域科际集成,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。[heading1]自然语言是什么?[content]自然语言(NLP)认知和理解是让电脑把输入的语言变成有意思的符号和关系,然后根据目的再处理。自然语言生成系统则是把计算机数据转化为自然语言。是人工智能和语言学领域的分支学科。此领域探讨如何处理及运用自然语言;自然语言处理包括多方面和步骤,基本有认知、理解、生成等部分。[heading1]AI的推理是什么?[content]推理是指利用训练好的模型,使用新数据推理出各种结论。借助神经网络模型进行运算,利用输入的新数据来一次性获得正确结论的过程。这也有叫做预测或推断。[heading1]AI的训练是什么?[content]训练是指通过大数据训练出一个复杂的神经网络模型,通过大量标记过的数据来训练相应的系统,使其能够适应特定的功能。训练需要较高的计算性能、能够处理海量的数据、具有一定的通用性,以便完成各种各样的学习任务。
计算机的核心语言是由0和1组成的二进制代码,这是所有程序和数据最基本的表现形式。无论是我们使用的Python、Java等高级编程语言,还是各种多媒体文件,如图片和视频,都会被转换为这种机器语言。在传统的计算机科学中,专家们尽最大努力将现实世界的复杂性抽象化,通过定义明确的数据类型如字符串(一系列文字)和整数(数字)来处理信息。这种方法在处理数学计算或数据库查询等结构化数据时非常有效。然而,随着技术的发展和人们的需求增加,我们希望计算机不仅能处理数值和代码,还能理解和处理自然语言,即我们人类的日常语言。这就引入了自然语言处理(NLP,Natural Language Processing)的领域,它旨在让计算机理解、解释和生成人类语言。考虑到自然语言的特点,包括其多样性、语境依赖性以及模糊性,我们面临的不再是简单的1+1=2这类问题。我们现在要解决的是如何让计算机理解诸如“今天是星期五,周末去哪玩呢?待在家里学AI如何?”这样的语句,并进一步分析其情绪或将其翻译成其他语言。在这种场景下,传统的数据类型不再足够使用。这就是为什么我们需要引入Token的概念。Token化是将复杂的文本数据分解成更小、更易于计算机处理的单元,如单词、短语或标点符号。这样,计算机就可以更有效地进行语言处理,从文本中提取意义,而不仅仅是计算字符数。
|术语ID|原文|译文|领域|易混淆|缩写|不需要提醒||-|-|-|-|-|-|-||ROW()-1|Nats|奈特|AI|1||||ROW()-1|Natural Exponential Decay|自然指数衰减|AI|1||||ROW()-1|Natural Language Generation|自然语言生成|AI|1||||ROW()-1|Natural Language Processing|自然语言处理|AI|1||||ROW()-1|Nearest Neighbor|最近邻|AI|1||||ROW()-1|Nearest Neighbor Classifier|最近邻分类器|AI|||||ROW()-1|Nearest Neighbor Graph|最近邻图|AI|||||ROW()-1|Nearest Neighbor Regression|最近邻回归|AI|||||ROW()-1|Nearest-Neighbor Search|最近邻搜索|AI|||||ROW()-1|Negative Class|负类|AI|||||ROW()-1|Negative Correlation|负相关法|AI|||||ROW()-1|Negative Definite|负定|AI|1|||