Chat with Wiki - 非结构化数据

Answer

非结构化数据是指缺乏预定义格式的数据，如文本、图像和音频等。为在人工智能和机器学习应用中利用这些数据，需使用嵌入技术将其转换为数字表示。嵌入就像给每个项目赋予独特的代码以捕捉其含义或本质，通常通过特殊神经网络实现，例如单词嵌入将单词转换为向量，使含义相似的单词在向量空间中更接近，从而让算法了解项目间的关系和相似性，将非数字数据转换成机器学习模型可处理的形式，以辨别数据中的模式和关系。

在金融行业中，非结构化数据主要涉及报告（年度报告、季度报告等公司财务报告）、公告（董事会公告、监事会公告、股东大会公告等）、上市资料（如招股说明书等公司上市相关文件）。向量数据库处理的是称为向量的复杂非结构化数据，其存储过程为：若为文本，通过模型转换成向量对象后存入数据库，再进行使用。传统数据库以表格形式存储简单数据，而向量数据库使用独特方法搜索，如近似近邻（ANN）搜索，包括散列搜索和基于图的搜索等方法，且使用特定的相似性度量来寻找最接近的匹配。要理解向量数据库的工作原理及与传统关系数据库的不同，需先理解嵌入的概念。

Content generated by AI large model, please carefully verify (powered by aily)

References

大雨：简单易懂的向量数据库解析：你需要了解的一切

上图简单展示了向量数据库的存储过程，如果是文本，通过模型转换成向量对象，对象存入数据库中。再去使用它。传统数据库以表格形式存储单词和数字等简单数据。而向量数据库处理的是称为向量的复杂数据，并使用独特的方法进行搜索。常规数据库搜索精确匹配的数据，而向量数据库则使用特定的相似性度量来寻找最接近的匹配。向量数据库使用特殊的搜索技术，即近似近邻（ANN）搜索，其中包括散列搜索和基于图的搜索等方法。要真正理解向量数据库的工作原理，以及它与SQL等传统关系数据库的不同之处，我们必须首先理解嵌入的概念。文本、图像和音频等非结构化数据缺乏预定义格式，给传统数据库带来了挑战。为了在人工智能和机器学习应用中利用这些数据，需要使用嵌入技术将其转换为数字表示。嵌入就像给每个项目（无论是文字、图像还是其他东西）赋予一个独特的代码，以捕捉其含义或本质。这种代码可以帮助计算机以更高效、更有意义的方式理解和比较这些项目。把它想象成把一本复杂的书变成一个简短的摘要，但仍能抓住要点。这种嵌入过程通常是通过一种为完成任务而设计的特殊神经网络来实现的。例如，单词嵌入将单词转换为向量，使含义相似的单词在向量空间中更为接近。通过这种转换，算法可以了解项目之间的关系和相似性。从本质上讲，嵌入就像一座桥梁，将非数字数据转换成机器学习模型可以处理的形式，使它们能够更有效地辨别数据中的模式和关系。

金融行业 · 大模型挑战赛｜用大模型理解金融市场

非结构化数据主要涉及：报告：年度报告、季度报告等公司财务报告。公告：董事会公告、监事会公告、股东大会公告等。上市资料：如招股说明书等公司上市相关文件。

金融行业 · 大模型挑战赛｜用大模型理解金融市场