Chat with Wiki - 文本匹配

Answer

以下是关于文本匹配的相关信息：

中文数据集：
- cMedQA2：来源为寻医寻药网站中的提问和回答，做过匿名处理。包含训练集、验证集和测试集，提供了大量的问题和答案，并给出了平均字符数等详细信息，属于医疗问答匹配类别。相关论文地址：https://www.mdpi.com/2076-3417/7/8/767 。
- ChineseSTS：提供了 12747 对中文相似数据集，作者给出了相似度打分，语料由短句构成，属于短句相似度匹配类别。
向量数据库与文本匹配：传统的文本匹配发展遇到瓶颈，人们采用向量化处理办法。以电影为例，通过多个维度（属性）来框定，如一部电影的悬疑度、科幻元素、冒险感等，每个维度上的坐标用浮点数表示，给出了星球大战、泰坦尼克号、侏罗纪公园等电影的向量示例及解释。
招聘信息：阶跃星辰招聘 NLP 算法工程师，负责对海量文本数据进行建模分析，包括文本语义匹配（bi-/cross-encoder）等任务，要求具有相关专业硕士及以上学历，熟练掌握相关理论和方法。网址：https://www.stepfun.com/

Content generated by AI large model, please carefully verify (powered by aily)

References

|ID|标题|更新日期|数据集提供者|许可|说明|关键字|类别|论文地址|备注||-|-|-|-|-|-|-|-|-|-||12|[cMedQA2](https://github.com/zhangsheng93/cMedQA2)|43412|寻药寻医网和国防科技大学信息系统及管理学院||该数据集来源为寻医寻药网站中的提问和回答，数据集做过匿名处理，提供的是包含训练集中有100,000个问题，188,490个答案，平均每个问题、答案字符数分别为为48、101个；验证集有4,000个问题，有7527个答案，问题和答案的平均字符数分别为49和101个；测试集有4,000个问题，有7552个答案，问题和答案的平均字符数分别为49和100个；数据集总量有108,000个问题，203,569个答案，平均每个问题和答案的字符数分别为49、101个；|医疗问答匹配|问答匹配|[论文](https://www.mdpi.com/2076-3417/7/8/767)|||13|[ChineseSTS](https://github.com/IAdmireu/ChineseSTS)|42999|唐善成,白云悦,马付玉.西安科技大学||该数据集提供了12747对中文相似数据集，在数据集后作者给出了他们相似度的打分，语料由短句构成。|短句相似度匹配|相似度匹配|||

大雨：简单易懂的向量数据库解析：你需要了解的一切

从上面几个示例中，我们可以看出来，传统的文本匹配发展遇到了瓶颈。于是人们找到了向量化的处理办法。简单来说，向量把一个词通过多个维度来框定，这里的维度可以简单理解为属性。比如说，一部电影，它有悬疑度、科幻元素、冒险感、激动程度、浪漫度等。这些属性，我们就称它为维度，在每个维度上的坐标就是它在这个维度上的值，通常是一个浮点数（小数）来表示。1.星球大战:向量：[0.8，0.9，0.7，0.8，0.2，0.1，0.2，0.5，0.4，0.3]解释：高度科幻（0.9），较高冒险感（0.8），较激动（0.7）。2.泰坦尼克号:向量：[0.1，0.1，0.2，0.3，0.9，0.8，0.2，0.7，0.6，0.1]解释：高浪漫度（0.9），较高悲剧感（0.8）。3.侏罗纪公园:向量：[0.7，0.8，0.6，0.8，0.3，0.1，0.7，0.4，0.2，0.5]解释：高冒险感（0.8），较高科幻元素（0.7）。这里的向量我们简单来理解，就是这个电影在不同维度（属性）上的相对强弱。为了方便理解，这里用了10个维度（属性）来描述一部电影。分别是

最近招聘信息-持续更新中

阶跃星辰算法工程师（NLP/搜广推）作为NLP算法工程师，你将负责对海量文本数据进行建模分析，包括文本语义匹配（bi-/cross-encoder）、文本分类等任务。你需要跟踪前沿算法，主动采用新技术、新算法、新思路和新观念，负责NLP算法系统的开发和优化。应聘者需要具有计算机、电子或数学等相关专业的硕士及以上学历，熟练掌握机器学习、深度学习的基础理论和方法[https://www.stepfun.com/](https://www.stepfun.com/)