以下是关于文本匹配的相关信息:
|ID|标题|更新日期|数据集提供者|许可|说明|关键字|类别|论文地址|备注||-|-|-|-|-|-|-|-|-|-||12|[cMedQA2](https://github.com/zhangsheng93/cMedQA2)|43412|寻药寻医网和国防科技大学信息系统及管理学院||该数据集来源为寻医寻药网站中的提问和回答,数据集做过匿名处理,提供的是包含训练集中有100,000个问题,188,490个答案,平均每个问题、答案字符数分别为为48、101个;验证集有4,000个问题,有7527个答案,问题和答案的平均字符数分别为49和101个;测试集有4,000个问题,有7552个答案,问题和答案的平均字符数分别为49和100个;数据集总量有108,000个问题,203,569个答案,平均每个问题和答案的字符数分别为49、101个;|医疗问答匹配|问答匹配|[论文](https://www.mdpi.com/2076-3417/7/8/767)|||13|[ChineseSTS](https://github.com/IAdmireu/ChineseSTS)|42999|唐善成,白云悦,马付玉.西安科技大学||该数据集提供了12747对中文相似数据集,在数据集后作者给出了他们相似度的打分,语料由短句构成。|短句相似度匹配|相似度匹配|||
从上面几个示例中,我们可以看出来,传统的文本匹配发展遇到了瓶颈。于是人们找到了向量化的处理办法。简单来说,向量把一个词通过多个维度来框定,这里的维度可以简单理解为属性。比如说,一部电影,它有悬疑度、科幻元素、冒险感、激动程度、浪漫度等。这些属性,我们就称它为维度,在每个维度上的坐标就是它在这个维度上的值,通常是一个浮点数(小数)来表示。1.星球大战:向量:[0.8,0.9,0.7,0.8,0.2,0.1,0.2,0.5,0.4,0.3]解释:高度科幻(0.9),较高冒险感(0.8),较激动(0.7)。2.泰坦尼克号:向量:[0.1,0.1,0.2,0.3,0.9,0.8,0.2,0.7,0.6,0.1]解释:高浪漫度(0.9),较高悲剧感(0.8)。3.侏罗纪公园:向量:[0.7,0.8,0.6,0.8,0.3,0.1,0.7,0.4,0.2,0.5]解释:高冒险感(0.8),较高科幻元素(0.7)。这里的向量我们简单来理解,就是这个电影在不同维度(属性)上的相对强弱。为了方便理解,这里用了10个维度(属性)来描述一部电影。分别是
阶跃星辰算法工程师(NLP/搜广推)作为NLP算法工程师,你将负责对海量文本数据进行建模分析,包括文本语义匹配(bi-/cross-encoder)、文本分类等任务。你需要跟踪前沿算法,主动采用新技术、新算法、新思路和新观念,负责NLP算法系统的开发和优化。应聘者需要具有计算机、电子或数学等相关专业的硕士及以上学历,熟练掌握机器学习、深度学习的基础理论和方法[https://www.stepfun.com/](https://www.stepfun.com/)