优秀的数据集网站-WayToAGI

回答

以下为一些优秀的数据集网站及相关数据集介绍：

文本分类：
- 中科大新闻分类语料库，更新日期为 43040，暂时不能下载，已经联系作者，等待反馈。
- ChnSentiCorp_htl_all，更新日期 43160。
- waimai_10k，更新日期 43160。
- online_shopping_10_cats，更新日期 43160。
- weibo_senti_100k，更新日期 43160。
QA：
- NewsQA，更新日期 43721，由微软研究院提供。
- SQuAD，更新日期未知，由斯坦福提供。
- SimpleQuestions，更新日期未知，由 Facebook 提供。
文本匹配：
- cMedQA2，更新日期 43412，来源为寻药寻医网和国防科技大学信息系统及管理学院。
- ChineseSTS，更新日期 42999，由唐善成、白云悦、马付玉及西安科技大学提供。

内容由 AI 大模型生成，请仔细甄别（powered by aily）

参考资料

|ID|标题|更新日期|数据集提供者|许可|说明|关键字|类别|论文地址|备注||-|-|-|-|-|-|-|-|-|-||11|[中科大新闻分类语料库](http://www.nlpir.org/?action-viewnews-itemid-145)|43040|刘禹中国科学院自动化研究所综合信息中心||暂时不能下载，已经联系作者，等待反馈|新闻|||||12|[ChnSentiCorp_htl_all](https://github.com/SophonPlus/ChineseNlpCorpus/tree/master/datasets)|43160|[https://github.com/SophonPlus/ChineseNlpCorpus](https://github.com/SophonPlus/ChineseNlpCorpus)||7000多条酒店评论数据，5000多条正向评论，2000多条负向评论||||||13|[waimai_10k](https://github.com/SophonPlus/ChineseNlpCorpus/tree/master/datasets)|43160|[https://github.com/SophonPlus/ChineseNlpCorpus](https://github.com/SophonPlus/ChineseNlpCorpus)||某外卖平台收集的用户评价，正向4000条，负向约8000条||||||14|[online_shopping_10_cats](https://github.com/SophonPlus/ChineseNlpCorpus/tree/master/datasets)|43160|[https://github.com/SophonPlus/ChineseNlpCorpus](https://github.com/SophonPlus/ChineseNlpCorpus)||10个类别，共6万多条评论数据，正、负向评论各约3万条，包括书籍、平板、手机、水果、洗发水、热水器、蒙牛、衣服、计算机、酒店||||||15|[weibo_senti_100k](https://github.com/SophonPlus/ChineseNlpCorpus/tree/master/datasets)|43160|[https://github.com/SophonPlus/ChineseNlpCorpus](https://github.com/SophonPlus/ChineseNlpCorpus)||10万多条，带情感标注新浪微博，正负向评论约各5万条|||||

中文数据集

|ID|标题|更新日期|数据集提供者|许可|说明|关键字|类别|论文地址|备注||-|-|-|-|-|-|-|-|-|-||1|[NewsQA](https://github.com/Maluuba/newsqa)|43721|微软研究院||Maluuba NewsQA数据集的目的是帮助研究社区构建能够回答需要人类水平的理解和推理技能的问题的算法。包含超过12000篇新闻文章和120,000答案，每篇文章平均616个单词，每个问题有2～3个答案。|英文|QA|[论文](https://arxiv.org/abs/1611.09830)|||2|[SQuAD](https://rajpurkar.github.io/SQuAD-explorer/)||斯坦福||斯坦福问答数据集（SQuAD）是一个阅读理解数据集，由维基百科的一组文章上提出的问题组成，其中每个问题的答案都是一段文本，可能来自相应的阅读段落，或者问题可能是未解答的。|英文|QA|[论文](https://arxiv.org/abs/1606.05250)|||3|[SimpleQuestions](https://www.dropbox.com/s/tohrsllcfy7rch4/SimpleQuestions_v2.tgz)||Facebook||基于存储网络的大规模简单问答系统,数据集提供了一个多任务问答数据集，数据集有100K简单问题的回答。|英文|QA|[论文](https://arxiv.org/pdf/1506.02075v1.pdf)||

中文数据集

|ID|标题|更新日期|数据集提供者|许可|说明|关键字|类别|论文地址|备注||-|-|-|-|-|-|-|-|-|-||12|[cMedQA2](https://github.com/zhangsheng93/cMedQA2)|43412|寻药寻医网和国防科技大学信息系统及管理学院||该数据集来源为寻医寻药网站中的提问和回答，数据集做过匿名处理，提供的是包含训练集中有100,000个问题，188,490个答案，平均每个问题、答案字符数分别为为48、101个；验证集有4,000个问题，有7527个答案，问题和答案的平均字符数分别为49和101个；测试集有4,000个问题，有7552个答案，问题和答案的平均字符数分别为49和100个；数据集总量有108,000个问题，203,569个答案，平均每个问题和答案的字符数分别为49、101个；|医疗问答匹配|问答匹配|[论文](https://www.mdpi.com/2076-3417/7/8/767)|||13|[ChineseSTS](https://github.com/IAdmireu/ChineseSTS)|42999|唐善成,白云悦,马付玉.西安科技大学||该数据集提供了12747对中文相似数据集，在数据集后作者给出了他们相似度的打分，语料由短句构成。|短句相似度匹配|相似度匹配|||