加入收藏 | 设为首页 | 会员中心 | 我要投稿 揭阳站长网 (https://www.0663zz.cn/)- 机器学习、行业智能、决策智能、云计算、AI应用!
当前位置: 首页 > 站长资讯 > 外闻 > 正文

中文NLP数据集线上搜索开放

发布时间:2021-03-01 14:01:24 所属栏目:外闻 来源:互联网
导读:NLP 的这条不归路上,我们总会发现大多数先进算法与优质示例代码都是用英文数据集。而当我们满怀希望地把模型迁移到中文世界时,缺少公开的优质数据集简直就是天堑。比如说最简单的语言模型与词嵌入模型,只需要一段段自然的中文文本就行了,然而实际上我们

 NLP 的这条不归路上,我们总会发现大多数先进算法与优质示例代码都是用英文数据集。而当我们满怀希望地把模型迁移到中文世界时,缺少公开的优质数据集简直就是天堑。比如说最简单的语言模型与词嵌入模型,只需要一段段自然的中文文本就行了,然而实际上我们会发现好用的公开大型语料真的很少。

我们需要在 GitHub 等平台上找收集中文 NLP 数据集的各种项目,再根据需求进行选择。值得注意的是,很多国内中文数据集已经非常老了,它们的使用会比较麻烦,这时候就需要我们自行判断与试错了。

不过在本文中,我们将介绍一项新的中文 NLP 数据搜索项目,它可能是目前最全的中文 NLP 数据集信息收集项目。该项目收集了一百多条中文 NLP 数据信息,并以搜索的形式展示结果。我们只要键入关键词,或者数据集所属的领域等信息,就能找到对应的数据

(编辑:揭阳站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    热点阅读