自然语言处理文本分类学习系列(2)

回答1:平均文字长度872个字符,最小64个字符,最长7125个字符,大部分在1000以下。

数据集中标签的对应关系如下:{ '科技':0,'股票':1,'体育':2,'娱乐':3,'时事':4,'社会':5,'教育':6,'财经':7,'家居':

回答二:可以看出,“体育”和“股票”占比最高,其次是“科技”和“娱乐”,品类分布不是很均衡。

回答三:最多的字符平均30次/篇,高频字符大概是标点符号或者停用词,需要过滤。

本章的家庭作业