博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
斯坦福NLP笔记71 —— Term-Document Incidence Matrices
阅读量:6586 次
发布时间:2019-06-24

本文共 255 字,大约阅读时间需要 1 分钟。

hot3.png

这一节主要讲的是Term-Document矩阵的稀疏性(sparsity)

考虑这样一个大的文本集collection:

一共有N=100万篇文档,平均每篇文档包含一千个词,存下这些文档大约需要6GB的空间,这还好。

但是当你要存下Term-Document矩阵的时候,文档集一共使用过的不同的词汇是50万,所以你的矩阵是:50万×100万,这是不可接受的。但由于这个矩阵非常稀疏,所以只存“1”就可以了。

转载于:https://my.oschina.net/silverhammer/blog/293713

你可能感兴趣的文章
Android 一个应用启动另一个应用的说明
查看>>
阿里云CentOS7服务器利用LVM分区挂载磁盘全记录
查看>>
Setting up the Web Admin Tool in LDAP 6.x to communicate via SSL
查看>>
SQL好习惯:编写支持可搜索的SQL
查看>>
Shadowbox
查看>>
【 程 序 员 】:伤不起的三十岁,你还有多远 ?
查看>>
openldap安装
查看>>
[leetcode]count and say
查看>>
润乾报表 - 缓存问题
查看>>
利用IFormattable接口自动参数化Sql语句
查看>>
泛型Dictionary的用法详解
查看>>
明晰三种常见存储技术:DAS、SAN和NAS
查看>>
ContentProvider简单介绍
查看>>
Visual Studio 2014 CTPs 下载 和C# 6.0 语言预览版介绍
查看>>
js混淆 反混淆 在线
查看>>
WinForm 之 程序启动不显示主窗体
查看>>
FragmentTransaction.replace() 你不知道的坑
查看>>
模拟退火算法
查看>>
StringUtils方法全集介绍
查看>>
性能调校
查看>>