@南大周志华 老师等的最新长文综述:Big data opportunities and challenges: Discussions from data analytics perspectives。将发表在IEEE Computational Intelligence Magazine 🔗 网页链接 先转后看。:)展开全文 原微博
斯坦福Richard Socher在EMNLP2014发表新作:GloVe: Global Vectors for Word Representation 粗看是融合LSA等算法的想法,利用global word co-occurrence信息提升word vector学习效果,很有意思,在word analogy task上准确率比word2vec提升了11%。 🔗 网页链接展开全文 原微博
Science 发表文章The Parable of Google Flu: Traps in Big Data Analysis反思Google Flu Trend进行大数据分析的问题,称 GFT严重高估了2011-2013间美国流感爆发程度,而使用Twitter等公开数据很容易被操控,报告称最佳方法可能是将网络大数据和传统信息源相结合进行预测。🔗 网页链接展开全文
2011年发表在Science上的Quantitative Analysis of Culture Using Millions of Digitized Books,利用Google Book研究人类文化演进,提出文化组学(culturomics)的概念,引起很多人关注。个人觉得从研究理念上很像金观涛/刘青峰两位学者的这部工作《观念史研究》,推荐。 🔗 网页链接 展开全文
基于ACM TIST上的“PLDA+: Parallel Latent Dirichlet Allocation with Data Placement and Pipeline Processing”,我们发布了隐含主题模型分布式算法PLDA+的源码:🔗 网页链接 ,欢迎大家试用。代码尚处于测试阶段,欢迎各种反馈意见和报告错误,我们会及时改进!展开全文 原微博
Synthesis Lectures on Human Language Technologies丛书出版《Semi-Supervised Learning and Domain Adaptation in Natural Language Processing》,🔗 网页链接 。最近SSL和Domain Adaptation在NLP领域很红火,@BoxingChen 是这方面专家。:)展开全文