学好大数据,需要多读书。为自己建立一份书单,好好学习天天向上。我们根据大数据学习内容的特点,对相关内容进行整理和排序,从基础统计学到基础机器学习,再到内容更深入的专著,从具体的话题讨论,到整个行业的分析。这些书中既有数据科学经典读本,也有最近出版的新书,希望能帮助大家从中找到感兴趣的阅读内容。
1. 《深入理解机器学习:从原理到算法》understanding machine learning: from theoryto algorithmsby shai shalev-shwartz and shai ben-david
本书为剑桥大学机器学习教材。机器学习是计算机科学领域发展最快的分支之一,其应用具有深远的意义。本教科书的目的是有条理地介绍机器学习及为读者提供算法范例。本书介绍了机器学习基础知识,并详细解释了将这些原理转化为实际算法的数学推导理论论述。2.《统计思维:程序员的概率与统计学》
thinkstats: probability and statistics for programmers
作者:allen b. downey
《统计思维》是针对python程序员编写的概率和统计学专著。本书强调利用简单的技术处理实际数据集(real dataset)、回答一些有趣的问题。书中还介绍了对美国国立卫生研究院的案例分析。作者鼓励读者在实际数据集项目中通过实践来学习。
3. 《统计学习基础:数据挖掘、统计与预测》
the elements of statistical learning
作者:trevor hastie, robert tibshirani and jerome friedman
这本书在普遍概念框架中描述了数据学领域的重要思想。虽然这种方法属于统计学范畴,但本书的重点在于概念而不是数学。这本书的内容涵盖范围广泛,从监督式学习(预测)到无监督式学习。讨论的话题包括神经网络,支持向量机,分类树,其对boosting算法的讨论更是首创。
4. 《数据学基础》
foundations of data science
作者:avrim blum, john hopcroft, and ravindran kannan
虽然计算机科学的传统领域仍然非常重要,但越来越多的研究人员将使用计算机来了解和提取应用程序中出现的大量数据的可用信息,而不仅仅是利用计算机解决特定的问题。
5. 《大数据:互联网大规模数据挖掘与分布式处理》
mining of massive datasets
作者:jure leskovec, anand rajaraman and jeff ullman
本书的编写基于斯坦福大学计算机科学课程“cs246: mining massive datasets”。这本书和斯坦福的课程一样,是为没有计算机基础的本科学生设计的。为了支持读者进行更深入的探索,大部分章节最后都补充了深度阅读参考资料。