时 间:2016年5月13日(本周五)19:00-20:30
地 点:东六楼六楼传播系办公室
主持人:李贞芳 副教授
分 享:张智鹏
内 容:互联网数据挖掘—R语言学习·从入门到精通 数据可视化、在线数据采集与储存
随着云时代的来临,大数据(Big data)也吸引了越来越多的关注。
大数据技术的战略意义不在于掌握庞大的数据信息,而在于对这些含有意义的数据进行专业化处理。换而言之,如果把大数据比作一种产业,那么这种产业实现盈利的关键,在于提高对数据的“加工能力”,即通过“加工”实现数据的“增值”。然而对数据进行“加工”的前提是对数据进行采集。因此,根据需求来对数据进行挖掘就显得尤为必要了。
本次学术沙龙将学习如何使用R语言来对在线数据进行采集与存储,为接下来的数据处理做铺垫,并回顾之前所学习的ggplot2相关知识,对数据可视化有更深层次的理解。内容如下:
1.Basic terms and procedures
2.Hands-on using R for web data collection
1) R to interact with APIs
2) R packages for Weibo API
3) R to scrape static web pages & dynamic web pages
3.Hands-on using R for web data storage
1) Crawing
2) Write/read by line
数据不再仅仅是数字的堆积,而能成为信息和价值的变现。相信吗?从数据到产业,也许只是几行代码的距离。不信?那就让接下来的R语言证明给你看~~一起来见证吧~~
学术沙龙QQ群:96768242
ggplot2学习资料百度云地址:http://pan.baidu.com/s/1c6vu2M