一、项目简介
此实习项目专门为计划申请数据分析、计算机、软件工程、电子、通信及自动化等相关专业。学生将跟随中科院导师一同工作,学习一门重要的编程语言,利用机器学习算法解决内容阅读用户画像和阅读兴趣分析。实习结束后,导师会根据学生表现出具推荐信。
二、实习内容
本项目名称是基于大数据的用户阅读兴趣分析。
1. 熟悉机器学习里最基本的算法和原理;
2. 熟练大数据分析工具 spark/R 的使用;
3. 采用 Spark 做千万级用户的画像(聚类,分类,相关性分析);
4. 学生最后熟练使用 spark 在数据集上做分析,并完成优秀的分析报告。
三、师资背景
任职教师现任知名研究所助理研究员。2013 年毕业于中国科学院计算技术研究所体系结构实验室,获体系结构专业博士学位。2013 年开始研究所普适计算中心感知计算实验室做行为感知计算研究。主要研究方向包括移动健康,用户画像等。
四、招生对象及要求
大二以上优秀本科生及部分优秀高中生,计划申请信息科学、运筹学、应用数学等相关专业,为了让学生可以更好的完成科研项目,项目组会以笔试和面试的形式对学生进行筛选。
五、项目形式
远程科研指导项目时长一个月,具体时间可根据学生需求以及合适的时间进行安排。该项目优点在于对有足够长申请时间的学生而言,导师可以帮助学生更加深入、更加全面、更加系统的完成一项或几项专业领域科研任务,让学生亲身参与到整个科研项目开展的过程,体验解决科研难题的成就感,同时可以让学生了解到该领域背景及前沿动态等。
除了定期科研项目讨论课程之外,项目周期内学生可以随时向导师请教相关问题,得到导师的专业指导,让学生提前体验到一名研究员真实的工作和生活状态。项目结束后,导师会依据学生表现出具推荐信。
具体课程安排如下:
第一周 | 深入学习机器学习里最基本的算法和原理,聚类,分类,回归。最小二乘法,决策树,随机森林,SVM, BP神经网络。周末和学生在这些问题上进行答疑讨论。 |
第二周 | 了解人物画像,了解用户阅读兴趣分析的基本流程,了解 wikicivi 用户阅读兴趣数据库。要求学生在机器学习基础上独立提出自己的阅读兴趣分析方案。 |
第三周 | 学习 spark/scala 编程语言的基本知识,要求一周的时间能够入门,实现简单的数据库,json文件数据分析。 |
第四周 | 采用 spark 在数据集上进行分析,并完成自己的分析报告。典型的分析报告包括大陆用户的阅读兴趣趋势,某一方面(例如,搞笑,新闻)内容领域的读者分布,什么样的用户会喜欢什么样的内容。 |
六、报名方式
咨询电话:010-5795-2000
地址:北京市海淀区中关村丹棱街3号中国电子大厦B座15层