一、简介
此实习项目专门为计划申请计算机、电子、自动控制、系统科学等学科或其交叉专业学科的学生所设计。在此次课程中间,学生将会通过课程与自学接触大数据科学的方方面面,并将之用于具体项目研究中。通过本次课程的学习,学生能够动手开发基于深度学习的引力波数据处理工具,并能用公有云计算平台对数据进行处理、分析、挖掘和可视化。课程分为理论学习与实际试验开发,同时学生需要良好的自学钻研能力,届时导师将布置大量的探索性课题以供学生培养起良好的科学研究素养。本项目着重提升学生科学问题的提炼、技术方案的制定能力,培养科学思维,实习结束后,导师会根据学生表现出具推荐信。
二、内容
此次研究性实习目的在于让学生更好地了解工程类研究的过程。此项目可以让学生大量接触到包括大数据科学,深度学习,虚拟化技术,容器技术,NoSQL等具体工程研究知识。学生首先了解引力波数据处理和分析的项目背景,并熟悉一门通用的开发语言和云计算数据处理平台。接下来,围绕近两年主流的虚拟化容器为重点,将学生完成的项目部署到虚拟容器中,让学生能体会一次部署,到处执行的优势。然后,通过亲手实践现代高可扩展非结构化数据库和内存计算等方向,让学生体会最新最火的大数据如何给引力波数据处理带来便利。最后通过选讲各种酷炫等现代可视化技术,让学生能够栩栩如生等看到自己等项目成功成为产品展示出来。
三、师资背景
任职教师在麻省理工学院担任博士后研究员,兼任美国麻州实验室的资深软件架构师,2015年受聘于中国某知名大学特聘教授。其全职工作五年的麻省理工学院的空间实验室研究组由于在2016年发现引力波而轰动世界。作为项目计算平台组主要负责人之一,承担了
整个引力波探测大数据高性能计算平台的搭建,数据分析和利用新兴虚拟项目提供计算支撑等任务。
四、招生对象及要求
优秀本科生及研究生,天才高中生,计划申请计算机、电子信息、数据分析、应用数学等相关专业。为了让学生可以更好的完成科研项目,项目组会以笔试和面试的形式对学生进行筛选。
五、行程安排
远程科研指导项目时长一个月,具体时间可根据学生需求以及项目进度进行安排。该项目优点在于对有足够长申请时间的学生而言,导师可以帮助学生更加深入、更加全面、更加系统地完成一项或几项专业领域科研任务,让学生亲身参与到整个科研项目开展的过程,体验解决科研难题的成就感,同时可以让学生了解到该领域背景及前沿动态等。除了定期科研项目讨论课程之外,项目周期内学生可以随时向导师请教相关问题,得到导师的专业指导,让学生提前体验到一名研究人员真实的工作和生活状态。具体课程安排如下:
第一周 | 编程语言平台和核心工具学习:学习大数据云计算的基础理论,洞悉引力波海量数据处理的核心问题。根据学生的编程经验,上手Python、Node.js或者Java之一,熟悉Linux或者MacOS平台的使用,熟悉Github托管代码的使用,安排学生学习大数据领域主流开源工具的实现和使用。周末和学生在线交流学习中存在的问题并给以解答。 |
第二周 | 虚拟化技术学习与实践:深入学习现代虚拟化技术的实现原理,主要包括虚拟机和容器技术的实现机理,学习Mesos/Marathon或者Kubernetes等先进容器调度平台的实现原理、学习容器技术中的文件系统、自动扩容、容错容灾、健康检查、RESTful API操作等核心技术,安排学生学习经典文献和文档;周末和学生交流文献阅读中存在的问题并给以解答。 |
第三周 | 存储技术学习与实践:学习RDBMS, NoSQL, NewSQL 等核心内容,介绍非关系型数据库基础理论,各种数据库等利弊等,以Cassandra作为案例介绍主流等NoSQL数据库等原理和方法,利用前几周学习的容器技术,将Cassandra数据库容器化;约定时间与学生交流搭建系统中遇到的问题并予以解答。 |
第四周 | 处理和可视化技术学习与实践:以内存计算、流计算、批量计算等为起点,学习三种主流的编程模型(MapReduce、Pregel、GraphLab)和对应的数据处理技术Hadoop和Spark;学习现代数据可视化技术,以D3或者Armcharts为案例讲解酷炫等可视化工具等使用和编程。利用第二周讲述容器技术,将本周学习等所有内容打包在容器里进行发布。约定时间与学生交流控制系统整定中遇到的问题并予以解答。 |