一、项目简介
数据挖掘(英语:Data mining),又译为资料探勘、数据采矿。它是数据库知识发现(英语:Knowledge-Discovery in Databases,简称:KDD)中的一个步骤。数据挖掘一般是指从大量的数据中通过算法搜索隐藏于其中信息的过程。数据挖掘通常与计算机科学有关,并通过统计、在线分析处理、情报检索、机器学习、专家系统(依靠过去的经验法则)和模式识别等诸多方法来实现上述目标。
网络钓鱼,是指攻击者通过垃圾邮件、即时通信、社交网络等信息载体,发布欺诈性消息,骗取网络用户访问其构建的虚假仿冒钓鱼网站,意图引诱用户泄露其敏感信息(如用户名、口令、账号ID 或信用卡详细信息)的一种网络犯罪行为。这种攻击方式已成为当前互联网最大的安全威胁之一。需要指出的是,由于互联网特性,钓鱼网站的分布和危害已跨越国界,成为全球性问题。
本项目旨在通过理论与实践相结合的方式,以基于URL 特征的数据挖掘在钓鱼网页检测中的应用为背景,介绍钓鱼网页发现的核心问题和常用方法,学习相关理论基础、增强实际动手编程能力、培养创新思维和团队协作能力,为网络安全的进一步学习和实践应用打下必要的基础。
此实习项目专门为计划申请自动化、计算机、软件工程的学生所设计。学生将跟随导师共同工作,实际进行数据抽取,数据清洗,特征提取,SVM 分类等工作,最后利用所学知识实现高速网络流量下的钓鱼网页发现。实习结束后,导师会根据学生表现出具推荐信。
二、项目内容
本实习项目为数据挖掘在钓鱼网页发现的初步应用。将会建立一个系统,提取流量中的大量URL,实时发现钓鱼网页,为网络安全管理提供支持。
在实习过程中,指导老师全程带领学生进行该科研项目的各个环节。通过参与该项目,学生可以了解如何系统地进行基于数据挖掘的科研工作。
三、师资背景
任职教师为知名研究所副研究员。主要研究方向为分布式系统,数据挖掘和网络安全等,在IEEE Transactions on Knowledge and Data Engineering,Special Interest Group (SIG) on Knowledge Discovery and Data Mining,International Conference of Data Mining,IEEE International Conference on Communications 等国际著名期刊及会议上发表论文50 余篇。现担任某SCI国际期刊的编委。
四、招生对象及要求
大二以上优秀本科生及部分优秀高中生,计划申请网络安全、计算机(包括数据挖掘、模式识别、机器学习等)、软件工程等相关专业,为了让学生可以更好地完成科研项目,项目组会以笔试和面试的形式对学生进行筛选。
五、项目安排
第一次课
1、网络安全和钓鱼网页背景介绍
2、主动采集技术讲解,包括采集的选择策略、重新访问策略、平衡礼貌策略和并行策略
实验1:实现基于Jsoup 的分布式网页采集模块
第二次课
1、TCP/IP 协议栈介绍,重点讲解HTTP 网页在网络上传输的过程和形式
2、基于网络流量解析的HTTP 网页被动采集方法,重点讲解网页数据包拼接和还原关键技术
3、wireshark 网络流分析工具介绍和使用
实验2:实现基于Jpcap 的HTTP 网页还原模块
第三次课
1、数据挖掘介绍
预处理、分类、聚类的关键技术讲解,关联规则和序列模型挖掘技术讲解,特征提取的关键技术讲解,数据仓库和OLAP 技术讲解,数据立方体计算和数据泛化
2、Python 的安装
实验3:利用python 的机器学习库提取钓鱼网页URL特征模块
第四次课
1、大数据挖掘工具介绍,Hadoop 的关键技术讲解,Mahout 的关键技术讲解
2、大数据挖掘工具部署
实验4:利用Mahout 实现基于贝叶斯分类算法的钓鱼网页识别模块
第五次课
1、深度学习介绍,深度学习的关键技术讲解深度学习在网络安全的应用
2、基于Keras 的深度学习平台部署
实验5:利用Keras 实现基于CNN 和RNN 算法的钓鱼网页识别模块
第六次课
1、钓鱼网页在线识别系统介绍,系统的关键模块讲解各个模块的代码讲解
2、钓鱼网页识别的最新技术讲解以及论文撰写技巧
实验6:基于代码搭建一个钓鱼网页在线识别系统
六、报名方式
咨询电话:010-5795-2000
地址:北京市海淀区中关村丹棱街3号中国电子大厦B座15层