一、项目简介
数据挖掘(英语:Data mining),又译为资料探勘、数据采矿。它是数据库知识发现(英语:Knowledge-Discovery in Databases,简称:KDD)中的一个步骤。数据挖掘一般是指从大量的数据中通过算法搜索隐藏于其中信息的过程。数据挖掘通常与计算机科学有关,并通过统计、在线分析处理、情报检索、机器学习、专家系统(依靠过去的经验法则)和模式识别等诸多方法来实现上述目标。
网络钓鱼,是指攻击者通过垃圾邮件、即时通信、社交网络等信息载体,发布欺诈性消息,骗取网络用户访问其构建的虚假仿冒钓鱼网站,意图引诱用户泄露其敏感信息(如用户名、口令、账号 ID或信用卡详细信息)的一种网络犯罪行为。这种攻击方式已成为当前互联网最大的安全威胁之一。需要指出的是,由于互联网特性,钓鱼网站的分布和危害已跨越国界,成为全球性问题。
本项目旨在通过理论与实践相结合的方式,以基于URL特征的数据挖掘在钓鱼网页检测中的应用为背景,介绍钓鱼网页发现的核心问题和常用方法,学习相关理论基础、增强实际动手编程能力、培养创新思维和团队协作能力,为网络安全的进一步学习和实践应用打下必要的基础。
此实习项目专门为计划申请自动化、计算机、软件工程的学生所设计。学生将跟随导师共同工作,实际进行数据抽取,数据清洗,特征提取,SVM分类等工作,最后利用所学知识实现高速网络流量下的钓鱼网页发现。实习结束后,导师会根据学生表现出具推荐信。
二、实习内容
本实习项目为数据挖掘在钓鱼网页发现的初步应用。将会建立一个系统,提取流量中的大量URL,实时发现钓鱼网页,为网络安全管理提供支持。
在实习过程中,指导老师全程带领学生进行该科研项目的各个环节。通过参与该项目,学生可以了解如何系统地进行基于数据挖掘的科研工作。
三、师资背景
任职教师为知名研究所副研究员。主要研究方向为分布式系统,数据挖掘和网络安全等,在IEEE Transactions on Knowledge and Data Engineering,Special Interest Group (SIG) on Knowledge Discovery and Data Mining,International Conference of Data Mining,IEEE International Conference on Communications 等国际著名期刊及会议上发表论文50余篇。现担任某SCI国际期刊的编委。
四、招生对象及要求
大二以上优秀本科生及部分优秀高中生,计划申请网络安全、计算机(包括数据挖掘、模式识别、机器学习等)、软件工程等相关专业,为了让学生可以更好地完成科研项目,项目组会以笔试和面试的形式对学生进行筛选。
五、行程安排
课程 | 项目进度 | Lab 相关 |
第一次课 | 钓鱼网页和数据挖掘简介 | 对网络流量进行采集、清洗和预处理 |
第二次课 | URL特征提取介绍 | 实现PhishTank公开的钓鱼网页特征提取 |
第三次课 | 讲解主流的分类算法 | 实现支持向量级分类算法 |
第四次课 | 钓鱼网页检测方法介绍 | 实现网络流量下钓鱼网页检测系统 |
第五次课 | 课堂讨论,对钓鱼网页检测方法的改进方案 | 实现新方案 |
第六次课 | 实验结果的评价方法 项目结题、总结及展望 |
完成项目实践报告 |
六、报名方式
咨询电话:010-5795-2000
地址:北京市海淀区中关村丹棱街3号中国电子大厦B座15层