根据互联网通信标准文件RFC3917中的有关定义,一条网络流量是指在一段特定的时间间隔之内,通过网络中某一个观测点的所有具有相同五元组(源IP地址、目的IP地址、传输层协议、源端口和口的端口)的分组的集合。此外,根据TCP和UDP传输的双端特性,网络流也可以分为单向流和双向流。其中,将具有相同五元组数据的一条网络流认为是单向流,而双向流的源IP和口的IP以及源端口和目的端口可以同时互换。raksmart美国VPS主机分享网络流量是什么:
网络流量分类概念
网络流量分类是指,利用某种算法构造一个分类模型,并用该分类模型对收集到的各种应用程序的网络流数据进行分类识别,分类识别的结果是某种应用程序或者应用层协议,又或者是根据QoS要求划分的某种业务类型。影响分类准确率的主要是分类模型,在不同的时代和不同的应用场景下不同分类技术构造的分类模型的分类效果也不一样。推荐阅读:《信息应用推动网站流量的方式有哪些?》
最早的网络流量分类方法是使用传输层协议UDP或TCP端口号进行分类,该方法易于实现,而且算法时间复杂度低,因此在只需要分类出某些指定端口的应用时经常被使用。但是,随着应用程序及协议的多元化以及端口跳变和端口伪装技术]的出现,导致基于端口识别的流量分类方法的准确度越来越低,该方法不再可靠,只能作为流量分类的辅助手段。
研究人员发现数据包的有效载荷部分包含着很多特殊的信息,因此深度包检测(Deep Packet Inspection, DPI)技术逐渐受到关注。DPI技术主要是通过分析网络流中数据包的有效载荷,如果该有效载荷部分和口前己知应用程序或协议在某些特征字上能够匹配,那么就可以大概率地认为这条网络流是该己知应用程序或协议。由于DPI技术不需要用到数据包的端口,因此不受端口伪装和跳变等技术的影响,相比基于端口的流量分类,其准确率有很大提升。但是,因为数据加密和隐私安全问题,使得利用该技术对网络流量进行分类也不再是一个好的选择。
近年来,利用网络流量的统计特征和机器学习算法进行流量分类的技术受到了众多研究人员的关注。其中,Moore等人的研究是具有开创性的,研究者们提出了一种基于朴素贝叶斯原理的分类方法,该分类方法研究了网络流量的特征集与网络类别之间的概率关系,并利用贝叶斯原理构建计算模型,最终得到的分类准确率达到65 %。虽然他们的分类器准确率不够理想,但是收集的包含248个特征并打上分类标签的Moore流量数据集,成为了很多研究人员的实验数据,248种流量特征也为其他研究者在特征选取上提供了指导意义。由于Moore数据集中大部分特征是需要收集整条网络流的信息后才可以进行分类,因此在需要在线实时分类的场合不适用。在实时网络流量分类方面,Bernaille等人利用TCP流量前五个数据包特征信息,使用不同的机器学习算法得到的整体分类准确率都在90%以上。此外,文献表明利用网络流量的前几个数据包特征能够用于机器学习实时流量分类。在各种机器学习算法对流量的分类准确率方面,Williams等人将朴素贝叶斯、最近邻、决策树和支持向量机等最常用的机器学习算法用于流量分类技术中,实验结果表明在这些算法中分类效果最好的是决策树。此外,文献的研究也表明决策树算法在实时流量分类中具有很好的效果。也有部分学者将深度学习用于流量分类,虽然准确性很高但是由于要收集过多的流量特征信息,实时性并不理想。推荐相关阅读:《通过SEO获得大流量》