Linux QOS实现框架分析

最新推荐文章于 2025-05-05 15:16:22 发布

maple_wei

最新推荐文章于 2025-05-05 15:16:22 发布

阅读量5.1k

点赞数 3

本文详细解析了Linux中的QoS机制，包括入口(Ingress)和出口(Egress)两大部分。Ingress部分用于流量限速，而Egress部分则负责队列调度。文章深入介绍了配置流程、核心数据结构及关键函数，特别分析了prio和ingress qdisc的工作原理。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Linux中的QOS分为入口(Ingress)部分和出口(Egress)部分，入口部分主要用于进行入口流量限速(policing)，出口部分的QOS用于队列调度(queuing scheduling)。

以下分析所参考的linux内核版本为2.6.21。

1. Ingress QOS

IngressQOS在内核的入口点有两个，但是不能同时启用，这取决于内核编译选项。当打开了CONFIG_NET_CLS_ACT时，入口点在src/net/core/dev.c的netif_receive_skb函数中，代码片段如下：

#ifdef CONFIG_NET_CLS_ACT

if (pt_prev) {

ret = deliver_skb(skb, pt_prev, orig_dev);

pt_prev = NULL; /* noone else should process thisafter*/

} else {

skb->tc_verd = SET_TC_OK2MUNGE(skb->tc_verd);

}

ret = ing_filter(skb);

if (ret == TC_ACT_SHOT || (ret == TC_ACT_STOLEN)) {

kfree_skb(skb);

goto out;

}

skb->tc_verd = 0;

ncls:

#endif

进入ing_filter后，代码片段如下：

if ((q = dev->qdisc_ingress) != NULL)

result = q->enqueue(skb, q);

我们可以看到，在这里判断了是否在设备上配置了ingress调度规则，如果配置了则调用其enqueue函数进行处理。在这里实际上调用的是src/net/core/sched/sch_ingress.c中的ingress_enqueue函数。
当没有打开CONFIG_NET_CLS_ACT，而是打开了CONFIG_NET_CLS_POLICE和CONFIG_NETFILTER时，就会在netfilter的PREROUTING钩子点处调用ing_hook函数，该函数的代码片段如下：

if (dev->qdisc_ingress) {

spin_lock(&dev->queue_lock);

if ((q = dev->qdisc_ingress) != NULL)

fwres = q->enqueue(skb, q);

spin_unlock(&dev->queue_lock);

}

可以看出与ing_filter的处理部分类似，最终都是调用了ingress qdisc的enqueue函数（即ingress_enqueue函数）。 ing_hook函数是在src/net/sched/sch_ingress.c文件中进行注册的，在sch_ingress文件中定义了一个结构实例ingress_qdisc_ops，如下所示：

static struct Qdisc_ops ingress_qdisc_ops = {

.next = NULL,

.cl_ops = &ingress_class_ops,

.id ="ingress",

.priv_size = sizeof(struct ingress_qdisc_data),

.enqueue = ingress_enqueue,

.dequeue = ingress_dequeue,

.requeue = ingress_requeue,

.drop =ingress_drop,

.init = ingress_init,

.reset = ingress_reset,

.destroy = ingress_destroy,

.change = NULL,

.dump =ingress_dump,

.owner =THIS_MODULE,

};

所有的qdisc都会有这样的一个对象实例，在模块初始化时会调用register_qdisc函数将自己的struct Qdisc_ops结构实例注册到链表中，该链表头是qdisc_base，定义在sch_api.c文件中，static struct Qdisc_ops*qdisc_base。

当通过tc qdisc命令配置了ingress qdisc规则时，会调用到ingress_init函数，进入ingress_init函数代码片段如下：

#ifndef CONFIG_NET_CLS_ACT

#ifdef CONFIG_NETFILTER

if (!nf_registered) {

if (nf_register_hook(&ing_ops) < 0) {

printk("ingress qdisc registration error\n");

return -EINVAL;

}

nf_registered++;

if (nf_register_hook(&ing6_ops) < 0) {

printk("IPv6 ingress qdisc registration error," \

"disabling IPv6 support.\n");

} else

nf_registered++;

}

#endif

我们看到当没有定义CONFIG_NET_CLS_ACT，但是定义了CONFIG_NETFILTER时，会调用nf_register_hook函数注册ing_ops和ing6_ops结构实例，ing_ops和ing6_ops的定义如下：

static struct nf_hook_ops ing_ops = {

.hook = ing_hook,

.owner =THIS_MODULE,

.pf = PF_INET,

.hooknum = NF_IP_PRE_ROUTING,

.priority = NF_IP_PRI_FILTER + 1,

};

static struct nf_hook_ops ing6_ops = {

.hook = ing_hook,

.owner =THIS_MODULE,

.pf = PF_INET6,

.hooknum = NF_IP6_PRE_ROUTING,

.priority = NF_IP6_PRI_FILTER + 1,

};

针对IPV4和IPV6协议，注册的hook函数都是ing_hook，hook点是在PREROUTING，优先级低于NF_IP_PRI_FILTER。

当前比较推荐第一种使用方法，即打开CONFIG_NET_CLS_ACT选项，在netif_receive_skb函数中进入ingress的处理流程。

下面我们再跟踪一下ingress的enqueue处理流程，进入ingress_enqueue函数，代码片段如下：

result = tc_classify(skb, p->filter_list,&res);

……

在ingress_enqueue函数中最主要的就是调用tc_classify函数进行分类操作，进入tc_classify函数，代码片段如下：

for ( ; tp; tp = tp->next) {

if ((tp->protocol == protocol ||

tp->protocol == __constant_htons(ETH_P_ALL))&&

(err =tp->classify(skb, tp, res)) >= 0) {

……

其中tp是一个指向struct tcf_proto类型的指针，struct tcf_proto中包含了与filter相关的参数和函数指针。tp->classify调用了与该filter规则相相关联的classify函数，如果我们使用的是FW类型的filter，那么对应的classify函数就是fw_classify，该函数定义在src/net/sched/cls_fw.c文件中。以FW分类器为例，我们再进入fw_classify函数，代码片段如下：

struct fw_head *head = (struct fw_head*)tp->root;

struct fw_filter *f;

int r;

u32 id = skb->mark;

if (head != NULL) {

id &= head->mask;

for (f=head->ht[fw_hash(id)]; f; f=f->next) {

if (f->id == id) {

*res = f->res;

#ifdef CONFIG_NET_CLS_IND

if (!tcf_match_indev(skb, f->indev))

continue;

#endif /* CONFIG_NET_CLS_IND */

r = tcf_exts_exec(skb, &f->exts, res);

if (r < 0)

continue;

return r;

}

} else {

/* old method */

if (id && (TC_H_MAJ(id) == 0 || !(TC_H_MAJ(id^tp->q->handle)))){

res->classid = id;

res->class = 0;

return 0;

}

return -1;

如上面代码所示，当filter中有规则时，遍历规则表，寻找与skb->mark（由ebtables或ip(6)tables来配置）相匹配的表项，如果找到了则会进一步调用tcf_exts_exec函数对扩展的action进行处理。再进入tcf_exts_exec函数，代码片段如下：

#ifdef CONFIG_NET_CLS_ACT

if (exts->action)

returntcf_action_exec(skb, exts->action, res);

#elif defined CONFIG_NET_CLS_POLICE

if (exts->police)

returntcf_police(skb, exts->police);

#endif

如上面代码所示，当定义了CONFIG_NET_CLS_ACT选项，并且存在扩展action时调用tcf_action_exec函数进行处理，当定义了CONFIG_NET_CLS_POLICE选项，并且存在police扩展时会调用tcf_police函数。实际上CONFIG_NET_CLS_POLICE是一套老的police机制，它假定了在ingress处理中只能进行police操作。CONFIG_NET_CLS_ACT是一套新的机制，该机制称为action扩展，即在filter规则处理之后，进一步进行额外的action处理，而Traffic Policing就属于其中的一种，它对应的文件是src/net/sched/act_police.c。如果我们通过tc filter命令配置fw的规则时用action选项指定了police作为扩展action，那么调用tcf_action_exec函数后就会最终调用到tcf_police函数。下面举个例子说明扩展action的配置方法：

tc filter add dev eth0 parent ffff: protocol all prio1 handle 100fwaction police rate 1000Kbit burst 2000k drop

从上面的命令可以看出，直接在fw后面加上action关键字即可配置action扩展。

下面我们再看看ingress qdisc是如何配置到接口上的，在这里只关注内核的处理流程，不关注tc工具与内核如何进行通信。通过tc命令进行配置后，会通过netlink接口调用内核中已经注册的一系列配置函数。

tcqdisc和tc clsss配置命令对应的配置函数在src/net/sched/sch_api.c的pktsched_init函数中进行了初始化注册，该函数在linux系统初始化的时候会被调用到。代码片断如下：

if (link_p) {

link_p[RTM_NEWQDISC-RTM_BASE].doit = tc_modify_qdisc;
link_p[RTM_DELQDISC-RTM_BASE].doit = tc_get_qdisc;
link_p[RTM_GETQDISC-RTM_BASE].doit = tc_get_qdisc;
link_p[RTM_GETQDISC-RTM_BASE].dumpit = tc_dump_qdisc;
link_p[RTM_NEWTCLASS-RTM_BASE].doit = tc_ctl_tclass;
link_p[RTM_DELTCLASS-RTM_BASE].doit = tc_ctl_tclass;
link_p[RTM_GETTCLASS-RTM_BASE].doit = tc_ctl_tclass;
link_p[RTM_GETTCLASS-RTM_BASE].dumpit = tc_dump_tclass;

}

通过以上注册的一系列函数，就可以完成tc qdisc和class的命令配置。
tc filter配置命令对应的配置函数在src/net/sched/cls_api.c的tc_filter_init函数中进行了初始化注册，该函数也会在系统初始化的时候被调用到。代码片段如下：、

if (link_p) {
link_p[RTM_NEWTFILTER-RTM_BASE].doit = tc_ctl_tfilter;
link_p[RTM_DELTFILTER-RTM_BASE].doit = tc_ctl_tfilter;
link_p[RTM_GETTFILTER-RTM_BASE].doit = tc_ctl_tfilter;
link_p[RTM_GETTFILTER-RTM_BASE].dumpit = tc_dump_tfilter;
}

通过以上注册的一系列函数，就可以完成tc filter的命令配置。

例如在控制台调用tc qdisc add dev eth0 handle ffff: ingress命令后，最终会调用到内核的tc_modify_qdisc函数，进入该函数后可以找到以下的代码片段：
if (clid == TC_H_INGRESS)
q = qdisc_create(dev, tcm->tcm_parent, tca, &err);
else
q = qdisc_create(dev, tcm->tcm_handle, tca, &err);
其中，qdisc_create函数用于创建struct Qdisc结构实例，在qdisc_create函数中进行了几个关键操作：

(1)查找structQdisc_ops结构实例

struct Qdisc_ops *ops;

ops =qdisc_lookup_ops(kind); //用于查找与kind值相对应的struct Qdisc_ops的结构实例。

关于struct Qdisc_ops结构，在上文中已经大概描述过，他在模块初始化的时候通过调用register_qdisc函数注册到链表中，并且每一个qidsc都会对应一个struct Qdisc_ops结构实例，但是并不是每一个qdisc都会对应一个struct Qdisc结构实例，只有那些已经配置在接口上的qdisc实例才会和struct Qdisc实例相对应。

(2)分配structQdisc结构实例

struct Qdisc *sch;

sch =qdisc_alloc(dev, ops); //用于分配并初始化struct Qdisc结构实例

(3)将新分配的structQdisc结构实例加入到设备qdisc链表中

list_add_tail(&sch->list,&dev->qdisc_list);

执行完qdisc_create函数后，会继续执行qdisc_graft函数，之后是dev_graft_qdisc函数，最后会让dev->qdisc_ingress指针指向刚才创建的struct Qdisc结构实例，这样基本上就完成了ingress qdisc的配置。

如前文所述，在打开了CONFIG_NET_CLS_ACT配置选项后，还必须通过tc filter命令配置polic扩展action，否则进入ingress处理流程后将什么都不会做。

2. Egress QOS

出口队列调度的入口点在src/net/core/dev.c的dev_queue_xmit函数中，代码片段如下：

q = rcu_dereference(dev->qdisc);
#ifdef CONFIG_NET_CLS_ACT
skb->tc_verd = SET_TC_AT(skb->tc_verd,AT_EGRESS);
#endif

if (q->enqueue) {
/* Grab device queue */
spin_lock(&dev->queue_lock);
q = dev->qdisc;
if (q->enqueue) {

rc = q->enqueue(skb, q);

qdisc_run(dev);

spin_unlock(&dev->queue_lock);

rc = rc == NET_XMIT_BYPASS ? NET_XMIT_SUCCESS : rc;

goto out;

}

spin_unlock(&dev->queue_lock);

}

从上面的代码中可以看出，通过q = rcu_dereference(dev->qdisc)可以获取到设备上rootqdisc的指针q(struct Qdisc *)，在下面的处理过程中并没有判断q是否为NULL，这就说明设备上一定会存在egress qdisc，这一点和ingress是不同的，一个设备上可以没有ingress qdisc，即dev-> qdisc_ingress指针一般是NULL，除非通过tc qdisc命令配置了ingress qdisc。

我们看一下默认情况下dev->qdisc是如何配置的，在注册网络设备时会调用register_netdevice函数，在register_netdevice函数中又会调用dev_init_scheduler函数，在该函数中的代码片段如下：

dev->qdisc = &noop_qdisc;
dev->qdisc_sleeping = &noop_qdisc;
INIT_LIST_HEAD(&dev->qdisc_list);

新注册一个接口后，dev->qdisc指针指向noop_qdisc结构实例，这是一个特殊的qdisc，它什么也不做。当创建好设备，用ifconfig up命令把设备拉起后，会调用到内核的src/net/core/dev.c中的dev_open函数，在dev_open函数中又会调用到src/net/sched/sch_generic.c中的dev_activate函数，代码片段如下：

if (dev->qdisc_sleeping == &noop_qdisc) {

struct Qdisc *qdisc;
if (dev->tx_queue_len) {
qdisc = qdisc_create_dflt(dev, &pfifo_fast_ops,
TC_H_ROOT);
if (qdisc == NULL) {
printk(KERN_INFO "%s: activation failed\n", dev->name);
return;
}
write_lock(&qdisc_tree_lock);
list_add_tail(&qdisc->list, &dev->qdisc_list);
write_unlock(&qdisc_tree_lock);
} else {
qdisc = &noqueue_qdisc;
}
write_lock(&qdisc_tree_lock);
dev->qdisc_sleeping = qdisc;
write_unlock(&qdisc_tree_lock);
}
……
rcu_assign_pointer(dev->qdisc, dev->qdisc_sleeping);

从上面的代码可以看出，当把设备拉起时给设备配置的默认root qdisc为pfifo_fast。之后我们可以在控制台调用tc qdisc add……命令配置其他的qdisc，配置过程与配置ingress qdisc的过程类似，在这里就不再赘述了。

下面我们以prio qdisc为例，看一下出口队列调度的大概流程。
假设我们已经通过tc qdisc命令在接口上配置了prio qdisc作为root qdisc，那么在dev_queue_xmit函数中调用了rc = q->enqueue(skb, q)后，就会调用到与prio qdisc对应的enqueue函数。对于prio qdisc来说，对应的enqueue函数是prio_enqueue(src/net/sched/sch_prio.c), 在prio_enqueue函数中代码片段如下：
qdisc = prio_classify(skb, sch, &ret); //进行分类选择，找出子qdisc

/*调用子qdisc的enqueue函数*/
if ((ret = qdisc->enqueue(skb, qdisc)) == NET_XMIT_SUCCESS) {
sch->bstats.bytes += skb->len;
sch->bstats.packets++;
sch->q.qlen++;
return NET_XMIT_SUCCESS;
}

在上面的代码中首先通过调用prio_classify函数查找子qdisc，然后再调用子qdisc对应的enqueue函数。在这里我们要补充一些概念，在Linux QOS中qidsc分为两种，一种是有分类(classful)的qdisc，另一种是无分类（classless）的qdisc，有分类和无分类的qdisc都可以做为设备的root qdisc，但是有分类的qdisc通过它的分类(class)又可以嫁接出子qdisc，子qdisc可以是有分类的qdisc也可以是无分类的qdisc，最后的叶子qdisc则必须是无分类的qdisc，一般常用pfifo/bfifo做为叶子qdisc。因此可以利用这种组合的特性利用有分类qdisc和无分类qdisc组合出复杂的调度方式。下图简单的描述了他们之间的关系。

继续描述上面的prio qdisc，我们已经将prio qdisc配置成了root qdisc，在配置prio qdisc的过程中需要制定bands参数，这个参数指明了prio qdisc上的class数目，默认是3个class。配置了prio qdisc后会调用prio_init函数，该函数中会调用prio_tune函数，然后在prio_tune函数中会为prio qidsc创建默认的子qdisc，代码片段如下：

for (i=0; i<q->bands; i++) {
if (q->queues[i] == &noop_qdisc) {
struct Qdisc *child;
child = qdisc_create_dflt(sch->dev, &pfifo_qdisc_ops,
TC_H_MAKE(sch->handle, i + 1));
if (child) {
sch_tree_lock(sch);
child = xchg(&q->queues[i], child);

if (child != &noop_qdisc) {
qdisc_tree_decrease_qlen(child,
child->q.qlen);
qdisc_destroy(child);
}
sch_tree_unlock(sch);
}
}
}

从上面的代码可以看出，默认为prio qdisc创建的子qdisc为pfifo qdisc。
通过上面你的描述，我们了解了root qdisc和child qdisc之间的关系，下面我们继续描述prio_classify函数，代码片段如下所示：
struct prio_sched_data *q = qdisc_priv(sch);
u32 band = skb->priority;
struct tcf_result res;

*qerr = NET_XMIT_BYPASS;
if (TC_H_MAJ(skb->priority) != sch->handle) {
#ifdef CONFIG_NET_CLS_ACT
switch ( tc_classify(skb, q->filter_list, &res) ) {
case TC_ACT_STOLEN:
case TC_ACT_QUEUED:
*qerr = NET_XMIT_SUCCESS;
case TC_ACT_SHOT:
return NULL;
};

if (!q->filter_list ) {
#else
if (!q->filter_list || tc_classify(skb, q->filter_list, &res) ) {
#endif
if (TC_H_MAJ(band))
band = 0;
return q->queues[q->prio2band[band&TC_PRIO_MAX]];
}
band = res.classid ;
}
band = TC_H_MIN(band) - 1;
if (band > q->bands)
return q->queues[q->prio2band[0]];

return q->queues[band];

从上面的代码可以看出，首先会用skb->priority字段的高16位的值和sch->handle值进行比较，如果不相等的话就会调用tc_classify分类匹配函数进行处理。假如我们使用的是fw分类方法的话，就会调用到fw_classify函数，该函数的处理流程我们在前文中已经描述过了，在此不再赘述。
当找到子qdisc的指针后，就调用子qdisc的enqueue函数，如前文所述prio qidsc默认的子qdisc为pfifo qdisc，因此在这里会调用pfifo qdisc对应的enqueue函数pfifo_enqueue
（src/net/sched/sch_fifo.c）,进入pfifo_enqueue函数，代码片段如下：
struct fifo_sched_data *q = qdisc_priv(sch);

if (likely(skb_queue_len(&sch->q) < q->limit))
return qdisc_enqueue_tail (skb, sch);

return qdisc_reshape_fail (skb, sch);

用当前的队列长度和队列总长度进行比较(按数据包数量进行比较)，如果没有超出队列长度限制则把数据包缓冲到队列的尾部，否则就调用qdisc_reshape_fail函数丢弃数据包。至此就完成了数据包的enqueue操作。
数据包入队操作完成后，接下来在dev_queue_xmit函数中会调用qdisc_run函数进行队列调度和出队列操作,在该函数中会调用__qdisc_run函数,在该函数中代码片段如下：

while ( qdisc_restart (dev) < 0&& !netif_queue_stopped(dev))

/* NOTHING */;
out:
clear_bit(__LINK_STATE_QDISC_RUNNING, &dev->state);

可以看到在这里循环调用了qdisc_restart函数(src/net/sched/sch_generic.c)，直到函数返回值不为负值或设备状态处于队列停止状态为止。进入qdisc_restart函数，代码片段如下：
if (((skb = dev->gso_skb)) || (( skb = q->dequeue(q)) )) {
……
{
spin_unlock(&dev->queue_lock);

if (!netif_queue_stopped(dev)) {
int ret;

ret = dev_hard_start_xmit(skb, dev);
if (ret == NETDEV_TX_OK) {
if (!nolock) {
netif_tx_unlock(dev);
}
spin_lock(&dev->queue_lock);
return -1;
}
if (ret == NETDEV_TX_LOCKED && nolock) {
spin_lock(&dev->queue_lock);
goto collision;
}
}
……
spin_lock(&dev->queue_lock);
q = dev->qdisc;
}
requeue:
if (skb->next)
dev->gso_skb = skb;
else
q->ops->requeue(skb, q);
netif_schedule(dev);
return 1;
}
BUG_ON((int) q->q.qlen < 0);
return q->q.qlen;

在这里调用了dequeue函数做出队列操作，对于prio qdisc来说会调用prio_dequeue函数，该函数的代码片段如下：
struct sk_buff *skb;
struct prio_sched_data *q = qdisc_priv(sch);
int prio;
struct Qdisc *qdisc;

for (prio = 0; prio < q->bands; prio++) {
qdisc = q->queues[prio];
skb = qdisc->dequeue(qdisc);
if (skb) {
sch->q.qlen--;
return skb;
}
}
return NULL;

这里对prio qdisc的所有bands(class)进行遍历，由于高优先级的class对应的的prio值也较小，因此直接遍历数组即可对优先级调度进行控制。最后还是会调用到子qidsc的dequeue函数获取数据包指针。当获取到的skb非空时直接返回，下次重新调用该函数时又会从高优先级的class开始遍历，这样就保证了每一次的dequeue操作总是从高优先级的class开始。
dequeue操作完成后，会调用dev_hard_start_xmit函数将数据包发送出去,如果发送成功则最终返回-1,在__qdisc_run函数中通过循环又会进入到qdisc_restart函数，直到队列为空为止。我们注意到在特殊情况下可能会有调用dev_hard_start_xmit发包不成功的情况，如果是因为发送设备忙碌造成的发送不成功则会进入requeue流程，将数据包重新缓冲到队列里，然后调用netif_schedule函数启用网络发包软中断处理流程，在软中断处理流程中会调用net_tx_action函数，最终又会调用qdisc_run进入队列调度流程。

3. 总结
以上对Ingress和Egress QOS的实现流程和框架进行了粗略分析，通过以上分析，希望读者可以从大的流程上了解QOS的实现框架。由于内核中实现了多种qdisc，在此不能一一赘述，有兴趣的读者可以参考本文的分析流程，切入到自己感兴趣的部分进行深入分析即可。但是万变不离其中，不论是哪种qdisc，都不会超出本文所描述的框架和流程,只不过在队列调度算法上会比较复杂罢了。