sched/core: Fix incorrect wait time and wait count statistics

At present scheduler resets task's wait start timestamp when the task migrates to another rq. This misleads scheduler itself into reporting less wait time than actual by omitting time spent for waiting prior to migration and also more wait count than actual by counting migration as wait end event which can be seen by trace or /proc/<pid>/sched with CONFIG_SCHEDSTATS=y. Carry forward migrating task's wait time prior to migration and don't count migration as a wait end event to fix such statistics error. In order to determine whether task is migrating mark task->on_rq with TASK_ON_RQ_MIGRATING while dequeuing and enqueuing due to migration. Signed-off-by: Joonwoo Park <joonwoop@codeaurora.org> Signed-off-by: Peter Zijlstra (Intel) <peterz@infradead.org> Cc: Linus Torvalds <torvalds@linux-foundation.org> Cc: Mike Galbraith <efault@gmx.de> Cc: Peter Zijlstra <peterz@infradead.org> Cc: Thomas Gleixner <tglx@linutronix.de> Cc: ohaugan@codeaurora.org Link: http://lkml.kernel.org/r/20151113033854.GA4247@codeaurora.org Signed-off-by: Ingo Molnar <mingo@kernel.org>
author: Joonwoo Park 2015-11-13 04:38:54 +0100
committer: Ingo Molnar 2015-11-23 09:48:17 +0100
commit: 3ea94de15ce9f3a217f6d0a7e9e0f48388902bb7 (patch)
tree: c7d82c79fabbbd8e630c9831f74d5aba8e1cbb57 /kernel/sched/core.c
parent: sched/numa: Cap PTE scanning overhead to 3% of run time (diff)
download: kernel-qcow2-linux-3ea94de15ce9f3a217f6d0a7e9e0f48388902bb7.tar.gz
kernel-qcow2-linux-3ea94de15ce9f3a217f6d0a7e9e0f48388902bb7.tar.xz
kernel-qcow2-linux-3ea94de15ce9f3a217f6d0a7e9e0f48388902bb7.zip
1 files changed, 13 insertions, 2 deletions
diff --git a/kernel/sched/core.c b/kernel/sched/core.c
index 4d568ac9319e..1b7cb5e95816 100644
--- a/kernel/sched/core.c
+++ b/kernel/sched/core.c
@@ -1071,8 +1071,8 @@ static struct rq *move_queued_task(struct rq *rq, struct task_struct *p, int new
 {
 	lockdep_assert_held(&rq->lock);
 
-	dequeue_task(rq, p, 0);
 	p->on_rq = TASK_ON_RQ_MIGRATING;
+	dequeue_task(rq, p, 0);
 	set_task_cpu(p, new_cpu);
 	raw_spin_unlock(&rq->lock);
 
@@ -1080,8 +1080,8 @@ static struct rq *move_queued_task(struct rq *rq, struct task_struct *p, int new
 
 	raw_spin_lock(&rq->lock);
 	BUG_ON(task_cpu(p) != new_cpu);
-	p->on_rq = TASK_ON_RQ_QUEUED;
 	enqueue_task(rq, p, 0);
+	p->on_rq = TASK_ON_RQ_QUEUED;
 	check_preempt_curr(rq, p, 0);
 
 	return rq;
@@ -1274,6 +1274,15 @@ void set_task_cpu(struct task_struct *p, unsigned int new_cpu)
 	WARN_ON_ONCE(p->state != TASK_RUNNING && p->state != TASK_WAKING &&
 			!p->on_rq);
 
+	/*
+	 * Migrating fair class task must have p->on_rq = TASK_ON_RQ_MIGRATING,
+	 * because schedstat_wait_{start,end} rebase migrating task's wait_start
+	 * time relying on p->on_rq.
+	 */
+	WARN_ON_ONCE(p->state == TASK_RUNNING &&
+		     p->sched_class == &fair_sched_class &&
+		     (p->on_rq && !task_on_rq_migrating(p)));
+
 #ifdef CONFIG_LOCKDEP
 	/*
 	 * The caller should hold either p->pi_lock or rq->lock, when changing
@@ -1310,9 +1319,11 @@ static void __migrate_swap_task(struct task_struct *p, int cpu)
 		src_rq = task_rq(p);
 		dst_rq = cpu_rq(cpu);
 
+		p->on_rq = TASK_ON_RQ_MIGRATING;
 		deactivate_task(src_rq, p, 0);
 		set_task_cpu(p, cpu);
 		activate_task(dst_rq, p, 0);
+		p->on_rq = TASK_ON_RQ_QUEUED;
 		check_preempt_curr(dst_rq, p, 0);
 	} else {
 		/*
author	Joonwoo Park	2015-11-13 04:38:54 +0100
committer	Ingo Molnar	2015-11-23 09:48:17 +0100
commit	3ea94de15ce9f3a217f6d0a7e9e0f48388902bb7 (patch)
tree	c7d82c79fabbbd8e630c9831f74d5aba8e1cbb57 /kernel/sched/core.c
parent	sched/numa: Cap PTE scanning overhead to 3% of run time (diff)
download	kernel-qcow2-linux-3ea94de15ce9f3a217f6d0a7e9e0f48388902bb7.tar.gz kernel-qcow2-linux-3ea94de15ce9f3a217f6d0a7e9e0f48388902bb7.tar.xz kernel-qcow2-linux-3ea94de15ce9f3a217f6d0a7e9e0f48388902bb7.zip