drm/i915: move clflushing into shmem_pread

This is obviously gonna slow down pread. But for a half-way realistic micro-benchmark, it doesn't matter: Non-broken userspace reads back data from the gpu once before the gpu again dirties it. So all this ranged clflush tracking is just a waste of time. No pread performance change (neglecting the dumb benchmark of constantly reading the same data) measured. As an added bonus, this avoids clflush on read on coherent objects. Which means that partial preads on snb are now roughly 4x as fast. This will be usefull for e.g. the libva encoder - when I finally get around to fix that up. v2: Properly sync with the gpu on LLC machines. Tested-by: Chris Wilson <chris@chris-wilson.co.uk> Reviewed-by: Chris Wilson <chris@chris-wilson.co.uk> Signed-off-by: Daniel Vetter <daniel.vetter@ffwll.ch>
author: Daniel Vetter 2012-03-25 19:47:31 +0200
committer: Daniel Vetter 2012-03-27 13:20:01 +0200
commit: 8489731c9bd22c27ab17a2190cd7444604abf95f (patch)
tree: 3d1a3ea9b7b0e47c5a4ba73a5457ee4439344786 /drivers/gpu/drm/i915/i915_gem.c
parent: drm: add helper to clflush a virtual address range (diff)
download: kernel-qcow2-linux-8489731c9bd22c27ab17a2190cd7444604abf95f.tar.gz
kernel-qcow2-linux-8489731c9bd22c27ab17a2190cd7444604abf95f.tar.xz
kernel-qcow2-linux-8489731c9bd22c27ab17a2190cd7444604abf95f.zip
1 files changed, 20 insertions, 6 deletions
diff --git a/drivers/gpu/drm/i915/i915_gem.c b/drivers/gpu/drm/i915/i915_gem.c
index 1855e72859a8..9cdeeef5d6d7 100644
--- a/drivers/gpu/drm/i915/i915_gem.c
+++ b/drivers/gpu/drm/i915/i915_gem.c
@@ -304,12 +304,25 @@ i915_gem_shmem_pread(struct drm_device *dev,
 	int shmem_page_offset, page_length, ret = 0;
 	int obj_do_bit17_swizzling, page_do_bit17_swizzling;
 	int hit_slowpath = 0;
+	int needs_clflush = 0;
 
 	user_data = (char __user *) (uintptr_t) args->data_ptr;
 	remain = args->size;
 
 	obj_do_bit17_swizzling = i915_gem_object_needs_bit17_swizzle(obj);
 
+	if (!(obj->base.read_domains & I915_GEM_DOMAIN_CPU)) {
+		/* If we're not in the cpu read domain, set ourself into the gtt
+		 * read domain and manually flush cachelines (if required). This
+		 * optimizes for the case when the gpu will dirty the data
+		 * anyway again before the next pread happens. */
+		if (obj->cache_level == I915_CACHE_NONE)
+			needs_clflush = 1;
+		ret = i915_gem_object_set_to_gtt_domain(obj, false);
+		if (ret)
+			return ret;
+	}
+
 	offset = args->offset;
 
 	while (remain > 0) {
@@ -337,6 +350,9 @@ i915_gem_shmem_pread(struct drm_device *dev,
 
 		if (!page_do_bit17_swizzling) {
 			vaddr = kmap_atomic(page);
+			if (needs_clflush)
+				drm_clflush_virt_range(vaddr + shmem_page_offset,
+						       page_length);
 			ret = __copy_to_user_inatomic(user_data,
 						      vaddr + shmem_page_offset,
 						      page_length);
@@ -350,6 +366,10 @@ i915_gem_shmem_pread(struct drm_device *dev,
 		mutex_unlock(&dev->struct_mutex);
 
 		vaddr = kmap(page);
+		if (needs_clflush)
+			drm_clflush_virt_range(vaddr + shmem_page_offset,
+					       page_length);
+
 		if (page_do_bit17_swizzling)
 			ret = __copy_to_user_swizzled(user_data,
 						      vaddr, shmem_page_offset,
@@ -430,12 +450,6 @@ i915_gem_pread_ioctl(struct drm_device *dev, void *data,
 
 	trace_i915_gem_object_pread(obj, args->offset, args->size);
 
-	ret = i915_gem_object_set_cpu_read_domain_range(obj,
-							args->offset,
-							args->size);
-	if (ret)
-		goto out;
-
 	ret = i915_gem_shmem_pread(dev, obj, args, file);
 
 out:
author	Daniel Vetter	2012-03-25 19:47:31 +0200
committer	Daniel Vetter	2012-03-27 13:20:01 +0200
commit	8489731c9bd22c27ab17a2190cd7444604abf95f (patch)
tree	3d1a3ea9b7b0e47c5a4ba73a5457ee4439344786 /drivers/gpu/drm/i915/i915_gem.c
parent	drm: add helper to clflush a virtual address range (diff)
download	kernel-qcow2-linux-8489731c9bd22c27ab17a2190cd7444604abf95f.tar.gz kernel-qcow2-linux-8489731c9bd22c27ab17a2190cd7444604abf95f.tar.xz kernel-qcow2-linux-8489731c9bd22c27ab17a2190cd7444604abf95f.zip