KVM: make processes waiting on vcpu mutex killable

[~andy/linux] / virt / kvm / kvm_main.c
diff --git a/virt/kvm/kvm_main.c b/virt/kvm/kvm_main.c

index aa4a38ad9d9a6cafbfbaab91ae632a9e1edc69eb..cc3f6dc506e43fea81b79e7c5fcb427c8be083da 100644 (file)
--- a/virt/kvm/kvm_main.c
+++ b/virt/kvm/kvm_main.c
@@ -131,11 +131,12 @@ bool kvm_is_mmio_pfn(pfn_t pfn)
  /*
   * Switches to specified vcpu, until a matching vcpu_put()
   */
-void vcpu_load(struct kvm_vcpu *vcpu)
+int vcpu_load(struct kvm_vcpu *vcpu)
  {
         int cpu;
  
-       mutex_lock(&vcpu->mutex);
+       if (mutex_lock_killable(&vcpu->mutex))
+               return -EINTR;
         if (unlikely(vcpu->pid != current->pids[PIDTYPE_PID].pid)) {
                 /* The thread running this VCPU changed. */
                 struct pid *oldpid = vcpu->pid;
@@ -148,6 +149,7 @@ void vcpu_load(struct kvm_vcpu *vcpu)
         preempt_notifier_register(&vcpu->preempt_notifier);
         kvm_arch_vcpu_load(vcpu, cpu);
         put_cpu();
+       return 0;
  }
  
  void vcpu_put(struct kvm_vcpu *vcpu)
@@ -408,7 +410,7 @@ static void kvm_mmu_notifier_release(struct mmu_notifier *mn,
         int idx;
  
         idx = srcu_read_lock(&kvm->srcu);
-       kvm_arch_flush_shadow(kvm);
+       kvm_arch_flush_shadow_all(kvm);
         srcu_read_unlock(&kvm->srcu, idx);
  }
  
@@ -582,7 +584,7 @@ static void kvm_destroy_vm(struct kvm *kvm)
  #if defined(CONFIG_MMU_NOTIFIER) && defined(KVM_ARCH_WANT_MMU_NOTIFIER)
         mmu_notifier_unregister(&kvm->mmu_notifier, kvm->mm);
  #else
-       kvm_arch_flush_shadow(kvm);
+       kvm_arch_flush_shadow_all(kvm);
  #endif
         kvm_arch_destroy_vm(kvm);
         kvm_free_physmem(kvm);
@@ -680,7 +682,13 @@ void update_memslots(struct kvm_memslots *slots, struct kvm_memory_slot *new)
  
  static int check_memory_region_flags(struct kvm_userspace_memory_region *mem)
  {
-       if (mem->flags & ~KVM_MEM_LOG_DIRTY_PAGES)
+       u32 valid_flags = KVM_MEM_LOG_DIRTY_PAGES;
+
+#ifdef KVM_CAP_READONLY_MEM
+       valid_flags |= KVM_MEM_READONLY;
+#endif
+
+       if (mem->flags & ~valid_flags)
                 return -EINVAL;
  
         return 0;
@@ -785,7 +793,7 @@ int __kvm_set_memory_region(struct kvm *kvm,
                 /* destroy any largepage mappings for dirty tracking */
         }
  
-       if (!npages) {
+       if (!npages || base_gfn != old.base_gfn) {
                 struct kvm_memory_slot *slot;
  
                 r = -ENOMEM;
@@ -801,14 +809,14 @@ int __kvm_set_memory_region(struct kvm *kvm,
                 old_memslots = kvm->memslots;
                 rcu_assign_pointer(kvm->memslots, slots);
                 synchronize_srcu_expedited(&kvm->srcu);
-               /* From this point no new shadow pages pointing to a deleted
-                * memslot will be created.
+               /* From this point no new shadow pages pointing to a deleted,
+                * or moved, memslot will be created.
                  *
                  * validation of sp->gfn happens in:
                  *      - gfn_to_hva (kvm_read_guest, gfn_to_pfn)
                  *      - kvm_is_visible_gfn (mmu_check_roots)
                  */
-               kvm_arch_flush_shadow(kvm);
+               kvm_arch_flush_shadow_memslot(kvm, slot);
                 kfree(old_memslots);
         }
  
@@ -843,13 +851,6 @@ int __kvm_set_memory_region(struct kvm *kvm,
  
         kvm_arch_commit_memory_region(kvm, mem, old, user_alloc);
  
-       /*
-        * If the new memory slot is created, we need to clear all
-        * mmio sptes.
-        */
-       if (npages && old.base_gfn != mem->guest_phys_addr >> PAGE_SHIFT)
-               kvm_arch_flush_shadow(kvm);
-
         kvm_free_physmem_slot(&old, &new);
         kfree(old_memslots);
  
@@ -931,17 +932,6 @@ void kvm_disable_largepages(void)
  }
  EXPORT_SYMBOL_GPL(kvm_disable_largepages);
  
-static inline unsigned long bad_hva(void)
-{
-       return PAGE_OFFSET;
-}
-
-int kvm_is_error_hva(unsigned long addr)
-{
-       return addr == bad_hva();
-}
-EXPORT_SYMBOL_GPL(kvm_is_error_hva);
-
  struct kvm_memory_slot *gfn_to_memslot(struct kvm *kvm, gfn_t gfn)
  {
         return __gfn_to_memslot(kvm_memslots(kvm), gfn);
@@ -984,18 +974,39 @@ out:
         return size;
  }
  
-static unsigned long gfn_to_hva_many(struct kvm_memory_slot *slot, gfn_t gfn,
-                                    gfn_t *nr_pages)
+static bool memslot_is_readonly(struct kvm_memory_slot *slot)
+{
+       return slot->flags & KVM_MEM_READONLY;
+}
+
+static unsigned long __gfn_to_hva_many(struct kvm_memory_slot *slot, gfn_t gfn,
+                                      gfn_t *nr_pages, bool write)
  {
         if (!slot || slot->flags & KVM_MEMSLOT_INVALID)
-               return bad_hva();
+               return KVM_HVA_ERR_BAD;
+
+       if (memslot_is_readonly(slot) && write)
+               return KVM_HVA_ERR_RO_BAD;
  
         if (nr_pages)
                 *nr_pages = slot->npages - (gfn - slot->base_gfn);
  
-       return gfn_to_hva_memslot(slot, gfn);
+       return __gfn_to_hva_memslot(slot, gfn);
  }
  
+static unsigned long gfn_to_hva_many(struct kvm_memory_slot *slot, gfn_t gfn,
+                                    gfn_t *nr_pages)
+{
+       return __gfn_to_hva_many(slot, gfn, nr_pages, true);
+}
+
+unsigned long gfn_to_hva_memslot(struct kvm_memory_slot *slot,
+                                gfn_t gfn)
+{
+       return gfn_to_hva_many(slot, gfn, NULL);
+}
+EXPORT_SYMBOL_GPL(gfn_to_hva_memslot);
+
  unsigned long gfn_to_hva(struct kvm *kvm, gfn_t gfn)
  {
         return gfn_to_hva_many(gfn_to_memslot(kvm, gfn), gfn, NULL);
@@ -1008,7 +1019,7 @@ EXPORT_SYMBOL_GPL(gfn_to_hva);
   */
  static unsigned long gfn_to_hva_read(struct kvm *kvm, gfn_t gfn)
  {
-       return gfn_to_hva_many(gfn_to_memslot(kvm, gfn), gfn, NULL);
+       return __gfn_to_hva_many(gfn_to_memslot(kvm, gfn), gfn, NULL, false);
  }
  
  static int kvm_read_hva(void *data, void __user *hva, int len)
@@ -1054,6 +1065,14 @@ static bool hva_to_pfn_fast(unsigned long addr, bool atomic, bool *async,
         if (!(async || atomic))
                 return false;
  
+       /*
+        * Fast pin a writable pfn only if it is a write fault request
+        * or the caller allows to map a writable pfn for a read fault
+        * request.
+        */
+       if (!(write_fault || writable))
+               return false;
+
         npages = __get_user_pages_fast(addr, 1, 1, page);
         if (npages == 1) {
                 *pfn = page_to_pfn(page[0]);
@@ -1093,7 +1112,7 @@ static int hva_to_pfn_slow(unsigned long addr, bool *async, bool write_fault,
                 return npages;
  
         /* map read fault as writable if possible */
-       if (unlikely(!write_fault)) {
+       if (unlikely(!write_fault) && writable) {
                 struct page *wpage[1];
  
                 npages = __get_user_pages_fast(addr, 1, 1, wpage);
@@ -1109,6 +1128,31 @@ static int hva_to_pfn_slow(unsigned long addr, bool *async, bool write_fault,
         return npages;
  }
  
+static bool vma_is_valid(struct vm_area_struct *vma, bool write_fault)
+{
+       if (unlikely(!(vma->vm_flags & VM_READ)))
+               return false;
+
+       if (write_fault && (unlikely(!(vma->vm_flags & VM_WRITE))))
+               return false;
+
+       return true;
+}
+
+/*
+ * Pin guest page in memory and return its pfn.
+ * @addr: host virtual address which maps memory to the guest
+ * @atomic: whether this function can sleep
+ * @async: whether this function need to wait IO complete if the
+ *         host page is not in the memory
+ * @write_fault: whether we should get a writable host page
+ * @writable: whether it allows to map a writable host page for !@write_fault
+ *
+ * The function will map a writable host page for these two cases:
+ * 1): @write_fault = true
+ * 2): @write_fault = false && @writable, @writable will tell the caller
+ *     whether the mapping is writable.
+ */
  static pfn_t hva_to_pfn(unsigned long addr, bool atomic, bool *async,
                         bool write_fault, bool *writable)
  {
@@ -1119,8 +1163,6 @@ static pfn_t hva_to_pfn(unsigned long addr, bool atomic, bool *async,
         /* we can do it either atomically or asynchronously, not both */
         BUG_ON(atomic && async);
  
-       BUG_ON(!write_fault && !writable);
-
         if (hva_to_pfn_fast(addr, atomic, async, write_fault, writable, &pfn))
                 return pfn;
  
@@ -1147,7 +1189,7 @@ static pfn_t hva_to_pfn(unsigned long addr, bool atomic, bool *async,
                         vma->vm_pgoff;
                 BUG_ON(!kvm_is_mmio_pfn(pfn));
         } else {
-               if (async && (vma->vm_flags & VM_WRITE))
+               if (async && vma_is_valid(vma, write_fault))
                         *async = true;
                 pfn = KVM_PFN_ERR_FAULT;
         }
@@ -1156,19 +1198,40 @@ exit:
         return pfn;
  }
  
+static pfn_t
+__gfn_to_pfn_memslot(struct kvm_memory_slot *slot, gfn_t gfn, bool atomic,
+                    bool *async, bool write_fault, bool *writable)
+{
+       unsigned long addr = __gfn_to_hva_many(slot, gfn, NULL, write_fault);
+
+       if (addr == KVM_HVA_ERR_RO_BAD)
+               return KVM_PFN_ERR_RO_FAULT;
+
+       if (kvm_is_error_hva(addr))
+               return KVM_PFN_ERR_BAD;
+
+       /* Do not map writable pfn in the readonly memslot. */
+       if (writable && memslot_is_readonly(slot)) {
+               *writable = false;
+               writable = NULL;
+       }
+
+       return hva_to_pfn(addr, atomic, async, write_fault,
+                         writable);
+}
+
  static pfn_t __gfn_to_pfn(struct kvm *kvm, gfn_t gfn, bool atomic, bool *async,
                           bool write_fault, bool *writable)
  {
-       unsigned long addr;
+       struct kvm_memory_slot *slot;
  
         if (async)
                 *async = false;
  
-       addr = gfn_to_hva(kvm, gfn);
-       if (kvm_is_error_hva(addr))
-               return KVM_PFN_ERR_BAD;
+       slot = gfn_to_memslot(kvm, gfn);
  
-       return hva_to_pfn(addr, atomic, async, write_fault, writable);
+       return __gfn_to_pfn_memslot(slot, gfn, atomic, async, write_fault,
+                                   writable);
  }
  
  pfn_t gfn_to_pfn_atomic(struct kvm *kvm, gfn_t gfn)
@@ -1199,15 +1262,12 @@ EXPORT_SYMBOL_GPL(gfn_to_pfn_prot);
  
  pfn_t gfn_to_pfn_memslot(struct kvm_memory_slot *slot, gfn_t gfn)
  {
-       unsigned long addr = gfn_to_hva_memslot(slot, gfn);
-       return hva_to_pfn(addr, false, NULL, true, NULL);
+       return __gfn_to_pfn_memslot(slot, gfn, false, NULL, true, NULL);
  }
  
  pfn_t gfn_to_pfn_memslot_atomic(struct kvm_memory_slot *slot, gfn_t gfn)
  {
-       unsigned long addr = gfn_to_hva_memslot(slot, gfn);
-
-       return hva_to_pfn(addr, true, NULL, true, NULL);
+       return __gfn_to_pfn_memslot(slot, gfn, true, NULL, true, NULL);
  }
  EXPORT_SYMBOL_GPL(gfn_to_pfn_memslot_atomic);
  
@@ -1833,7 +1893,9 @@ static long kvm_vcpu_ioctl(struct file *filp,
  #endif
  
  
-       vcpu_load(vcpu);
+       r = vcpu_load(vcpu);
+       if (r)
+               return r;
         switch (ioctl) {
         case KVM_RUN:
                 r = -EINVAL;