]> Pileus Git - ~andy/linux/blob - arch/x86/xen/mmu.c
x86: Move paging_init() call to x86_init.paging.pagetable_init()
[~andy/linux] / arch / x86 / xen / mmu.c
1 /*
2  * Xen mmu operations
3  *
4  * This file contains the various mmu fetch and update operations.
5  * The most important job they must perform is the mapping between the
6  * domain's pfn and the overall machine mfns.
7  *
8  * Xen allows guests to directly update the pagetable, in a controlled
9  * fashion.  In other words, the guest modifies the same pagetable
10  * that the CPU actually uses, which eliminates the overhead of having
11  * a separate shadow pagetable.
12  *
13  * In order to allow this, it falls on the guest domain to map its
14  * notion of a "physical" pfn - which is just a domain-local linear
15  * address - into a real "machine address" which the CPU's MMU can
16  * use.
17  *
18  * A pgd_t/pmd_t/pte_t will typically contain an mfn, and so can be
19  * inserted directly into the pagetable.  When creating a new
20  * pte/pmd/pgd, it converts the passed pfn into an mfn.  Conversely,
21  * when reading the content back with __(pgd|pmd|pte)_val, it converts
22  * the mfn back into a pfn.
23  *
24  * The other constraint is that all pages which make up a pagetable
25  * must be mapped read-only in the guest.  This prevents uncontrolled
26  * guest updates to the pagetable.  Xen strictly enforces this, and
27  * will disallow any pagetable update which will end up mapping a
28  * pagetable page RW, and will disallow using any writable page as a
29  * pagetable.
30  *
31  * Naively, when loading %cr3 with the base of a new pagetable, Xen
32  * would need to validate the whole pagetable before going on.
33  * Naturally, this is quite slow.  The solution is to "pin" a
34  * pagetable, which enforces all the constraints on the pagetable even
35  * when it is not actively in use.  This menas that Xen can be assured
36  * that it is still valid when you do load it into %cr3, and doesn't
37  * need to revalidate it.
38  *
39  * Jeremy Fitzhardinge <jeremy@xensource.com>, XenSource Inc, 2007
40  */
41 #include <linux/sched.h>
42 #include <linux/highmem.h>
43 #include <linux/debugfs.h>
44 #include <linux/bug.h>
45 #include <linux/vmalloc.h>
46 #include <linux/module.h>
47 #include <linux/gfp.h>
48 #include <linux/memblock.h>
49 #include <linux/seq_file.h>
50
51 #include <trace/events/xen.h>
52
53 #include <asm/pgtable.h>
54 #include <asm/tlbflush.h>
55 #include <asm/fixmap.h>
56 #include <asm/mmu_context.h>
57 #include <asm/setup.h>
58 #include <asm/paravirt.h>
59 #include <asm/e820.h>
60 #include <asm/linkage.h>
61 #include <asm/page.h>
62 #include <asm/init.h>
63 #include <asm/pat.h>
64 #include <asm/smp.h>
65
66 #include <asm/xen/hypercall.h>
67 #include <asm/xen/hypervisor.h>
68
69 #include <xen/xen.h>
70 #include <xen/page.h>
71 #include <xen/interface/xen.h>
72 #include <xen/interface/hvm/hvm_op.h>
73 #include <xen/interface/version.h>
74 #include <xen/interface/memory.h>
75 #include <xen/hvc-console.h>
76
77 #include "multicalls.h"
78 #include "mmu.h"
79 #include "debugfs.h"
80
81 /*
82  * Protects atomic reservation decrease/increase against concurrent increases.
83  * Also protects non-atomic updates of current_pages and balloon lists.
84  */
85 DEFINE_SPINLOCK(xen_reservation_lock);
86
87 /*
88  * Identity map, in addition to plain kernel map.  This needs to be
89  * large enough to allocate page table pages to allocate the rest.
90  * Each page can map 2MB.
91  */
92 #define LEVEL1_IDENT_ENTRIES    (PTRS_PER_PTE * 4)
93 static RESERVE_BRK_ARRAY(pte_t, level1_ident_pgt, LEVEL1_IDENT_ENTRIES);
94
95 #ifdef CONFIG_X86_64
96 /* l3 pud for userspace vsyscall mapping */
97 static pud_t level3_user_vsyscall[PTRS_PER_PUD] __page_aligned_bss;
98 #endif /* CONFIG_X86_64 */
99
100 /*
101  * Note about cr3 (pagetable base) values:
102  *
103  * xen_cr3 contains the current logical cr3 value; it contains the
104  * last set cr3.  This may not be the current effective cr3, because
105  * its update may be being lazily deferred.  However, a vcpu looking
106  * at its own cr3 can use this value knowing that it everything will
107  * be self-consistent.
108  *
109  * xen_current_cr3 contains the actual vcpu cr3; it is set once the
110  * hypercall to set the vcpu cr3 is complete (so it may be a little
111  * out of date, but it will never be set early).  If one vcpu is
112  * looking at another vcpu's cr3 value, it should use this variable.
113  */
114 DEFINE_PER_CPU(unsigned long, xen_cr3);  /* cr3 stored as physaddr */
115 DEFINE_PER_CPU(unsigned long, xen_current_cr3);  /* actual vcpu cr3 */
116
117
118 /*
119  * Just beyond the highest usermode address.  STACK_TOP_MAX has a
120  * redzone above it, so round it up to a PGD boundary.
121  */
122 #define USER_LIMIT      ((STACK_TOP_MAX + PGDIR_SIZE - 1) & PGDIR_MASK)
123
124 unsigned long arbitrary_virt_to_mfn(void *vaddr)
125 {
126         xmaddr_t maddr = arbitrary_virt_to_machine(vaddr);
127
128         return PFN_DOWN(maddr.maddr);
129 }
130
131 xmaddr_t arbitrary_virt_to_machine(void *vaddr)
132 {
133         unsigned long address = (unsigned long)vaddr;
134         unsigned int level;
135         pte_t *pte;
136         unsigned offset;
137
138         /*
139          * if the PFN is in the linear mapped vaddr range, we can just use
140          * the (quick) virt_to_machine() p2m lookup
141          */
142         if (virt_addr_valid(vaddr))
143                 return virt_to_machine(vaddr);
144
145         /* otherwise we have to do a (slower) full page-table walk */
146
147         pte = lookup_address(address, &level);
148         BUG_ON(pte == NULL);
149         offset = address & ~PAGE_MASK;
150         return XMADDR(((phys_addr_t)pte_mfn(*pte) << PAGE_SHIFT) + offset);
151 }
152 EXPORT_SYMBOL_GPL(arbitrary_virt_to_machine);
153
154 void make_lowmem_page_readonly(void *vaddr)
155 {
156         pte_t *pte, ptev;
157         unsigned long address = (unsigned long)vaddr;
158         unsigned int level;
159
160         pte = lookup_address(address, &level);
161         if (pte == NULL)
162                 return;         /* vaddr missing */
163
164         ptev = pte_wrprotect(*pte);
165
166         if (HYPERVISOR_update_va_mapping(address, ptev, 0))
167                 BUG();
168 }
169
170 void make_lowmem_page_readwrite(void *vaddr)
171 {
172         pte_t *pte, ptev;
173         unsigned long address = (unsigned long)vaddr;
174         unsigned int level;
175
176         pte = lookup_address(address, &level);
177         if (pte == NULL)
178                 return;         /* vaddr missing */
179
180         ptev = pte_mkwrite(*pte);
181
182         if (HYPERVISOR_update_va_mapping(address, ptev, 0))
183                 BUG();
184 }
185
186
187 static bool xen_page_pinned(void *ptr)
188 {
189         struct page *page = virt_to_page(ptr);
190
191         return PagePinned(page);
192 }
193
194 void xen_set_domain_pte(pte_t *ptep, pte_t pteval, unsigned domid)
195 {
196         struct multicall_space mcs;
197         struct mmu_update *u;
198
199         trace_xen_mmu_set_domain_pte(ptep, pteval, domid);
200
201         mcs = xen_mc_entry(sizeof(*u));
202         u = mcs.args;
203
204         /* ptep might be kmapped when using 32-bit HIGHPTE */
205         u->ptr = virt_to_machine(ptep).maddr;
206         u->val = pte_val_ma(pteval);
207
208         MULTI_mmu_update(mcs.mc, mcs.args, 1, NULL, domid);
209
210         xen_mc_issue(PARAVIRT_LAZY_MMU);
211 }
212 EXPORT_SYMBOL_GPL(xen_set_domain_pte);
213
214 static void xen_extend_mmu_update(const struct mmu_update *update)
215 {
216         struct multicall_space mcs;
217         struct mmu_update *u;
218
219         mcs = xen_mc_extend_args(__HYPERVISOR_mmu_update, sizeof(*u));
220
221         if (mcs.mc != NULL) {
222                 mcs.mc->args[1]++;
223         } else {
224                 mcs = __xen_mc_entry(sizeof(*u));
225                 MULTI_mmu_update(mcs.mc, mcs.args, 1, NULL, DOMID_SELF);
226         }
227
228         u = mcs.args;
229         *u = *update;
230 }
231
232 static void xen_extend_mmuext_op(const struct mmuext_op *op)
233 {
234         struct multicall_space mcs;
235         struct mmuext_op *u;
236
237         mcs = xen_mc_extend_args(__HYPERVISOR_mmuext_op, sizeof(*u));
238
239         if (mcs.mc != NULL) {
240                 mcs.mc->args[1]++;
241         } else {
242                 mcs = __xen_mc_entry(sizeof(*u));
243                 MULTI_mmuext_op(mcs.mc, mcs.args, 1, NULL, DOMID_SELF);
244         }
245
246         u = mcs.args;
247         *u = *op;
248 }
249
250 static void xen_set_pmd_hyper(pmd_t *ptr, pmd_t val)
251 {
252         struct mmu_update u;
253
254         preempt_disable();
255
256         xen_mc_batch();
257
258         /* ptr may be ioremapped for 64-bit pagetable setup */
259         u.ptr = arbitrary_virt_to_machine(ptr).maddr;
260         u.val = pmd_val_ma(val);
261         xen_extend_mmu_update(&u);
262
263         xen_mc_issue(PARAVIRT_LAZY_MMU);
264
265         preempt_enable();
266 }
267
268 static void xen_set_pmd(pmd_t *ptr, pmd_t val)
269 {
270         trace_xen_mmu_set_pmd(ptr, val);
271
272         /* If page is not pinned, we can just update the entry
273            directly */
274         if (!xen_page_pinned(ptr)) {
275                 *ptr = val;
276                 return;
277         }
278
279         xen_set_pmd_hyper(ptr, val);
280 }
281
282 /*
283  * Associate a virtual page frame with a given physical page frame
284  * and protection flags for that frame.
285  */
286 void set_pte_mfn(unsigned long vaddr, unsigned long mfn, pgprot_t flags)
287 {
288         set_pte_vaddr(vaddr, mfn_pte(mfn, flags));
289 }
290
291 static bool xen_batched_set_pte(pte_t *ptep, pte_t pteval)
292 {
293         struct mmu_update u;
294
295         if (paravirt_get_lazy_mode() != PARAVIRT_LAZY_MMU)
296                 return false;
297
298         xen_mc_batch();
299
300         u.ptr = virt_to_machine(ptep).maddr | MMU_NORMAL_PT_UPDATE;
301         u.val = pte_val_ma(pteval);
302         xen_extend_mmu_update(&u);
303
304         xen_mc_issue(PARAVIRT_LAZY_MMU);
305
306         return true;
307 }
308
309 static inline void __xen_set_pte(pte_t *ptep, pte_t pteval)
310 {
311         if (!xen_batched_set_pte(ptep, pteval)) {
312                 /*
313                  * Could call native_set_pte() here and trap and
314                  * emulate the PTE write but with 32-bit guests this
315                  * needs two traps (one for each of the two 32-bit
316                  * words in the PTE) so do one hypercall directly
317                  * instead.
318                  */
319                 struct mmu_update u;
320
321                 u.ptr = virt_to_machine(ptep).maddr | MMU_NORMAL_PT_UPDATE;
322                 u.val = pte_val_ma(pteval);
323                 HYPERVISOR_mmu_update(&u, 1, NULL, DOMID_SELF);
324         }
325 }
326
327 static void xen_set_pte(pte_t *ptep, pte_t pteval)
328 {
329         trace_xen_mmu_set_pte(ptep, pteval);
330         __xen_set_pte(ptep, pteval);
331 }
332
333 static void xen_set_pte_at(struct mm_struct *mm, unsigned long addr,
334                     pte_t *ptep, pte_t pteval)
335 {
336         trace_xen_mmu_set_pte_at(mm, addr, ptep, pteval);
337         __xen_set_pte(ptep, pteval);
338 }
339
340 pte_t xen_ptep_modify_prot_start(struct mm_struct *mm,
341                                  unsigned long addr, pte_t *ptep)
342 {
343         /* Just return the pte as-is.  We preserve the bits on commit */
344         trace_xen_mmu_ptep_modify_prot_start(mm, addr, ptep, *ptep);
345         return *ptep;
346 }
347
348 void xen_ptep_modify_prot_commit(struct mm_struct *mm, unsigned long addr,
349                                  pte_t *ptep, pte_t pte)
350 {
351         struct mmu_update u;
352
353         trace_xen_mmu_ptep_modify_prot_commit(mm, addr, ptep, pte);
354         xen_mc_batch();
355
356         u.ptr = virt_to_machine(ptep).maddr | MMU_PT_UPDATE_PRESERVE_AD;
357         u.val = pte_val_ma(pte);
358         xen_extend_mmu_update(&u);
359
360         xen_mc_issue(PARAVIRT_LAZY_MMU);
361 }
362
363 /* Assume pteval_t is equivalent to all the other *val_t types. */
364 static pteval_t pte_mfn_to_pfn(pteval_t val)
365 {
366         if (val & _PAGE_PRESENT) {
367                 unsigned long mfn = (val & PTE_PFN_MASK) >> PAGE_SHIFT;
368                 unsigned long pfn = mfn_to_pfn(mfn);
369
370                 pteval_t flags = val & PTE_FLAGS_MASK;
371                 if (unlikely(pfn == ~0))
372                         val = flags & ~_PAGE_PRESENT;
373                 else
374                         val = ((pteval_t)pfn << PAGE_SHIFT) | flags;
375         }
376
377         return val;
378 }
379
380 static pteval_t pte_pfn_to_mfn(pteval_t val)
381 {
382         if (val & _PAGE_PRESENT) {
383                 unsigned long pfn = (val & PTE_PFN_MASK) >> PAGE_SHIFT;
384                 pteval_t flags = val & PTE_FLAGS_MASK;
385                 unsigned long mfn;
386
387                 if (!xen_feature(XENFEAT_auto_translated_physmap))
388                         mfn = get_phys_to_machine(pfn);
389                 else
390                         mfn = pfn;
391                 /*
392                  * If there's no mfn for the pfn, then just create an
393                  * empty non-present pte.  Unfortunately this loses
394                  * information about the original pfn, so
395                  * pte_mfn_to_pfn is asymmetric.
396                  */
397                 if (unlikely(mfn == INVALID_P2M_ENTRY)) {
398                         mfn = 0;
399                         flags = 0;
400                 } else {
401                         /*
402                          * Paramount to do this test _after_ the
403                          * INVALID_P2M_ENTRY as INVALID_P2M_ENTRY &
404                          * IDENTITY_FRAME_BIT resolves to true.
405                          */
406                         mfn &= ~FOREIGN_FRAME_BIT;
407                         if (mfn & IDENTITY_FRAME_BIT) {
408                                 mfn &= ~IDENTITY_FRAME_BIT;
409                                 flags |= _PAGE_IOMAP;
410                         }
411                 }
412                 val = ((pteval_t)mfn << PAGE_SHIFT) | flags;
413         }
414
415         return val;
416 }
417
418 static pteval_t iomap_pte(pteval_t val)
419 {
420         if (val & _PAGE_PRESENT) {
421                 unsigned long pfn = (val & PTE_PFN_MASK) >> PAGE_SHIFT;
422                 pteval_t flags = val & PTE_FLAGS_MASK;
423
424                 /* We assume the pte frame number is a MFN, so
425                    just use it as-is. */
426                 val = ((pteval_t)pfn << PAGE_SHIFT) | flags;
427         }
428
429         return val;
430 }
431
432 static pteval_t xen_pte_val(pte_t pte)
433 {
434         pteval_t pteval = pte.pte;
435 #if 0
436         /* If this is a WC pte, convert back from Xen WC to Linux WC */
437         if ((pteval & (_PAGE_PAT | _PAGE_PCD | _PAGE_PWT)) == _PAGE_PAT) {
438                 WARN_ON(!pat_enabled);
439                 pteval = (pteval & ~_PAGE_PAT) | _PAGE_PWT;
440         }
441 #endif
442         if (xen_initial_domain() && (pteval & _PAGE_IOMAP))
443                 return pteval;
444
445         return pte_mfn_to_pfn(pteval);
446 }
447 PV_CALLEE_SAVE_REGS_THUNK(xen_pte_val);
448
449 static pgdval_t xen_pgd_val(pgd_t pgd)
450 {
451         return pte_mfn_to_pfn(pgd.pgd);
452 }
453 PV_CALLEE_SAVE_REGS_THUNK(xen_pgd_val);
454
455 /*
456  * Xen's PAT setup is part of its ABI, though I assume entries 6 & 7
457  * are reserved for now, to correspond to the Intel-reserved PAT
458  * types.
459  *
460  * We expect Linux's PAT set as follows:
461  *
462  * Idx  PTE flags        Linux    Xen    Default
463  * 0                     WB       WB     WB
464  * 1            PWT      WC       WT     WT
465  * 2        PCD          UC-      UC-    UC-
466  * 3        PCD PWT      UC       UC     UC
467  * 4    PAT              WB       WC     WB
468  * 5    PAT     PWT      WC       WP     WT
469  * 6    PAT PCD          UC-      UC     UC-
470  * 7    PAT PCD PWT      UC       UC     UC
471  */
472
473 void xen_set_pat(u64 pat)
474 {
475         /* We expect Linux to use a PAT setting of
476          * UC UC- WC WB (ignoring the PAT flag) */
477         WARN_ON(pat != 0x0007010600070106ull);
478 }
479
480 static pte_t xen_make_pte(pteval_t pte)
481 {
482         phys_addr_t addr = (pte & PTE_PFN_MASK);
483 #if 0
484         /* If Linux is trying to set a WC pte, then map to the Xen WC.
485          * If _PAGE_PAT is set, then it probably means it is really
486          * _PAGE_PSE, so avoid fiddling with the PAT mapping and hope
487          * things work out OK...
488          *
489          * (We should never see kernel mappings with _PAGE_PSE set,
490          * but we could see hugetlbfs mappings, I think.).
491          */
492         if (pat_enabled && !WARN_ON(pte & _PAGE_PAT)) {
493                 if ((pte & (_PAGE_PCD | _PAGE_PWT)) == _PAGE_PWT)
494                         pte = (pte & ~(_PAGE_PCD | _PAGE_PWT)) | _PAGE_PAT;
495         }
496 #endif
497         /*
498          * Unprivileged domains are allowed to do IOMAPpings for
499          * PCI passthrough, but not map ISA space.  The ISA
500          * mappings are just dummy local mappings to keep other
501          * parts of the kernel happy.
502          */
503         if (unlikely(pte & _PAGE_IOMAP) &&
504             (xen_initial_domain() || addr >= ISA_END_ADDRESS)) {
505                 pte = iomap_pte(pte);
506         } else {
507                 pte &= ~_PAGE_IOMAP;
508                 pte = pte_pfn_to_mfn(pte);
509         }
510
511         return native_make_pte(pte);
512 }
513 PV_CALLEE_SAVE_REGS_THUNK(xen_make_pte);
514
515 static pgd_t xen_make_pgd(pgdval_t pgd)
516 {
517         pgd = pte_pfn_to_mfn(pgd);
518         return native_make_pgd(pgd);
519 }
520 PV_CALLEE_SAVE_REGS_THUNK(xen_make_pgd);
521
522 static pmdval_t xen_pmd_val(pmd_t pmd)
523 {
524         return pte_mfn_to_pfn(pmd.pmd);
525 }
526 PV_CALLEE_SAVE_REGS_THUNK(xen_pmd_val);
527
528 static void xen_set_pud_hyper(pud_t *ptr, pud_t val)
529 {
530         struct mmu_update u;
531
532         preempt_disable();
533
534         xen_mc_batch();
535
536         /* ptr may be ioremapped for 64-bit pagetable setup */
537         u.ptr = arbitrary_virt_to_machine(ptr).maddr;
538         u.val = pud_val_ma(val);
539         xen_extend_mmu_update(&u);
540
541         xen_mc_issue(PARAVIRT_LAZY_MMU);
542
543         preempt_enable();
544 }
545
546 static void xen_set_pud(pud_t *ptr, pud_t val)
547 {
548         trace_xen_mmu_set_pud(ptr, val);
549
550         /* If page is not pinned, we can just update the entry
551            directly */
552         if (!xen_page_pinned(ptr)) {
553                 *ptr = val;
554                 return;
555         }
556
557         xen_set_pud_hyper(ptr, val);
558 }
559
560 #ifdef CONFIG_X86_PAE
561 static void xen_set_pte_atomic(pte_t *ptep, pte_t pte)
562 {
563         trace_xen_mmu_set_pte_atomic(ptep, pte);
564         set_64bit((u64 *)ptep, native_pte_val(pte));
565 }
566
567 static void xen_pte_clear(struct mm_struct *mm, unsigned long addr, pte_t *ptep)
568 {
569         trace_xen_mmu_pte_clear(mm, addr, ptep);
570         if (!xen_batched_set_pte(ptep, native_make_pte(0)))
571                 native_pte_clear(mm, addr, ptep);
572 }
573
574 static void xen_pmd_clear(pmd_t *pmdp)
575 {
576         trace_xen_mmu_pmd_clear(pmdp);
577         set_pmd(pmdp, __pmd(0));
578 }
579 #endif  /* CONFIG_X86_PAE */
580
581 static pmd_t xen_make_pmd(pmdval_t pmd)
582 {
583         pmd = pte_pfn_to_mfn(pmd);
584         return native_make_pmd(pmd);
585 }
586 PV_CALLEE_SAVE_REGS_THUNK(xen_make_pmd);
587
588 #if PAGETABLE_LEVELS == 4
589 static pudval_t xen_pud_val(pud_t pud)
590 {
591         return pte_mfn_to_pfn(pud.pud);
592 }
593 PV_CALLEE_SAVE_REGS_THUNK(xen_pud_val);
594
595 static pud_t xen_make_pud(pudval_t pud)
596 {
597         pud = pte_pfn_to_mfn(pud);
598
599         return native_make_pud(pud);
600 }
601 PV_CALLEE_SAVE_REGS_THUNK(xen_make_pud);
602
603 static pgd_t *xen_get_user_pgd(pgd_t *pgd)
604 {
605         pgd_t *pgd_page = (pgd_t *)(((unsigned long)pgd) & PAGE_MASK);
606         unsigned offset = pgd - pgd_page;
607         pgd_t *user_ptr = NULL;
608
609         if (offset < pgd_index(USER_LIMIT)) {
610                 struct page *page = virt_to_page(pgd_page);
611                 user_ptr = (pgd_t *)page->private;
612                 if (user_ptr)
613                         user_ptr += offset;
614         }
615
616         return user_ptr;
617 }
618
619 static void __xen_set_pgd_hyper(pgd_t *ptr, pgd_t val)
620 {
621         struct mmu_update u;
622
623         u.ptr = virt_to_machine(ptr).maddr;
624         u.val = pgd_val_ma(val);
625         xen_extend_mmu_update(&u);
626 }
627
628 /*
629  * Raw hypercall-based set_pgd, intended for in early boot before
630  * there's a page structure.  This implies:
631  *  1. The only existing pagetable is the kernel's
632  *  2. It is always pinned
633  *  3. It has no user pagetable attached to it
634  */
635 static void __init xen_set_pgd_hyper(pgd_t *ptr, pgd_t val)
636 {
637         preempt_disable();
638
639         xen_mc_batch();
640
641         __xen_set_pgd_hyper(ptr, val);
642
643         xen_mc_issue(PARAVIRT_LAZY_MMU);
644
645         preempt_enable();
646 }
647
648 static void xen_set_pgd(pgd_t *ptr, pgd_t val)
649 {
650         pgd_t *user_ptr = xen_get_user_pgd(ptr);
651
652         trace_xen_mmu_set_pgd(ptr, user_ptr, val);
653
654         /* If page is not pinned, we can just update the entry
655            directly */
656         if (!xen_page_pinned(ptr)) {
657                 *ptr = val;
658                 if (user_ptr) {
659                         WARN_ON(xen_page_pinned(user_ptr));
660                         *user_ptr = val;
661                 }
662                 return;
663         }
664
665         /* If it's pinned, then we can at least batch the kernel and
666            user updates together. */
667         xen_mc_batch();
668
669         __xen_set_pgd_hyper(ptr, val);
670         if (user_ptr)
671                 __xen_set_pgd_hyper(user_ptr, val);
672
673         xen_mc_issue(PARAVIRT_LAZY_MMU);
674 }
675 #endif  /* PAGETABLE_LEVELS == 4 */
676
677 /*
678  * (Yet another) pagetable walker.  This one is intended for pinning a
679  * pagetable.  This means that it walks a pagetable and calls the
680  * callback function on each page it finds making up the page table,
681  * at every level.  It walks the entire pagetable, but it only bothers
682  * pinning pte pages which are below limit.  In the normal case this
683  * will be STACK_TOP_MAX, but at boot we need to pin up to
684  * FIXADDR_TOP.
685  *
686  * For 32-bit the important bit is that we don't pin beyond there,
687  * because then we start getting into Xen's ptes.
688  *
689  * For 64-bit, we must skip the Xen hole in the middle of the address
690  * space, just after the big x86-64 virtual hole.
691  */
692 static int __xen_pgd_walk(struct mm_struct *mm, pgd_t *pgd,
693                           int (*func)(struct mm_struct *mm, struct page *,
694                                       enum pt_level),
695                           unsigned long limit)
696 {
697         int flush = 0;
698         unsigned hole_low, hole_high;
699         unsigned pgdidx_limit, pudidx_limit, pmdidx_limit;
700         unsigned pgdidx, pudidx, pmdidx;
701
702         /* The limit is the last byte to be touched */
703         limit--;
704         BUG_ON(limit >= FIXADDR_TOP);
705
706         if (xen_feature(XENFEAT_auto_translated_physmap))
707                 return 0;
708
709         /*
710          * 64-bit has a great big hole in the middle of the address
711          * space, which contains the Xen mappings.  On 32-bit these
712          * will end up making a zero-sized hole and so is a no-op.
713          */
714         hole_low = pgd_index(USER_LIMIT);
715         hole_high = pgd_index(PAGE_OFFSET);
716
717         pgdidx_limit = pgd_index(limit);
718 #if PTRS_PER_PUD > 1
719         pudidx_limit = pud_index(limit);
720 #else
721         pudidx_limit = 0;
722 #endif
723 #if PTRS_PER_PMD > 1
724         pmdidx_limit = pmd_index(limit);
725 #else
726         pmdidx_limit = 0;
727 #endif
728
729         for (pgdidx = 0; pgdidx <= pgdidx_limit; pgdidx++) {
730                 pud_t *pud;
731
732                 if (pgdidx >= hole_low && pgdidx < hole_high)
733                         continue;
734
735                 if (!pgd_val(pgd[pgdidx]))
736                         continue;
737
738                 pud = pud_offset(&pgd[pgdidx], 0);
739
740                 if (PTRS_PER_PUD > 1) /* not folded */
741                         flush |= (*func)(mm, virt_to_page(pud), PT_PUD);
742
743                 for (pudidx = 0; pudidx < PTRS_PER_PUD; pudidx++) {
744                         pmd_t *pmd;
745
746                         if (pgdidx == pgdidx_limit &&
747                             pudidx > pudidx_limit)
748                                 goto out;
749
750                         if (pud_none(pud[pudidx]))
751                                 continue;
752
753                         pmd = pmd_offset(&pud[pudidx], 0);
754
755                         if (PTRS_PER_PMD > 1) /* not folded */
756                                 flush |= (*func)(mm, virt_to_page(pmd), PT_PMD);
757
758                         for (pmdidx = 0; pmdidx < PTRS_PER_PMD; pmdidx++) {
759                                 struct page *pte;
760
761                                 if (pgdidx == pgdidx_limit &&
762                                     pudidx == pudidx_limit &&
763                                     pmdidx > pmdidx_limit)
764                                         goto out;
765
766                                 if (pmd_none(pmd[pmdidx]))
767                                         continue;
768
769                                 pte = pmd_page(pmd[pmdidx]);
770                                 flush |= (*func)(mm, pte, PT_PTE);
771                         }
772                 }
773         }
774
775 out:
776         /* Do the top level last, so that the callbacks can use it as
777            a cue to do final things like tlb flushes. */
778         flush |= (*func)(mm, virt_to_page(pgd), PT_PGD);
779
780         return flush;
781 }
782
783 static int xen_pgd_walk(struct mm_struct *mm,
784                         int (*func)(struct mm_struct *mm, struct page *,
785                                     enum pt_level),
786                         unsigned long limit)
787 {
788         return __xen_pgd_walk(mm, mm->pgd, func, limit);
789 }
790
791 /* If we're using split pte locks, then take the page's lock and
792    return a pointer to it.  Otherwise return NULL. */
793 static spinlock_t *xen_pte_lock(struct page *page, struct mm_struct *mm)
794 {
795         spinlock_t *ptl = NULL;
796
797 #if USE_SPLIT_PTLOCKS
798         ptl = __pte_lockptr(page);
799         spin_lock_nest_lock(ptl, &mm->page_table_lock);
800 #endif
801
802         return ptl;
803 }
804
805 static void xen_pte_unlock(void *v)
806 {
807         spinlock_t *ptl = v;
808         spin_unlock(ptl);
809 }
810
811 static void xen_do_pin(unsigned level, unsigned long pfn)
812 {
813         struct mmuext_op op;
814
815         op.cmd = level;
816         op.arg1.mfn = pfn_to_mfn(pfn);
817
818         xen_extend_mmuext_op(&op);
819 }
820
821 static int xen_pin_page(struct mm_struct *mm, struct page *page,
822                         enum pt_level level)
823 {
824         unsigned pgfl = TestSetPagePinned(page);
825         int flush;
826
827         if (pgfl)
828                 flush = 0;              /* already pinned */
829         else if (PageHighMem(page))
830                 /* kmaps need flushing if we found an unpinned
831                    highpage */
832                 flush = 1;
833         else {
834                 void *pt = lowmem_page_address(page);
835                 unsigned long pfn = page_to_pfn(page);
836                 struct multicall_space mcs = __xen_mc_entry(0);
837                 spinlock_t *ptl;
838
839                 flush = 0;
840
841                 /*
842                  * We need to hold the pagetable lock between the time
843                  * we make the pagetable RO and when we actually pin
844                  * it.  If we don't, then other users may come in and
845                  * attempt to update the pagetable by writing it,
846                  * which will fail because the memory is RO but not
847                  * pinned, so Xen won't do the trap'n'emulate.
848                  *
849                  * If we're using split pte locks, we can't hold the
850                  * entire pagetable's worth of locks during the
851                  * traverse, because we may wrap the preempt count (8
852                  * bits).  The solution is to mark RO and pin each PTE
853                  * page while holding the lock.  This means the number
854                  * of locks we end up holding is never more than a
855                  * batch size (~32 entries, at present).
856                  *
857                  * If we're not using split pte locks, we needn't pin
858                  * the PTE pages independently, because we're
859                  * protected by the overall pagetable lock.
860                  */
861                 ptl = NULL;
862                 if (level == PT_PTE)
863                         ptl = xen_pte_lock(page, mm);
864
865                 MULTI_update_va_mapping(mcs.mc, (unsigned long)pt,
866                                         pfn_pte(pfn, PAGE_KERNEL_RO),
867                                         level == PT_PGD ? UVMF_TLB_FLUSH : 0);
868
869                 if (ptl) {
870                         xen_do_pin(MMUEXT_PIN_L1_TABLE, pfn);
871
872                         /* Queue a deferred unlock for when this batch
873                            is completed. */
874                         xen_mc_callback(xen_pte_unlock, ptl);
875                 }
876         }
877
878         return flush;
879 }
880
881 /* This is called just after a mm has been created, but it has not
882    been used yet.  We need to make sure that its pagetable is all
883    read-only, and can be pinned. */
884 static void __xen_pgd_pin(struct mm_struct *mm, pgd_t *pgd)
885 {
886         trace_xen_mmu_pgd_pin(mm, pgd);
887
888         xen_mc_batch();
889
890         if (__xen_pgd_walk(mm, pgd, xen_pin_page, USER_LIMIT)) {
891                 /* re-enable interrupts for flushing */
892                 xen_mc_issue(0);
893
894                 kmap_flush_unused();
895
896                 xen_mc_batch();
897         }
898
899 #ifdef CONFIG_X86_64
900         {
901                 pgd_t *user_pgd = xen_get_user_pgd(pgd);
902
903                 xen_do_pin(MMUEXT_PIN_L4_TABLE, PFN_DOWN(__pa(pgd)));
904
905                 if (user_pgd) {
906                         xen_pin_page(mm, virt_to_page(user_pgd), PT_PGD);
907                         xen_do_pin(MMUEXT_PIN_L4_TABLE,
908                                    PFN_DOWN(__pa(user_pgd)));
909                 }
910         }
911 #else /* CONFIG_X86_32 */
912 #ifdef CONFIG_X86_PAE
913         /* Need to make sure unshared kernel PMD is pinnable */
914         xen_pin_page(mm, pgd_page(pgd[pgd_index(TASK_SIZE)]),
915                      PT_PMD);
916 #endif
917         xen_do_pin(MMUEXT_PIN_L3_TABLE, PFN_DOWN(__pa(pgd)));
918 #endif /* CONFIG_X86_64 */
919         xen_mc_issue(0);
920 }
921
922 static void xen_pgd_pin(struct mm_struct *mm)
923 {
924         __xen_pgd_pin(mm, mm->pgd);
925 }
926
927 /*
928  * On save, we need to pin all pagetables to make sure they get their
929  * mfns turned into pfns.  Search the list for any unpinned pgds and pin
930  * them (unpinned pgds are not currently in use, probably because the
931  * process is under construction or destruction).
932  *
933  * Expected to be called in stop_machine() ("equivalent to taking
934  * every spinlock in the system"), so the locking doesn't really
935  * matter all that much.
936  */
937 void xen_mm_pin_all(void)
938 {
939         struct page *page;
940
941         spin_lock(&pgd_lock);
942
943         list_for_each_entry(page, &pgd_list, lru) {
944                 if (!PagePinned(page)) {
945                         __xen_pgd_pin(&init_mm, (pgd_t *)page_address(page));
946                         SetPageSavePinned(page);
947                 }
948         }
949
950         spin_unlock(&pgd_lock);
951 }
952
953 /*
954  * The init_mm pagetable is really pinned as soon as its created, but
955  * that's before we have page structures to store the bits.  So do all
956  * the book-keeping now.
957  */
958 static int __init xen_mark_pinned(struct mm_struct *mm, struct page *page,
959                                   enum pt_level level)
960 {
961         SetPagePinned(page);
962         return 0;
963 }
964
965 static void __init xen_mark_init_mm_pinned(void)
966 {
967         xen_pgd_walk(&init_mm, xen_mark_pinned, FIXADDR_TOP);
968 }
969
970 static int xen_unpin_page(struct mm_struct *mm, struct page *page,
971                           enum pt_level level)
972 {
973         unsigned pgfl = TestClearPagePinned(page);
974
975         if (pgfl && !PageHighMem(page)) {
976                 void *pt = lowmem_page_address(page);
977                 unsigned long pfn = page_to_pfn(page);
978                 spinlock_t *ptl = NULL;
979                 struct multicall_space mcs;
980
981                 /*
982                  * Do the converse to pin_page.  If we're using split
983                  * pte locks, we must be holding the lock for while
984                  * the pte page is unpinned but still RO to prevent
985                  * concurrent updates from seeing it in this
986                  * partially-pinned state.
987                  */
988                 if (level == PT_PTE) {
989                         ptl = xen_pte_lock(page, mm);
990
991                         if (ptl)
992                                 xen_do_pin(MMUEXT_UNPIN_TABLE, pfn);
993                 }
994
995                 mcs = __xen_mc_entry(0);
996
997                 MULTI_update_va_mapping(mcs.mc, (unsigned long)pt,
998                                         pfn_pte(pfn, PAGE_KERNEL),
999                                         level == PT_PGD ? UVMF_TLB_FLUSH : 0);
1000
1001                 if (ptl) {
1002                         /* unlock when batch completed */
1003                         xen_mc_callback(xen_pte_unlock, ptl);
1004                 }
1005         }
1006
1007         return 0;               /* never need to flush on unpin */
1008 }
1009
1010 /* Release a pagetables pages back as normal RW */
1011 static void __xen_pgd_unpin(struct mm_struct *mm, pgd_t *pgd)
1012 {
1013         trace_xen_mmu_pgd_unpin(mm, pgd);
1014
1015         xen_mc_batch();
1016
1017         xen_do_pin(MMUEXT_UNPIN_TABLE, PFN_DOWN(__pa(pgd)));
1018
1019 #ifdef CONFIG_X86_64
1020         {
1021                 pgd_t *user_pgd = xen_get_user_pgd(pgd);
1022
1023                 if (user_pgd) {
1024                         xen_do_pin(MMUEXT_UNPIN_TABLE,
1025                                    PFN_DOWN(__pa(user_pgd)));
1026                         xen_unpin_page(mm, virt_to_page(user_pgd), PT_PGD);
1027                 }
1028         }
1029 #endif
1030
1031 #ifdef CONFIG_X86_PAE
1032         /* Need to make sure unshared kernel PMD is unpinned */
1033         xen_unpin_page(mm, pgd_page(pgd[pgd_index(TASK_SIZE)]),
1034                        PT_PMD);
1035 #endif
1036
1037         __xen_pgd_walk(mm, pgd, xen_unpin_page, USER_LIMIT);
1038
1039         xen_mc_issue(0);
1040 }
1041
1042 static void xen_pgd_unpin(struct mm_struct *mm)
1043 {
1044         __xen_pgd_unpin(mm, mm->pgd);
1045 }
1046
1047 /*
1048  * On resume, undo any pinning done at save, so that the rest of the
1049  * kernel doesn't see any unexpected pinned pagetables.
1050  */
1051 void xen_mm_unpin_all(void)
1052 {
1053         struct page *page;
1054
1055         spin_lock(&pgd_lock);
1056
1057         list_for_each_entry(page, &pgd_list, lru) {
1058                 if (PageSavePinned(page)) {
1059                         BUG_ON(!PagePinned(page));
1060                         __xen_pgd_unpin(&init_mm, (pgd_t *)page_address(page));
1061                         ClearPageSavePinned(page);
1062                 }
1063         }
1064
1065         spin_unlock(&pgd_lock);
1066 }
1067
1068 static void xen_activate_mm(struct mm_struct *prev, struct mm_struct *next)
1069 {
1070         spin_lock(&next->page_table_lock);
1071         xen_pgd_pin(next);
1072         spin_unlock(&next->page_table_lock);
1073 }
1074
1075 static void xen_dup_mmap(struct mm_struct *oldmm, struct mm_struct *mm)
1076 {
1077         spin_lock(&mm->page_table_lock);
1078         xen_pgd_pin(mm);
1079         spin_unlock(&mm->page_table_lock);
1080 }
1081
1082
1083 #ifdef CONFIG_SMP
1084 /* Another cpu may still have their %cr3 pointing at the pagetable, so
1085    we need to repoint it somewhere else before we can unpin it. */
1086 static void drop_other_mm_ref(void *info)
1087 {
1088         struct mm_struct *mm = info;
1089         struct mm_struct *active_mm;
1090
1091         active_mm = this_cpu_read(cpu_tlbstate.active_mm);
1092
1093         if (active_mm == mm && this_cpu_read(cpu_tlbstate.state) != TLBSTATE_OK)
1094                 leave_mm(smp_processor_id());
1095
1096         /* If this cpu still has a stale cr3 reference, then make sure
1097            it has been flushed. */
1098         if (this_cpu_read(xen_current_cr3) == __pa(mm->pgd))
1099                 load_cr3(swapper_pg_dir);
1100 }
1101
1102 static void xen_drop_mm_ref(struct mm_struct *mm)
1103 {
1104         cpumask_var_t mask;
1105         unsigned cpu;
1106
1107         if (current->active_mm == mm) {
1108                 if (current->mm == mm)
1109                         load_cr3(swapper_pg_dir);
1110                 else
1111                         leave_mm(smp_processor_id());
1112         }
1113
1114         /* Get the "official" set of cpus referring to our pagetable. */
1115         if (!alloc_cpumask_var(&mask, GFP_ATOMIC)) {
1116                 for_each_online_cpu(cpu) {
1117                         if (!cpumask_test_cpu(cpu, mm_cpumask(mm))
1118                             && per_cpu(xen_current_cr3, cpu) != __pa(mm->pgd))
1119                                 continue;
1120                         smp_call_function_single(cpu, drop_other_mm_ref, mm, 1);
1121                 }
1122                 return;
1123         }
1124         cpumask_copy(mask, mm_cpumask(mm));
1125
1126         /* It's possible that a vcpu may have a stale reference to our
1127            cr3, because its in lazy mode, and it hasn't yet flushed
1128            its set of pending hypercalls yet.  In this case, we can
1129            look at its actual current cr3 value, and force it to flush
1130            if needed. */
1131         for_each_online_cpu(cpu) {
1132                 if (per_cpu(xen_current_cr3, cpu) == __pa(mm->pgd))
1133                         cpumask_set_cpu(cpu, mask);
1134         }
1135
1136         if (!cpumask_empty(mask))
1137                 smp_call_function_many(mask, drop_other_mm_ref, mm, 1);
1138         free_cpumask_var(mask);
1139 }
1140 #else
1141 static void xen_drop_mm_ref(struct mm_struct *mm)
1142 {
1143         if (current->active_mm == mm)
1144                 load_cr3(swapper_pg_dir);
1145 }
1146 #endif
1147
1148 /*
1149  * While a process runs, Xen pins its pagetables, which means that the
1150  * hypervisor forces it to be read-only, and it controls all updates
1151  * to it.  This means that all pagetable updates have to go via the
1152  * hypervisor, which is moderately expensive.
1153  *
1154  * Since we're pulling the pagetable down, we switch to use init_mm,
1155  * unpin old process pagetable and mark it all read-write, which
1156  * allows further operations on it to be simple memory accesses.
1157  *
1158  * The only subtle point is that another CPU may be still using the
1159  * pagetable because of lazy tlb flushing.  This means we need need to
1160  * switch all CPUs off this pagetable before we can unpin it.
1161  */
1162 static void xen_exit_mmap(struct mm_struct *mm)
1163 {
1164         get_cpu();              /* make sure we don't move around */
1165         xen_drop_mm_ref(mm);
1166         put_cpu();
1167
1168         spin_lock(&mm->page_table_lock);
1169
1170         /* pgd may not be pinned in the error exit path of execve */
1171         if (xen_page_pinned(mm->pgd))
1172                 xen_pgd_unpin(mm);
1173
1174         spin_unlock(&mm->page_table_lock);
1175 }
1176
1177 static void __init xen_pagetable_init(void)
1178 {
1179         paging_init();
1180 }
1181
1182 static __init void xen_mapping_pagetable_reserve(u64 start, u64 end)
1183 {
1184         /* reserve the range used */
1185         native_pagetable_reserve(start, end);
1186
1187         /* set as RW the rest */
1188         printk(KERN_DEBUG "xen: setting RW the range %llx - %llx\n", end,
1189                         PFN_PHYS(pgt_buf_top));
1190         while (end < PFN_PHYS(pgt_buf_top)) {
1191                 make_lowmem_page_readwrite(__va(end));
1192                 end += PAGE_SIZE;
1193         }
1194 }
1195
1196 static void xen_post_allocator_init(void);
1197
1198 static void __init xen_pagetable_setup_done(pgd_t *base)
1199 {
1200         xen_setup_shared_info();
1201         xen_post_allocator_init();
1202 }
1203
1204 static void xen_write_cr2(unsigned long cr2)
1205 {
1206         this_cpu_read(xen_vcpu)->arch.cr2 = cr2;
1207 }
1208
1209 static unsigned long xen_read_cr2(void)
1210 {
1211         return this_cpu_read(xen_vcpu)->arch.cr2;
1212 }
1213
1214 unsigned long xen_read_cr2_direct(void)
1215 {
1216         return this_cpu_read(xen_vcpu_info.arch.cr2);
1217 }
1218
1219 static void xen_flush_tlb(void)
1220 {
1221         struct mmuext_op *op;
1222         struct multicall_space mcs;
1223
1224         trace_xen_mmu_flush_tlb(0);
1225
1226         preempt_disable();
1227
1228         mcs = xen_mc_entry(sizeof(*op));
1229
1230         op = mcs.args;
1231         op->cmd = MMUEXT_TLB_FLUSH_LOCAL;
1232         MULTI_mmuext_op(mcs.mc, op, 1, NULL, DOMID_SELF);
1233
1234         xen_mc_issue(PARAVIRT_LAZY_MMU);
1235
1236         preempt_enable();
1237 }
1238
1239 static void xen_flush_tlb_single(unsigned long addr)
1240 {
1241         struct mmuext_op *op;
1242         struct multicall_space mcs;
1243
1244         trace_xen_mmu_flush_tlb_single(addr);
1245
1246         preempt_disable();
1247
1248         mcs = xen_mc_entry(sizeof(*op));
1249         op = mcs.args;
1250         op->cmd = MMUEXT_INVLPG_LOCAL;
1251         op->arg1.linear_addr = addr & PAGE_MASK;
1252         MULTI_mmuext_op(mcs.mc, op, 1, NULL, DOMID_SELF);
1253
1254         xen_mc_issue(PARAVIRT_LAZY_MMU);
1255
1256         preempt_enable();
1257 }
1258
1259 static void xen_flush_tlb_others(const struct cpumask *cpus,
1260                                  struct mm_struct *mm, unsigned long start,
1261                                  unsigned long end)
1262 {
1263         struct {
1264                 struct mmuext_op op;
1265 #ifdef CONFIG_SMP
1266                 DECLARE_BITMAP(mask, num_processors);
1267 #else
1268                 DECLARE_BITMAP(mask, NR_CPUS);
1269 #endif
1270         } *args;
1271         struct multicall_space mcs;
1272
1273         trace_xen_mmu_flush_tlb_others(cpus, mm, start, end);
1274
1275         if (cpumask_empty(cpus))
1276                 return;         /* nothing to do */
1277
1278         mcs = xen_mc_entry(sizeof(*args));
1279         args = mcs.args;
1280         args->op.arg2.vcpumask = to_cpumask(args->mask);
1281
1282         /* Remove us, and any offline CPUS. */
1283         cpumask_and(to_cpumask(args->mask), cpus, cpu_online_mask);
1284         cpumask_clear_cpu(smp_processor_id(), to_cpumask(args->mask));
1285
1286         args->op.cmd = MMUEXT_TLB_FLUSH_MULTI;
1287         if (end != TLB_FLUSH_ALL && (end - start) <= PAGE_SIZE) {
1288                 args->op.cmd = MMUEXT_INVLPG_MULTI;
1289                 args->op.arg1.linear_addr = start;
1290         }
1291
1292         MULTI_mmuext_op(mcs.mc, &args->op, 1, NULL, DOMID_SELF);
1293
1294         xen_mc_issue(PARAVIRT_LAZY_MMU);
1295 }
1296
1297 static unsigned long xen_read_cr3(void)
1298 {
1299         return this_cpu_read(xen_cr3);
1300 }
1301
1302 static void set_current_cr3(void *v)
1303 {
1304         this_cpu_write(xen_current_cr3, (unsigned long)v);
1305 }
1306
1307 static void __xen_write_cr3(bool kernel, unsigned long cr3)
1308 {
1309         struct mmuext_op op;
1310         unsigned long mfn;
1311
1312         trace_xen_mmu_write_cr3(kernel, cr3);
1313
1314         if (cr3)
1315                 mfn = pfn_to_mfn(PFN_DOWN(cr3));
1316         else
1317                 mfn = 0;
1318
1319         WARN_ON(mfn == 0 && kernel);
1320
1321         op.cmd = kernel ? MMUEXT_NEW_BASEPTR : MMUEXT_NEW_USER_BASEPTR;
1322         op.arg1.mfn = mfn;
1323
1324         xen_extend_mmuext_op(&op);
1325
1326         if (kernel) {
1327                 this_cpu_write(xen_cr3, cr3);
1328
1329                 /* Update xen_current_cr3 once the batch has actually
1330                    been submitted. */
1331                 xen_mc_callback(set_current_cr3, (void *)cr3);
1332         }
1333 }
1334
1335 static void xen_write_cr3(unsigned long cr3)
1336 {
1337         BUG_ON(preemptible());
1338
1339         xen_mc_batch();  /* disables interrupts */
1340
1341         /* Update while interrupts are disabled, so its atomic with
1342            respect to ipis */
1343         this_cpu_write(xen_cr3, cr3);
1344
1345         __xen_write_cr3(true, cr3);
1346
1347 #ifdef CONFIG_X86_64
1348         {
1349                 pgd_t *user_pgd = xen_get_user_pgd(__va(cr3));
1350                 if (user_pgd)
1351                         __xen_write_cr3(false, __pa(user_pgd));
1352                 else
1353                         __xen_write_cr3(false, 0);
1354         }
1355 #endif
1356
1357         xen_mc_issue(PARAVIRT_LAZY_CPU);  /* interrupts restored */
1358 }
1359
1360 static int xen_pgd_alloc(struct mm_struct *mm)
1361 {
1362         pgd_t *pgd = mm->pgd;
1363         int ret = 0;
1364
1365         BUG_ON(PagePinned(virt_to_page(pgd)));
1366
1367 #ifdef CONFIG_X86_64
1368         {
1369                 struct page *page = virt_to_page(pgd);
1370                 pgd_t *user_pgd;
1371
1372                 BUG_ON(page->private != 0);
1373
1374                 ret = -ENOMEM;
1375
1376                 user_pgd = (pgd_t *)__get_free_page(GFP_KERNEL | __GFP_ZERO);
1377                 page->private = (unsigned long)user_pgd;
1378
1379                 if (user_pgd != NULL) {
1380                         user_pgd[pgd_index(VSYSCALL_START)] =
1381                                 __pgd(__pa(level3_user_vsyscall) | _PAGE_TABLE);
1382                         ret = 0;
1383                 }
1384
1385                 BUG_ON(PagePinned(virt_to_page(xen_get_user_pgd(pgd))));
1386         }
1387 #endif
1388
1389         return ret;
1390 }
1391
1392 static void xen_pgd_free(struct mm_struct *mm, pgd_t *pgd)
1393 {
1394 #ifdef CONFIG_X86_64
1395         pgd_t *user_pgd = xen_get_user_pgd(pgd);
1396
1397         if (user_pgd)
1398                 free_page((unsigned long)user_pgd);
1399 #endif
1400 }
1401
1402 #ifdef CONFIG_X86_32
1403 static pte_t __init mask_rw_pte(pte_t *ptep, pte_t pte)
1404 {
1405         /* If there's an existing pte, then don't allow _PAGE_RW to be set */
1406         if (pte_val_ma(*ptep) & _PAGE_PRESENT)
1407                 pte = __pte_ma(((pte_val_ma(*ptep) & _PAGE_RW) | ~_PAGE_RW) &
1408                                pte_val_ma(pte));
1409
1410         return pte;
1411 }
1412 #else /* CONFIG_X86_64 */
1413 static pte_t __init mask_rw_pte(pte_t *ptep, pte_t pte)
1414 {
1415         unsigned long pfn = pte_pfn(pte);
1416
1417         /*
1418          * If the new pfn is within the range of the newly allocated
1419          * kernel pagetable, and it isn't being mapped into an
1420          * early_ioremap fixmap slot as a freshly allocated page, make sure
1421          * it is RO.
1422          */
1423         if (((!is_early_ioremap_ptep(ptep) &&
1424                         pfn >= pgt_buf_start && pfn < pgt_buf_top)) ||
1425                         (is_early_ioremap_ptep(ptep) && pfn != (pgt_buf_end - 1)))
1426                 pte = pte_wrprotect(pte);
1427
1428         return pte;
1429 }
1430 #endif /* CONFIG_X86_64 */
1431
1432 /*
1433  * Init-time set_pte while constructing initial pagetables, which
1434  * doesn't allow RO page table pages to be remapped RW.
1435  *
1436  * If there is no MFN for this PFN then this page is initially
1437  * ballooned out so clear the PTE (as in decrease_reservation() in
1438  * drivers/xen/balloon.c).
1439  *
1440  * Many of these PTE updates are done on unpinned and writable pages
1441  * and doing a hypercall for these is unnecessary and expensive.  At
1442  * this point it is not possible to tell if a page is pinned or not,
1443  * so always write the PTE directly and rely on Xen trapping and
1444  * emulating any updates as necessary.
1445  */
1446 static void __init xen_set_pte_init(pte_t *ptep, pte_t pte)
1447 {
1448         if (pte_mfn(pte) != INVALID_P2M_ENTRY)
1449                 pte = mask_rw_pte(ptep, pte);
1450         else
1451                 pte = __pte_ma(0);
1452
1453         native_set_pte(ptep, pte);
1454 }
1455
1456 static void pin_pagetable_pfn(unsigned cmd, unsigned long pfn)
1457 {
1458         struct mmuext_op op;
1459         op.cmd = cmd;
1460         op.arg1.mfn = pfn_to_mfn(pfn);
1461         if (HYPERVISOR_mmuext_op(&op, 1, NULL, DOMID_SELF))
1462                 BUG();
1463 }
1464
1465 /* Early in boot, while setting up the initial pagetable, assume
1466    everything is pinned. */
1467 static void __init xen_alloc_pte_init(struct mm_struct *mm, unsigned long pfn)
1468 {
1469 #ifdef CONFIG_FLATMEM
1470         BUG_ON(mem_map);        /* should only be used early */
1471 #endif
1472         make_lowmem_page_readonly(__va(PFN_PHYS(pfn)));
1473         pin_pagetable_pfn(MMUEXT_PIN_L1_TABLE, pfn);
1474 }
1475
1476 /* Used for pmd and pud */
1477 static void __init xen_alloc_pmd_init(struct mm_struct *mm, unsigned long pfn)
1478 {
1479 #ifdef CONFIG_FLATMEM
1480         BUG_ON(mem_map);        /* should only be used early */
1481 #endif
1482         make_lowmem_page_readonly(__va(PFN_PHYS(pfn)));
1483 }
1484
1485 /* Early release_pte assumes that all pts are pinned, since there's
1486    only init_mm and anything attached to that is pinned. */
1487 static void __init xen_release_pte_init(unsigned long pfn)
1488 {
1489         pin_pagetable_pfn(MMUEXT_UNPIN_TABLE, pfn);
1490         make_lowmem_page_readwrite(__va(PFN_PHYS(pfn)));
1491 }
1492
1493 static void __init xen_release_pmd_init(unsigned long pfn)
1494 {
1495         make_lowmem_page_readwrite(__va(PFN_PHYS(pfn)));
1496 }
1497
1498 static inline void __pin_pagetable_pfn(unsigned cmd, unsigned long pfn)
1499 {
1500         struct multicall_space mcs;
1501         struct mmuext_op *op;
1502
1503         mcs = __xen_mc_entry(sizeof(*op));
1504         op = mcs.args;
1505         op->cmd = cmd;
1506         op->arg1.mfn = pfn_to_mfn(pfn);
1507
1508         MULTI_mmuext_op(mcs.mc, mcs.args, 1, NULL, DOMID_SELF);
1509 }
1510
1511 static inline void __set_pfn_prot(unsigned long pfn, pgprot_t prot)
1512 {
1513         struct multicall_space mcs;
1514         unsigned long addr = (unsigned long)__va(pfn << PAGE_SHIFT);
1515
1516         mcs = __xen_mc_entry(0);
1517         MULTI_update_va_mapping(mcs.mc, (unsigned long)addr,
1518                                 pfn_pte(pfn, prot), 0);
1519 }
1520
1521 /* This needs to make sure the new pte page is pinned iff its being
1522    attached to a pinned pagetable. */
1523 static inline void xen_alloc_ptpage(struct mm_struct *mm, unsigned long pfn,
1524                                     unsigned level)
1525 {
1526         bool pinned = PagePinned(virt_to_page(mm->pgd));
1527
1528         trace_xen_mmu_alloc_ptpage(mm, pfn, level, pinned);
1529
1530         if (pinned) {
1531                 struct page *page = pfn_to_page(pfn);
1532
1533                 SetPagePinned(page);
1534
1535                 if (!PageHighMem(page)) {
1536                         xen_mc_batch();
1537
1538                         __set_pfn_prot(pfn, PAGE_KERNEL_RO);
1539
1540                         if (level == PT_PTE && USE_SPLIT_PTLOCKS)
1541                                 __pin_pagetable_pfn(MMUEXT_PIN_L1_TABLE, pfn);
1542
1543                         xen_mc_issue(PARAVIRT_LAZY_MMU);
1544                 } else {
1545                         /* make sure there are no stray mappings of
1546                            this page */
1547                         kmap_flush_unused();
1548                 }
1549         }
1550 }
1551
1552 static void xen_alloc_pte(struct mm_struct *mm, unsigned long pfn)
1553 {
1554         xen_alloc_ptpage(mm, pfn, PT_PTE);
1555 }
1556
1557 static void xen_alloc_pmd(struct mm_struct *mm, unsigned long pfn)
1558 {
1559         xen_alloc_ptpage(mm, pfn, PT_PMD);
1560 }
1561
1562 /* This should never happen until we're OK to use struct page */
1563 static inline void xen_release_ptpage(unsigned long pfn, unsigned level)
1564 {
1565         struct page *page = pfn_to_page(pfn);
1566         bool pinned = PagePinned(page);
1567
1568         trace_xen_mmu_release_ptpage(pfn, level, pinned);
1569
1570         if (pinned) {
1571                 if (!PageHighMem(page)) {
1572                         xen_mc_batch();
1573
1574                         if (level == PT_PTE && USE_SPLIT_PTLOCKS)
1575                                 __pin_pagetable_pfn(MMUEXT_UNPIN_TABLE, pfn);
1576
1577                         __set_pfn_prot(pfn, PAGE_KERNEL);
1578
1579                         xen_mc_issue(PARAVIRT_LAZY_MMU);
1580                 }
1581                 ClearPagePinned(page);
1582         }
1583 }
1584
1585 static void xen_release_pte(unsigned long pfn)
1586 {
1587         xen_release_ptpage(pfn, PT_PTE);
1588 }
1589
1590 static void xen_release_pmd(unsigned long pfn)
1591 {
1592         xen_release_ptpage(pfn, PT_PMD);
1593 }
1594
1595 #if PAGETABLE_LEVELS == 4
1596 static void xen_alloc_pud(struct mm_struct *mm, unsigned long pfn)
1597 {
1598         xen_alloc_ptpage(mm, pfn, PT_PUD);
1599 }
1600
1601 static void xen_release_pud(unsigned long pfn)
1602 {
1603         xen_release_ptpage(pfn, PT_PUD);
1604 }
1605 #endif
1606
1607 void __init xen_reserve_top(void)
1608 {
1609 #ifdef CONFIG_X86_32
1610         unsigned long top = HYPERVISOR_VIRT_START;
1611         struct xen_platform_parameters pp;
1612
1613         if (HYPERVISOR_xen_version(XENVER_platform_parameters, &pp) == 0)
1614                 top = pp.virt_start;
1615
1616         reserve_top_address(-top);
1617 #endif  /* CONFIG_X86_32 */
1618 }
1619
1620 /*
1621  * Like __va(), but returns address in the kernel mapping (which is
1622  * all we have until the physical memory mapping has been set up.
1623  */
1624 static void *__ka(phys_addr_t paddr)
1625 {
1626 #ifdef CONFIG_X86_64
1627         return (void *)(paddr + __START_KERNEL_map);
1628 #else
1629         return __va(paddr);
1630 #endif
1631 }
1632
1633 /* Convert a machine address to physical address */
1634 static unsigned long m2p(phys_addr_t maddr)
1635 {
1636         phys_addr_t paddr;
1637
1638         maddr &= PTE_PFN_MASK;
1639         paddr = mfn_to_pfn(maddr >> PAGE_SHIFT) << PAGE_SHIFT;
1640
1641         return paddr;
1642 }
1643
1644 /* Convert a machine address to kernel virtual */
1645 static void *m2v(phys_addr_t maddr)
1646 {
1647         return __ka(m2p(maddr));
1648 }
1649
1650 /* Set the page permissions on an identity-mapped pages */
1651 static void set_page_prot(void *addr, pgprot_t prot)
1652 {
1653         unsigned long pfn = __pa(addr) >> PAGE_SHIFT;
1654         pte_t pte = pfn_pte(pfn, prot);
1655
1656         if (HYPERVISOR_update_va_mapping((unsigned long)addr, pte, 0))
1657                 BUG();
1658 }
1659
1660 static void __init xen_map_identity_early(pmd_t *pmd, unsigned long max_pfn)
1661 {
1662         unsigned pmdidx, pteidx;
1663         unsigned ident_pte;
1664         unsigned long pfn;
1665
1666         level1_ident_pgt = extend_brk(sizeof(pte_t) * LEVEL1_IDENT_ENTRIES,
1667                                       PAGE_SIZE);
1668
1669         ident_pte = 0;
1670         pfn = 0;
1671         for (pmdidx = 0; pmdidx < PTRS_PER_PMD && pfn < max_pfn; pmdidx++) {
1672                 pte_t *pte_page;
1673
1674                 /* Reuse or allocate a page of ptes */
1675                 if (pmd_present(pmd[pmdidx]))
1676                         pte_page = m2v(pmd[pmdidx].pmd);
1677                 else {
1678                         /* Check for free pte pages */
1679                         if (ident_pte == LEVEL1_IDENT_ENTRIES)
1680                                 break;
1681
1682                         pte_page = &level1_ident_pgt[ident_pte];
1683                         ident_pte += PTRS_PER_PTE;
1684
1685                         pmd[pmdidx] = __pmd(__pa(pte_page) | _PAGE_TABLE);
1686                 }
1687
1688                 /* Install mappings */
1689                 for (pteidx = 0; pteidx < PTRS_PER_PTE; pteidx++, pfn++) {
1690                         pte_t pte;
1691
1692 #ifdef CONFIG_X86_32
1693                         if (pfn > max_pfn_mapped)
1694                                 max_pfn_mapped = pfn;
1695 #endif
1696
1697                         if (!pte_none(pte_page[pteidx]))
1698                                 continue;
1699
1700                         pte = pfn_pte(pfn, PAGE_KERNEL_EXEC);
1701                         pte_page[pteidx] = pte;
1702                 }
1703         }
1704
1705         for (pteidx = 0; pteidx < ident_pte; pteidx += PTRS_PER_PTE)
1706                 set_page_prot(&level1_ident_pgt[pteidx], PAGE_KERNEL_RO);
1707
1708         set_page_prot(pmd, PAGE_KERNEL_RO);
1709 }
1710
1711 void __init xen_setup_machphys_mapping(void)
1712 {
1713         struct xen_machphys_mapping mapping;
1714
1715         if (HYPERVISOR_memory_op(XENMEM_machphys_mapping, &mapping) == 0) {
1716                 machine_to_phys_mapping = (unsigned long *)mapping.v_start;
1717                 machine_to_phys_nr = mapping.max_mfn + 1;
1718         } else {
1719                 machine_to_phys_nr = MACH2PHYS_NR_ENTRIES;
1720         }
1721 #ifdef CONFIG_X86_32
1722         WARN_ON((machine_to_phys_mapping + (machine_to_phys_nr - 1))
1723                 < machine_to_phys_mapping);
1724 #endif
1725 }
1726
1727 #ifdef CONFIG_X86_64
1728 static void convert_pfn_mfn(void *v)
1729 {
1730         pte_t *pte = v;
1731         int i;
1732
1733         /* All levels are converted the same way, so just treat them
1734            as ptes. */
1735         for (i = 0; i < PTRS_PER_PTE; i++)
1736                 pte[i] = xen_make_pte(pte[i].pte);
1737 }
1738
1739 /*
1740  * Set up the initial kernel pagetable.
1741  *
1742  * We can construct this by grafting the Xen provided pagetable into
1743  * head_64.S's preconstructed pagetables.  We copy the Xen L2's into
1744  * level2_ident_pgt, level2_kernel_pgt and level2_fixmap_pgt.  This
1745  * means that only the kernel has a physical mapping to start with -
1746  * but that's enough to get __va working.  We need to fill in the rest
1747  * of the physical mapping once some sort of allocator has been set
1748  * up.
1749  */
1750 pgd_t * __init xen_setup_kernel_pagetable(pgd_t *pgd,
1751                                          unsigned long max_pfn)
1752 {
1753         pud_t *l3;
1754         pmd_t *l2;
1755
1756         /* max_pfn_mapped is the last pfn mapped in the initial memory
1757          * mappings. Considering that on Xen after the kernel mappings we
1758          * have the mappings of some pages that don't exist in pfn space, we
1759          * set max_pfn_mapped to the last real pfn mapped. */
1760         max_pfn_mapped = PFN_DOWN(__pa(xen_start_info->mfn_list));
1761
1762         /* Zap identity mapping */
1763         init_level4_pgt[0] = __pgd(0);
1764
1765         /* Pre-constructed entries are in pfn, so convert to mfn */
1766         convert_pfn_mfn(init_level4_pgt);
1767         convert_pfn_mfn(level3_ident_pgt);
1768         convert_pfn_mfn(level3_kernel_pgt);
1769
1770         l3 = m2v(pgd[pgd_index(__START_KERNEL_map)].pgd);
1771         l2 = m2v(l3[pud_index(__START_KERNEL_map)].pud);
1772
1773         memcpy(level2_ident_pgt, l2, sizeof(pmd_t) * PTRS_PER_PMD);
1774         memcpy(level2_kernel_pgt, l2, sizeof(pmd_t) * PTRS_PER_PMD);
1775
1776         l3 = m2v(pgd[pgd_index(__START_KERNEL_map + PMD_SIZE)].pgd);
1777         l2 = m2v(l3[pud_index(__START_KERNEL_map + PMD_SIZE)].pud);
1778         memcpy(level2_fixmap_pgt, l2, sizeof(pmd_t) * PTRS_PER_PMD);
1779
1780         /* Set up identity map */
1781         xen_map_identity_early(level2_ident_pgt, max_pfn);
1782
1783         /* Make pagetable pieces RO */
1784         set_page_prot(init_level4_pgt, PAGE_KERNEL_RO);
1785         set_page_prot(level3_ident_pgt, PAGE_KERNEL_RO);
1786         set_page_prot(level3_kernel_pgt, PAGE_KERNEL_RO);
1787         set_page_prot(level3_user_vsyscall, PAGE_KERNEL_RO);
1788         set_page_prot(level2_kernel_pgt, PAGE_KERNEL_RO);
1789         set_page_prot(level2_fixmap_pgt, PAGE_KERNEL_RO);
1790
1791         /* Pin down new L4 */
1792         pin_pagetable_pfn(MMUEXT_PIN_L4_TABLE,
1793                           PFN_DOWN(__pa_symbol(init_level4_pgt)));
1794
1795         /* Unpin Xen-provided one */
1796         pin_pagetable_pfn(MMUEXT_UNPIN_TABLE, PFN_DOWN(__pa(pgd)));
1797
1798         /* Switch over */
1799         pgd = init_level4_pgt;
1800
1801         /*
1802          * At this stage there can be no user pgd, and no page
1803          * structure to attach it to, so make sure we just set kernel
1804          * pgd.
1805          */
1806         xen_mc_batch();
1807         __xen_write_cr3(true, __pa(pgd));
1808         xen_mc_issue(PARAVIRT_LAZY_CPU);
1809
1810         memblock_reserve(__pa(xen_start_info->pt_base),
1811                          xen_start_info->nr_pt_frames * PAGE_SIZE);
1812
1813         return pgd;
1814 }
1815 #else   /* !CONFIG_X86_64 */
1816 static RESERVE_BRK_ARRAY(pmd_t, initial_kernel_pmd, PTRS_PER_PMD);
1817 static RESERVE_BRK_ARRAY(pmd_t, swapper_kernel_pmd, PTRS_PER_PMD);
1818
1819 static void __init xen_write_cr3_init(unsigned long cr3)
1820 {
1821         unsigned long pfn = PFN_DOWN(__pa(swapper_pg_dir));
1822
1823         BUG_ON(read_cr3() != __pa(initial_page_table));
1824         BUG_ON(cr3 != __pa(swapper_pg_dir));
1825
1826         /*
1827          * We are switching to swapper_pg_dir for the first time (from
1828          * initial_page_table) and therefore need to mark that page
1829          * read-only and then pin it.
1830          *
1831          * Xen disallows sharing of kernel PMDs for PAE
1832          * guests. Therefore we must copy the kernel PMD from
1833          * initial_page_table into a new kernel PMD to be used in
1834          * swapper_pg_dir.
1835          */
1836         swapper_kernel_pmd =
1837                 extend_brk(sizeof(pmd_t) * PTRS_PER_PMD, PAGE_SIZE);
1838         memcpy(swapper_kernel_pmd, initial_kernel_pmd,
1839                sizeof(pmd_t) * PTRS_PER_PMD);
1840         swapper_pg_dir[KERNEL_PGD_BOUNDARY] =
1841                 __pgd(__pa(swapper_kernel_pmd) | _PAGE_PRESENT);
1842         set_page_prot(swapper_kernel_pmd, PAGE_KERNEL_RO);
1843
1844         set_page_prot(swapper_pg_dir, PAGE_KERNEL_RO);
1845         xen_write_cr3(cr3);
1846         pin_pagetable_pfn(MMUEXT_PIN_L3_TABLE, pfn);
1847
1848         pin_pagetable_pfn(MMUEXT_UNPIN_TABLE,
1849                           PFN_DOWN(__pa(initial_page_table)));
1850         set_page_prot(initial_page_table, PAGE_KERNEL);
1851         set_page_prot(initial_kernel_pmd, PAGE_KERNEL);
1852
1853         pv_mmu_ops.write_cr3 = &xen_write_cr3;
1854 }
1855
1856 pgd_t * __init xen_setup_kernel_pagetable(pgd_t *pgd,
1857                                          unsigned long max_pfn)
1858 {
1859         pmd_t *kernel_pmd;
1860
1861         initial_kernel_pmd =
1862                 extend_brk(sizeof(pmd_t) * PTRS_PER_PMD, PAGE_SIZE);
1863
1864         max_pfn_mapped = PFN_DOWN(__pa(xen_start_info->pt_base) +
1865                                   xen_start_info->nr_pt_frames * PAGE_SIZE +
1866                                   512*1024);
1867
1868         kernel_pmd = m2v(pgd[KERNEL_PGD_BOUNDARY].pgd);
1869         memcpy(initial_kernel_pmd, kernel_pmd, sizeof(pmd_t) * PTRS_PER_PMD);
1870
1871         xen_map_identity_early(initial_kernel_pmd, max_pfn);
1872
1873         memcpy(initial_page_table, pgd, sizeof(pgd_t) * PTRS_PER_PGD);
1874         initial_page_table[KERNEL_PGD_BOUNDARY] =
1875                 __pgd(__pa(initial_kernel_pmd) | _PAGE_PRESENT);
1876
1877         set_page_prot(initial_kernel_pmd, PAGE_KERNEL_RO);
1878         set_page_prot(initial_page_table, PAGE_KERNEL_RO);
1879         set_page_prot(empty_zero_page, PAGE_KERNEL_RO);
1880
1881         pin_pagetable_pfn(MMUEXT_UNPIN_TABLE, PFN_DOWN(__pa(pgd)));
1882
1883         pin_pagetable_pfn(MMUEXT_PIN_L3_TABLE,
1884                           PFN_DOWN(__pa(initial_page_table)));
1885         xen_write_cr3(__pa(initial_page_table));
1886
1887         memblock_reserve(__pa(xen_start_info->pt_base),
1888                          xen_start_info->nr_pt_frames * PAGE_SIZE);
1889
1890         return initial_page_table;
1891 }
1892 #endif  /* CONFIG_X86_64 */
1893
1894 static unsigned char dummy_mapping[PAGE_SIZE] __page_aligned_bss;
1895
1896 static void xen_set_fixmap(unsigned idx, phys_addr_t phys, pgprot_t prot)
1897 {
1898         pte_t pte;
1899
1900         phys >>= PAGE_SHIFT;
1901
1902         switch (idx) {
1903         case FIX_BTMAP_END ... FIX_BTMAP_BEGIN:
1904 #ifdef CONFIG_X86_F00F_BUG
1905         case FIX_F00F_IDT:
1906 #endif
1907 #ifdef CONFIG_X86_32
1908         case FIX_WP_TEST:
1909         case FIX_VDSO:
1910 # ifdef CONFIG_HIGHMEM
1911         case FIX_KMAP_BEGIN ... FIX_KMAP_END:
1912 # endif
1913 #else
1914         case VSYSCALL_LAST_PAGE ... VSYSCALL_FIRST_PAGE:
1915         case VVAR_PAGE:
1916 #endif
1917         case FIX_TEXT_POKE0:
1918         case FIX_TEXT_POKE1:
1919                 /* All local page mappings */
1920                 pte = pfn_pte(phys, prot);
1921                 break;
1922
1923 #ifdef CONFIG_X86_LOCAL_APIC
1924         case FIX_APIC_BASE:     /* maps dummy local APIC */
1925                 pte = pfn_pte(PFN_DOWN(__pa(dummy_mapping)), PAGE_KERNEL);
1926                 break;
1927 #endif
1928
1929 #ifdef CONFIG_X86_IO_APIC
1930         case FIX_IO_APIC_BASE_0 ... FIX_IO_APIC_BASE_END:
1931                 /*
1932                  * We just don't map the IO APIC - all access is via
1933                  * hypercalls.  Keep the address in the pte for reference.
1934                  */
1935                 pte = pfn_pte(PFN_DOWN(__pa(dummy_mapping)), PAGE_KERNEL);
1936                 break;
1937 #endif
1938
1939         case FIX_PARAVIRT_BOOTMAP:
1940                 /* This is an MFN, but it isn't an IO mapping from the
1941                    IO domain */
1942                 pte = mfn_pte(phys, prot);
1943                 break;
1944
1945         default:
1946                 /* By default, set_fixmap is used for hardware mappings */
1947                 pte = mfn_pte(phys, __pgprot(pgprot_val(prot) | _PAGE_IOMAP));
1948                 break;
1949         }
1950
1951         __native_set_fixmap(idx, pte);
1952
1953 #ifdef CONFIG_X86_64
1954         /* Replicate changes to map the vsyscall page into the user
1955            pagetable vsyscall mapping. */
1956         if ((idx >= VSYSCALL_LAST_PAGE && idx <= VSYSCALL_FIRST_PAGE) ||
1957             idx == VVAR_PAGE) {
1958                 unsigned long vaddr = __fix_to_virt(idx);
1959                 set_pte_vaddr_pud(level3_user_vsyscall, vaddr, pte);
1960         }
1961 #endif
1962 }
1963
1964 static void __init xen_post_allocator_init(void)
1965 {
1966         pv_mmu_ops.set_pte = xen_set_pte;
1967         pv_mmu_ops.set_pmd = xen_set_pmd;
1968         pv_mmu_ops.set_pud = xen_set_pud;
1969 #if PAGETABLE_LEVELS == 4
1970         pv_mmu_ops.set_pgd = xen_set_pgd;
1971 #endif
1972
1973         /* This will work as long as patching hasn't happened yet
1974            (which it hasn't) */
1975         pv_mmu_ops.alloc_pte = xen_alloc_pte;
1976         pv_mmu_ops.alloc_pmd = xen_alloc_pmd;
1977         pv_mmu_ops.release_pte = xen_release_pte;
1978         pv_mmu_ops.release_pmd = xen_release_pmd;
1979 #if PAGETABLE_LEVELS == 4
1980         pv_mmu_ops.alloc_pud = xen_alloc_pud;
1981         pv_mmu_ops.release_pud = xen_release_pud;
1982 #endif
1983
1984 #ifdef CONFIG_X86_64
1985         SetPagePinned(virt_to_page(level3_user_vsyscall));
1986 #endif
1987         xen_mark_init_mm_pinned();
1988 }
1989
1990 static void xen_leave_lazy_mmu(void)
1991 {
1992         preempt_disable();
1993         xen_mc_flush();
1994         paravirt_leave_lazy_mmu();
1995         preempt_enable();
1996 }
1997
1998 static const struct pv_mmu_ops xen_mmu_ops __initconst = {
1999         .read_cr2 = xen_read_cr2,
2000         .write_cr2 = xen_write_cr2,
2001
2002         .read_cr3 = xen_read_cr3,
2003 #ifdef CONFIG_X86_32
2004         .write_cr3 = xen_write_cr3_init,
2005 #else
2006         .write_cr3 = xen_write_cr3,
2007 #endif
2008
2009         .flush_tlb_user = xen_flush_tlb,
2010         .flush_tlb_kernel = xen_flush_tlb,
2011         .flush_tlb_single = xen_flush_tlb_single,
2012         .flush_tlb_others = xen_flush_tlb_others,
2013
2014         .pte_update = paravirt_nop,
2015         .pte_update_defer = paravirt_nop,
2016
2017         .pgd_alloc = xen_pgd_alloc,
2018         .pgd_free = xen_pgd_free,
2019
2020         .alloc_pte = xen_alloc_pte_init,
2021         .release_pte = xen_release_pte_init,
2022         .alloc_pmd = xen_alloc_pmd_init,
2023         .release_pmd = xen_release_pmd_init,
2024
2025         .set_pte = xen_set_pte_init,
2026         .set_pte_at = xen_set_pte_at,
2027         .set_pmd = xen_set_pmd_hyper,
2028
2029         .ptep_modify_prot_start = __ptep_modify_prot_start,
2030         .ptep_modify_prot_commit = __ptep_modify_prot_commit,
2031
2032         .pte_val = PV_CALLEE_SAVE(xen_pte_val),
2033         .pgd_val = PV_CALLEE_SAVE(xen_pgd_val),
2034
2035         .make_pte = PV_CALLEE_SAVE(xen_make_pte),
2036         .make_pgd = PV_CALLEE_SAVE(xen_make_pgd),
2037
2038 #ifdef CONFIG_X86_PAE
2039         .set_pte_atomic = xen_set_pte_atomic,
2040         .pte_clear = xen_pte_clear,
2041         .pmd_clear = xen_pmd_clear,
2042 #endif  /* CONFIG_X86_PAE */
2043         .set_pud = xen_set_pud_hyper,
2044
2045         .make_pmd = PV_CALLEE_SAVE(xen_make_pmd),
2046         .pmd_val = PV_CALLEE_SAVE(xen_pmd_val),
2047
2048 #if PAGETABLE_LEVELS == 4
2049         .pud_val = PV_CALLEE_SAVE(xen_pud_val),
2050         .make_pud = PV_CALLEE_SAVE(xen_make_pud),
2051         .set_pgd = xen_set_pgd_hyper,
2052
2053         .alloc_pud = xen_alloc_pmd_init,
2054         .release_pud = xen_release_pmd_init,
2055 #endif  /* PAGETABLE_LEVELS == 4 */
2056
2057         .activate_mm = xen_activate_mm,
2058         .dup_mmap = xen_dup_mmap,
2059         .exit_mmap = xen_exit_mmap,
2060
2061         .lazy_mode = {
2062                 .enter = paravirt_enter_lazy_mmu,
2063                 .leave = xen_leave_lazy_mmu,
2064         },
2065
2066         .set_fixmap = xen_set_fixmap,
2067 };
2068
2069 void __init xen_init_mmu_ops(void)
2070 {
2071         x86_init.mapping.pagetable_reserve = xen_mapping_pagetable_reserve;
2072         x86_init.paging.pagetable_init = xen_pagetable_init;
2073         x86_init.paging.pagetable_setup_done = xen_pagetable_setup_done;
2074         pv_mmu_ops = xen_mmu_ops;
2075
2076         memset(dummy_mapping, 0xff, PAGE_SIZE);
2077 }
2078
2079 /* Protected by xen_reservation_lock. */
2080 #define MAX_CONTIG_ORDER 9 /* 2MB */
2081 static unsigned long discontig_frames[1<<MAX_CONTIG_ORDER];
2082
2083 #define VOID_PTE (mfn_pte(0, __pgprot(0)))
2084 static void xen_zap_pfn_range(unsigned long vaddr, unsigned int order,
2085                                 unsigned long *in_frames,
2086                                 unsigned long *out_frames)
2087 {
2088         int i;
2089         struct multicall_space mcs;
2090
2091         xen_mc_batch();
2092         for (i = 0; i < (1UL<<order); i++, vaddr += PAGE_SIZE) {
2093                 mcs = __xen_mc_entry(0);
2094
2095                 if (in_frames)
2096                         in_frames[i] = virt_to_mfn(vaddr);
2097
2098                 MULTI_update_va_mapping(mcs.mc, vaddr, VOID_PTE, 0);
2099                 __set_phys_to_machine(virt_to_pfn(vaddr), INVALID_P2M_ENTRY);
2100
2101                 if (out_frames)
2102                         out_frames[i] = virt_to_pfn(vaddr);
2103         }
2104         xen_mc_issue(0);
2105 }
2106
2107 /*
2108  * Update the pfn-to-mfn mappings for a virtual address range, either to
2109  * point to an array of mfns, or contiguously from a single starting
2110  * mfn.
2111  */
2112 static void xen_remap_exchanged_ptes(unsigned long vaddr, int order,
2113                                      unsigned long *mfns,
2114                                      unsigned long first_mfn)
2115 {
2116         unsigned i, limit;
2117         unsigned long mfn;
2118
2119         xen_mc_batch();
2120
2121         limit = 1u << order;
2122         for (i = 0; i < limit; i++, vaddr += PAGE_SIZE) {
2123                 struct multicall_space mcs;
2124                 unsigned flags;
2125
2126                 mcs = __xen_mc_entry(0);
2127                 if (mfns)
2128                         mfn = mfns[i];
2129                 else
2130                         mfn = first_mfn + i;
2131
2132                 if (i < (limit - 1))
2133                         flags = 0;
2134                 else {
2135                         if (order == 0)
2136                                 flags = UVMF_INVLPG | UVMF_ALL;
2137                         else
2138                                 flags = UVMF_TLB_FLUSH | UVMF_ALL;
2139                 }
2140
2141                 MULTI_update_va_mapping(mcs.mc, vaddr,
2142                                 mfn_pte(mfn, PAGE_KERNEL), flags);
2143
2144                 set_phys_to_machine(virt_to_pfn(vaddr), mfn);
2145         }
2146
2147         xen_mc_issue(0);
2148 }
2149
2150 /*
2151  * Perform the hypercall to exchange a region of our pfns to point to
2152  * memory with the required contiguous alignment.  Takes the pfns as
2153  * input, and populates mfns as output.
2154  *
2155  * Returns a success code indicating whether the hypervisor was able to
2156  * satisfy the request or not.
2157  */
2158 static int xen_exchange_memory(unsigned long extents_in, unsigned int order_in,
2159                                unsigned long *pfns_in,
2160                                unsigned long extents_out,
2161                                unsigned int order_out,
2162                                unsigned long *mfns_out,
2163                                unsigned int address_bits)
2164 {
2165         long rc;
2166         int success;
2167
2168         struct xen_memory_exchange exchange = {
2169                 .in = {
2170                         .nr_extents   = extents_in,
2171                         .extent_order = order_in,
2172                         .extent_start = pfns_in,
2173                         .domid        = DOMID_SELF
2174                 },
2175                 .out = {
2176                         .nr_extents   = extents_out,
2177                         .extent_order = order_out,
2178                         .extent_start = mfns_out,
2179                         .address_bits = address_bits,
2180                         .domid        = DOMID_SELF
2181                 }
2182         };
2183
2184         BUG_ON(extents_in << order_in != extents_out << order_out);
2185
2186         rc = HYPERVISOR_memory_op(XENMEM_exchange, &exchange);
2187         success = (exchange.nr_exchanged == extents_in);
2188
2189         BUG_ON(!success && ((exchange.nr_exchanged != 0) || (rc == 0)));
2190         BUG_ON(success && (rc != 0));
2191
2192         return success;
2193 }
2194
2195 int xen_create_contiguous_region(unsigned long vstart, unsigned int order,
2196                                  unsigned int address_bits)
2197 {
2198         unsigned long *in_frames = discontig_frames, out_frame;
2199         unsigned long  flags;
2200         int            success;
2201
2202         /*
2203          * Currently an auto-translated guest will not perform I/O, nor will
2204          * it require PAE page directories below 4GB. Therefore any calls to
2205          * this function are redundant and can be ignored.
2206          */
2207
2208         if (xen_feature(XENFEAT_auto_translated_physmap))
2209                 return 0;
2210
2211         if (unlikely(order > MAX_CONTIG_ORDER))
2212                 return -ENOMEM;
2213
2214         memset((void *) vstart, 0, PAGE_SIZE << order);
2215
2216         spin_lock_irqsave(&xen_reservation_lock, flags);
2217
2218         /* 1. Zap current PTEs, remembering MFNs. */
2219         xen_zap_pfn_range(vstart, order, in_frames, NULL);
2220
2221         /* 2. Get a new contiguous memory extent. */
2222         out_frame = virt_to_pfn(vstart);
2223         success = xen_exchange_memory(1UL << order, 0, in_frames,
2224                                       1, order, &out_frame,
2225                                       address_bits);
2226
2227         /* 3. Map the new extent in place of old pages. */
2228         if (success)
2229                 xen_remap_exchanged_ptes(vstart, order, NULL, out_frame);
2230         else
2231                 xen_remap_exchanged_ptes(vstart, order, in_frames, 0);
2232
2233         spin_unlock_irqrestore(&xen_reservation_lock, flags);
2234
2235         return success ? 0 : -ENOMEM;
2236 }
2237 EXPORT_SYMBOL_GPL(xen_create_contiguous_region);
2238
2239 void xen_destroy_contiguous_region(unsigned long vstart, unsigned int order)
2240 {
2241         unsigned long *out_frames = discontig_frames, in_frame;
2242         unsigned long  flags;
2243         int success;
2244
2245         if (xen_feature(XENFEAT_auto_translated_physmap))
2246                 return;
2247
2248         if (unlikely(order > MAX_CONTIG_ORDER))
2249                 return;
2250
2251         memset((void *) vstart, 0, PAGE_SIZE << order);
2252
2253         spin_lock_irqsave(&xen_reservation_lock, flags);
2254
2255         /* 1. Find start MFN of contiguous extent. */
2256         in_frame = virt_to_mfn(vstart);
2257
2258         /* 2. Zap current PTEs. */
2259         xen_zap_pfn_range(vstart, order, NULL, out_frames);
2260
2261         /* 3. Do the exchange for non-contiguous MFNs. */
2262         success = xen_exchange_memory(1, order, &in_frame, 1UL << order,
2263                                         0, out_frames, 0);
2264
2265         /* 4. Map new pages in place of old pages. */
2266         if (success)
2267                 xen_remap_exchanged_ptes(vstart, order, out_frames, 0);
2268         else
2269                 xen_remap_exchanged_ptes(vstart, order, NULL, in_frame);
2270
2271         spin_unlock_irqrestore(&xen_reservation_lock, flags);
2272 }
2273 EXPORT_SYMBOL_GPL(xen_destroy_contiguous_region);
2274
2275 #ifdef CONFIG_XEN_PVHVM
2276 static void xen_hvm_exit_mmap(struct mm_struct *mm)
2277 {
2278         struct xen_hvm_pagetable_dying a;
2279         int rc;
2280
2281         a.domid = DOMID_SELF;
2282         a.gpa = __pa(mm->pgd);
2283         rc = HYPERVISOR_hvm_op(HVMOP_pagetable_dying, &a);
2284         WARN_ON_ONCE(rc < 0);
2285 }
2286
2287 static int is_pagetable_dying_supported(void)
2288 {
2289         struct xen_hvm_pagetable_dying a;
2290         int rc = 0;
2291
2292         a.domid = DOMID_SELF;
2293         a.gpa = 0x00;
2294         rc = HYPERVISOR_hvm_op(HVMOP_pagetable_dying, &a);
2295         if (rc < 0) {
2296                 printk(KERN_DEBUG "HVMOP_pagetable_dying not supported\n");
2297                 return 0;
2298         }
2299         return 1;
2300 }
2301
2302 void __init xen_hvm_init_mmu_ops(void)
2303 {
2304         if (is_pagetable_dying_supported())
2305                 pv_mmu_ops.exit_mmap = xen_hvm_exit_mmap;
2306 }
2307 #endif
2308
2309 #define REMAP_BATCH_SIZE 16
2310
2311 struct remap_data {
2312         unsigned long mfn;
2313         pgprot_t prot;
2314         struct mmu_update *mmu_update;
2315 };
2316
2317 static int remap_area_mfn_pte_fn(pte_t *ptep, pgtable_t token,
2318                                  unsigned long addr, void *data)
2319 {
2320         struct remap_data *rmd = data;
2321         pte_t pte = pte_mkspecial(pfn_pte(rmd->mfn++, rmd->prot));
2322
2323         rmd->mmu_update->ptr = virt_to_machine(ptep).maddr;
2324         rmd->mmu_update->val = pte_val_ma(pte);
2325         rmd->mmu_update++;
2326
2327         return 0;
2328 }
2329
2330 int xen_remap_domain_mfn_range(struct vm_area_struct *vma,
2331                                unsigned long addr,
2332                                unsigned long mfn, int nr,
2333                                pgprot_t prot, unsigned domid)
2334 {
2335         struct remap_data rmd;
2336         struct mmu_update mmu_update[REMAP_BATCH_SIZE];
2337         int batch;
2338         unsigned long range;
2339         int err = 0;
2340
2341         prot = __pgprot(pgprot_val(prot) | _PAGE_IOMAP);
2342
2343         BUG_ON(!((vma->vm_flags & (VM_PFNMAP | VM_RESERVED | VM_IO)) ==
2344                                 (VM_PFNMAP | VM_RESERVED | VM_IO)));
2345
2346         rmd.mfn = mfn;
2347         rmd.prot = prot;
2348
2349         while (nr) {
2350                 batch = min(REMAP_BATCH_SIZE, nr);
2351                 range = (unsigned long)batch << PAGE_SHIFT;
2352
2353                 rmd.mmu_update = mmu_update;
2354                 err = apply_to_page_range(vma->vm_mm, addr, range,
2355                                           remap_area_mfn_pte_fn, &rmd);
2356                 if (err)
2357                         goto out;
2358
2359                 err = -EFAULT;
2360                 if (HYPERVISOR_mmu_update(mmu_update, batch, NULL, domid) < 0)
2361                         goto out;
2362
2363                 nr -= batch;
2364                 addr += range;
2365         }
2366
2367         err = 0;
2368 out:
2369
2370         flush_tlb_all();
2371
2372         return err;
2373 }
2374 EXPORT_SYMBOL_GPL(xen_remap_domain_mfn_range);