[deliverable/linux.git] / arch / powerpc / mm / init_64.c

/*
 *  PowerPC version
 *    Copyright (C) 1995-1996 Gary Thomas (gdt@linuxppc.org)
 *
 *  Modifications by Paul Mackerras (PowerMac) (paulus@cs.anu.edu.au)
 *  and Cort Dougan (PReP) (cort@cs.nmt.edu)
 *    Copyright (C) 1996 Paul Mackerras
 *
 *  Derived from "arch/i386/mm/init.c"
 *    Copyright (C) 1991, 1992, 1993, 1994  Linus Torvalds
 *
 *  Dave Engebretsen <engebret@us.ibm.com>
 *      Rework for PPC64 port.
 *
 *  This program is free software; you can redistribute it and/or
 *  modify it under the terms of the GNU General Public License
 *  as published by the Free Software Foundation; either version
 *  2 of the License, or (at your option) any later version.
 *
 */

#undef DEBUG

#include <linux/signal.h>
#include <linux/sched.h>
#include <linux/kernel.h>
#include <linux/errno.h>
#include <linux/string.h>
#include <linux/types.h>
#include <linux/mman.h>
#include <linux/mm.h>
#include <linux/swap.h>
#include <linux/stddef.h>
#include <linux/vmalloc.h>
#include <linux/init.h>
#include <linux/delay.h>
#include <linux/highmem.h>
#include <linux/idr.h>
#include <linux/nodemask.h>
#include <linux/module.h>
#include <linux/poison.h>
#include <linux/memblock.h>
#include <linux/hugetlb.h>
#include <linux/slab.h>

#include <asm/pgalloc.h>
#include <asm/page.h>
#include <asm/prom.h>
#include <asm/rtas.h>
#include <asm/io.h>
#include <asm/mmu_context.h>
#include <asm/pgtable.h>
#include <asm/mmu.h>
#include <asm/uaccess.h>
#include <asm/smp.h>
#include <asm/machdep.h>
#include <asm/tlb.h>
#include <asm/eeh.h>
#include <asm/processor.h>
#include <asm/mmzone.h>
#include <asm/cputable.h>
#include <asm/sections.h>
#include <asm/iommu.h>
#include <asm/vdso.h>

#include "mmu_decl.h"

#ifdef CONFIG_PPC_STD_MMU_64
#if PGTABLE_RANGE > USER_VSID_RANGE
#warning Limited user VSID range means pagetable space is wasted
#endif

#if (TASK_SIZE_USER64 < PGTABLE_RANGE) && (TASK_SIZE_USER64 < USER_VSID_RANGE)
#warning TASK_SIZE is smaller than it needs to be.
#endif
#endif /* CONFIG_PPC_STD_MMU_64 */

phys_addr_t memstart_addr = ~0;
EXPORT_SYMBOL_GPL(memstart_addr);
phys_addr_t kernstart_addr;
EXPORT_SYMBOL_GPL(kernstart_addr);

static void pgd_ctor(void *addr)
{
	memset(addr, 0, PGD_TABLE_SIZE);
}

static void pmd_ctor(void *addr)
{
#ifdef CONFIG_TRANSPARENT_HUGEPAGE
	memset(addr, 0, PMD_TABLE_SIZE * 2);
#else
	memset(addr, 0, PMD_TABLE_SIZE);
#endif
}

struct kmem_cache *pgtable_cache[MAX_PGTABLE_INDEX_SIZE];

/*
 * Create a kmem_cache() for pagetables.  This is not used for PTE
 * pages - they're linked to struct page, come from the normal free
 * pages pool and have a different entry size (see real_pte_t) to
 * everything else.  Caches created by this function are used for all
 * the higher level pagetables, and for hugepage pagetables.
 */
void pgtable_cache_add(unsigned shift, void (*ctor)(void *))
{
	char *name;
	unsigned long table_size = sizeof(void *) << shift;
	unsigned long align = table_size;

	/* When batching pgtable pointers for RCU freeing, we store
	 * the index size in the low bits.  Table alignment must be
	 * big enough to fit it.
	 *
	 * Likewise, hugeapge pagetable pointers contain a (different)
	 * shift value in the low bits.  All tables must be aligned so
	 * as to leave enough 0 bits in the address to contain it. */
	unsigned long minalign = max(MAX_PGTABLE_INDEX_SIZE + 1,
				     HUGEPD_SHIFT_MASK + 1);
	struct kmem_cache *new;

	/* It would be nice if this was a BUILD_BUG_ON(), but at the
	 * moment, gcc doesn't seem to recognize is_power_of_2 as a
	 * constant expression, so so much for that. */
	BUG_ON(!is_power_of_2(minalign));
	BUG_ON((shift < 1) || (shift > MAX_PGTABLE_INDEX_SIZE));

	if (PGT_CACHE(shift))
		return; /* Already have a cache of this size */

	align = max_t(unsigned long, align, minalign);
	name = kasprintf(GFP_KERNEL, "pgtable-2^%d", shift);
	new = kmem_cache_create(name, table_size, align, 0, ctor);
	kfree(name);
	pgtable_cache[shift - 1] = new;
	pr_debug("Allocated pgtable cache for order %d\n", shift);
}


void pgtable_cache_init(void)
{
	pgtable_cache_add(PGD_INDEX_SIZE, pgd_ctor);
	pgtable_cache_add(PMD_CACHE_INDEX, pmd_ctor);
	if (!PGT_CACHE(PGD_INDEX_SIZE) || !PGT_CACHE(PMD_CACHE_INDEX))
		panic("Couldn't allocate pgtable caches");
	/* In all current configs, when the PUD index exists it's the
	 * same size as either the pgd or pmd index.  Verify that the
	 * initialization above has also created a PUD cache.  This
	 * will need re-examiniation if we add new possibilities for
	 * the pagetable layout. */
	BUG_ON(PUD_INDEX_SIZE && !PGT_CACHE(PUD_INDEX_SIZE));
}

#ifdef CONFIG_SPARSEMEM_VMEMMAP
/*
 * Given an address within the vmemmap, determine the pfn of the page that
 * represents the start of the section it is within.  Note that we have to
 * do this by hand as the proffered address may not be correctly aligned.
 * Subtraction of non-aligned pointers produces undefined results.
 */
static unsigned long __meminit vmemmap_section_start(unsigned long page)
{
	unsigned long offset = page - ((unsigned long)(vmemmap));

	/* Return the pfn of the start of the section. */
	return (offset / sizeof(struct page)) & PAGE_SECTION_MASK;
}

/*
 * Check if this vmemmap page is already initialised.  If any section
 * which overlaps this vmemmap page is initialised then this page is
 * initialised already.
 */
static int __meminit vmemmap_populated(unsigned long start, int page_size)
{
	unsigned long end = start + page_size;
	start = (unsigned long)(pfn_to_page(vmemmap_section_start(start)));

	for (; start < end; start += (PAGES_PER_SECTION * sizeof(struct page)))
		if (pfn_valid(page_to_pfn((struct page *)start)))
			return 1;

	return 0;
}

/* On hash-based CPUs, the vmemmap is bolted in the hash table.
 *
 * On Book3E CPUs, the vmemmap is currently mapped in the top half of
 * the vmalloc space using normal page tables, though the size of
 * pages encoded in the PTEs can be different
 */

#ifdef CONFIG_PPC_BOOK3E
static void __meminit vmemmap_create_mapping(unsigned long start,
					     unsigned long page_size,
					     unsigned long phys)
{
	/* Create a PTE encoding without page size */
	unsigned long i, flags = _PAGE_PRESENT | _PAGE_ACCESSED |
		_PAGE_KERNEL_RW;

	/* PTEs only contain page size encodings up to 32M */
	BUG_ON(mmu_psize_defs[mmu_vmemmap_psize].enc > 0xf);

	/* Encode the size in the PTE */
	flags |= mmu_psize_defs[mmu_vmemmap_psize].enc << 8;

	/* For each PTE for that area, map things. Note that we don't
	 * increment phys because all PTEs are of the large size and
	 * thus must have the low bits clear
	 */
	for (i = 0; i < page_size; i += PAGE_SIZE)
		BUG_ON(map_kernel_page(start + i, phys, flags));
}

#ifdef CONFIG_MEMORY_HOTPLUG
static void vmemmap_remove_mapping(unsigned long start,
				   unsigned long page_size)
{
}
#endif
#else /* CONFIG_PPC_BOOK3E */
static void __meminit vmemmap_create_mapping(unsigned long start,
					     unsigned long page_size,
					     unsigned long phys)
{
	int  mapped = htab_bolt_mapping(start, start + page_size, phys,
					pgprot_val(PAGE_KERNEL),
					mmu_vmemmap_psize,
					mmu_kernel_ssize);
	BUG_ON(mapped < 0);
}

#ifdef CONFIG_MEMORY_HOTPLUG
static void vmemmap_remove_mapping(unsigned long start,
				   unsigned long page_size)
{
	int mapped = htab_remove_mapping(start, start + page_size,
					 mmu_vmemmap_psize,
					 mmu_kernel_ssize);
	BUG_ON(mapped < 0);
}
#endif

#endif /* CONFIG_PPC_BOOK3E */

struct vmemmap_backing *vmemmap_list;
static struct vmemmap_backing *next;
static int num_left;
static int num_freed;

static __meminit struct vmemmap_backing * vmemmap_list_alloc(int node)
{
	struct vmemmap_backing *vmem_back;
	/* get from freed entries first */
	if (num_freed) {
		num_freed--;
		vmem_back = next;
		next = next->list;

		return vmem_back;
	}

	/* allocate a page when required and hand out chunks */
	if (!num_left) {
		next = vmemmap_alloc_block(PAGE_SIZE, node);
		if (unlikely(!next)) {
			WARN_ON(1);
			return NULL;
		}
		num_left = PAGE_SIZE / sizeof(struct vmemmap_backing);
	}

	num_left--;

	return next++;
}

static __meminit void vmemmap_list_populate(unsigned long phys,
					    unsigned long start,
					    int node)
{
	struct vmemmap_backing *vmem_back;

	vmem_back = vmemmap_list_alloc(node);
	if (unlikely(!vmem_back)) {
		WARN_ON(1);
		return;
	}

	vmem_back->phys = phys;
	vmem_back->virt_addr = start;
	vmem_back->list = vmemmap_list;

	vmemmap_list = vmem_back;
}

int __meminit vmemmap_populate(unsigned long start, unsigned long end, int node)
{
	unsigned long page_size = 1 << mmu_psize_defs[mmu_vmemmap_psize].shift;

	/* Align to the page size of the linear mapping. */
	start = _ALIGN_DOWN(start, page_size);

	pr_debug("vmemmap_populate %lx..%lx, node %d\n", start, end, node);

	for (; start < end; start += page_size) {
		void *p;

		if (vmemmap_populated(start, page_size))
			continue;

		p = vmemmap_alloc_block(page_size, node);
		if (!p)
			return -ENOMEM;

		vmemmap_list_populate(__pa(p), start, node);

		pr_debug("      * %016lx..%016lx allocated at %p\n",
			 start, start + page_size, p);

		vmemmap_create_mapping(start, page_size, __pa(p));
	}

	return 0;
}

#ifdef CONFIG_MEMORY_HOTPLUG
static unsigned long vmemmap_list_free(unsigned long start)
{
	struct vmemmap_backing *vmem_back, *vmem_back_prev;

	vmem_back_prev = vmem_back = vmemmap_list;

	/* look for it with prev pointer recorded */
	for (; vmem_back; vmem_back = vmem_back->list) {
		if (vmem_back->virt_addr == start)
			break;
		vmem_back_prev = vmem_back;
	}

	if (unlikely(!vmem_back)) {
		WARN_ON(1);
		return 0;
	}

	/* remove it from vmemmap_list */
	if (vmem_back == vmemmap_list) /* remove head */
		vmemmap_list = vmem_back->list;
	else
		vmem_back_prev->list = vmem_back->list;

	/* next point to this freed entry */
	vmem_back->list = next;
	next = vmem_back;
	num_freed++;

	return vmem_back->phys;
}

void __ref vmemmap_free(unsigned long start, unsigned long end)
{
	unsigned long page_size = 1 << mmu_psize_defs[mmu_vmemmap_psize].shift;

	start = _ALIGN_DOWN(start, page_size);

	pr_debug("vmemmap_free %lx...%lx\n", start, end);

	for (; start < end; start += page_size) {
		unsigned long addr;

		/*
		 * the section has already be marked as invalid, so
		 * vmemmap_populated() true means some other sections still
		 * in this page, so skip it.
		 */
		if (vmemmap_populated(start, page_size))
			continue;

		addr = vmemmap_list_free(start);
		if (addr) {
			struct page *page = pfn_to_page(addr >> PAGE_SHIFT);

			if (PageReserved(page)) {
				/* allocated from bootmem */
				if (page_size < PAGE_SIZE) {
					/*
					 * this shouldn't happen, but if it is
					 * the case, leave the memory there
					 */
					WARN_ON_ONCE(1);
				} else {
					unsigned int nr_pages =
						1 << get_order(page_size);
					while (nr_pages--)
						free_reserved_page(page++);
				}
			} else
				free_pages((unsigned long)(__va(addr)),
							get_order(page_size));

			vmemmap_remove_mapping(start, page_size);
		}
	}
}
#endif
void register_page_bootmem_memmap(unsigned long section_nr,
				  struct page *start_page, unsigned long size)
{
}

/*
 * We do not have access to the sparsemem vmemmap, so we fallback to
 * walking the list of sparsemem blocks which we already maintain for
 * the sake of crashdump. In the long run, we might want to maintain
 * a tree if performance of that linear walk becomes a problem.
 *
 * realmode_pfn_to_page functions can fail due to:
 * 1) As real sparsemem blocks do not lay in RAM continously (they
 * are in virtual address space which is not available in the real mode),
 * the requested page struct can be split between blocks so get_page/put_page
 * may fail.
 * 2) When huge pages are used, the get_page/put_page API will fail
 * in real mode as the linked addresses in the page struct are virtual
 * too.
 */
struct page *realmode_pfn_to_page(unsigned long pfn)
{
	struct vmemmap_backing *vmem_back;
	struct page *page;
	unsigned long page_size = 1 << mmu_psize_defs[mmu_vmemmap_psize].shift;
	unsigned long pg_va = (unsigned long) pfn_to_page(pfn);

	for (vmem_back = vmemmap_list; vmem_back; vmem_back = vmem_back->list) {
		if (pg_va < vmem_back->virt_addr)
			continue;

		/* After vmemmap_list entry free is possible, need check all */
		if ((pg_va + sizeof(struct page)) <=
				(vmem_back->virt_addr + page_size)) {
			page = (struct page *) (vmem_back->phys + pg_va -
				vmem_back->virt_addr);
			return page;
		}
	}

	/* Probably that page struct is split between real pages */
	return NULL;
}
EXPORT_SYMBOL_GPL(realmode_pfn_to_page);

#elif defined(CONFIG_FLATMEM)

struct page *realmode_pfn_to_page(unsigned long pfn)
{
	struct page *page = pfn_to_page(pfn);
	return page;
}
EXPORT_SYMBOL_GPL(realmode_pfn_to_page);

#endif /* CONFIG_SPARSEMEM_VMEMMAP/CONFIG_FLATMEM */
Commit	Line	Data
14cf11af PM	1	/*
	2	* PowerPC version
	3	* Copyright (C) 1995-1996 Gary Thomas (gdt@linuxppc.org)
	4	*
	5	* Modifications by Paul Mackerras (PowerMac) (paulus@cs.anu.edu.au)
	6	* and Cort Dougan (PReP) (cort@cs.nmt.edu)
	7	* Copyright (C) 1996 Paul Mackerras
14cf11af PM	8	*
	9	* Derived from "arch/i386/mm/init.c"
	10	* Copyright (C) 1991, 1992, 1993, 1994 Linus Torvalds
	11	*
	12	* Dave Engebretsen <engebret@us.ibm.com>
	13	* Rework for PPC64 port.
	14	*
	15	* This program is free software; you can redistribute it and/or
	16	* modify it under the terms of the GNU General Public License
	17	* as published by the Free Software Foundation; either version
	18	* 2 of the License, or (at your option) any later version.
	19	*
	20	*/
	21
cec08e7a BH	22	#undef DEBUG
cec08e7a BH	23
14cf11af PM	24	#include <linux/signal.h>
	25	#include <linux/sched.h>
	26	#include <linux/kernel.h>
	27	#include <linux/errno.h>
	28	#include <linux/string.h>
	29	#include <linux/types.h>
	30	#include <linux/mman.h>
	31	#include <linux/mm.h>
	32	#include <linux/swap.h>
	33	#include <linux/stddef.h>
	34	#include <linux/vmalloc.h>
	35	#include <linux/init.h>
	36	#include <linux/delay.h>
14cf11af PM	37	#include <linux/highmem.h>
	38	#include <linux/idr.h>
	39	#include <linux/nodemask.h>
	40	#include <linux/module.h>
c9cf5528	41	#include <linux/poison.h>
95f72d1e	42	#include <linux/memblock.h>
a4fe3ce7	43	#include <linux/hugetlb.h>
5a0e3ad6	44	#include <linux/slab.h>
14cf11af PM	45
	46	#include <asm/pgalloc.h>
	47	#include <asm/page.h>
	48	#include <asm/prom.h>
14cf11af PM	49	#include <asm/rtas.h>
	50	#include <asm/io.h>
	51	#include <asm/mmu_context.h>
	52	#include <asm/pgtable.h>
	53	#include <asm/mmu.h>
	54	#include <asm/uaccess.h>
	55	#include <asm/smp.h>
	56	#include <asm/machdep.h>
	57	#include <asm/tlb.h>
	58	#include <asm/eeh.h>
	59	#include <asm/processor.h>
	60	#include <asm/mmzone.h>
	61	#include <asm/cputable.h>
14cf11af	62	#include <asm/sections.h>
14cf11af	63	#include <asm/iommu.h>
14cf11af	64	#include <asm/vdso.h>
800fc3ee DG	65
800fc3ee DG	66	#include "mmu_decl.h"
14cf11af	67
94491685	68	#ifdef CONFIG_PPC_STD_MMU_64
14cf11af PM	69	#if PGTABLE_RANGE > USER_VSID_RANGE
	70	#warning Limited user VSID range means pagetable space is wasted
	71	#endif
	72
	73	#if (TASK_SIZE_USER64 < PGTABLE_RANGE) && (TASK_SIZE_USER64 < USER_VSID_RANGE)
	74	#warning TASK_SIZE is smaller than it needs to be.
	75	#endif
94491685	76	#endif /* CONFIG_PPC_STD_MMU_64 */
14cf11af	77
37dd2bad	78	phys_addr_t memstart_addr = ~0;
79c3095f	79	EXPORT_SYMBOL_GPL(memstart_addr);
37dd2bad	80	phys_addr_t kernstart_addr;
79c3095f	81	EXPORT_SYMBOL_GPL(kernstart_addr);
d7917ba7	82
51cc5068	83	static void pgd_ctor(void *addr)
14cf11af	84	{
51cc5068 AD	85	memset(addr, 0, PGD_TABLE_SIZE);
	86	}
	87
	88	static void pmd_ctor(void *addr)
	89	{
f940f528 AK	90	#ifdef CONFIG_TRANSPARENT_HUGEPAGE
	91	memset(addr, 0, PMD_TABLE_SIZE * 2);
	92	#else
51cc5068	93	memset(addr, 0, PMD_TABLE_SIZE);
f940f528	94	#endif
14cf11af PM	95	}
14cf11af PM	96
a0668cdc DG	97	struct kmem_cache *pgtable_cache[MAX_PGTABLE_INDEX_SIZE];
	98
	99	/*
	100	* Create a kmem_cache() for pagetables. This is not used for PTE
	101	* pages - they're linked to struct page, come from the normal free
	102	* pages pool and have a different entry size (see real_pte_t) to
	103	* everything else. Caches created by this function are used for all
	104	* the higher level pagetables, and for hugepage pagetables.
	105	*/
	106	void pgtable_cache_add(unsigned shift, void (ctor)(void ))
	107	{
	108	char *name;
	109	unsigned long table_size = sizeof(void *) << shift;
	110	unsigned long align = table_size;
	111
	112	/* When batching pgtable pointers for RCU freeing, we store
	113	* the index size in the low bits. Table alignment must be
a4fe3ce7 DG	114	* big enough to fit it.
	115	*
	116	* Likewise, hugeapge pagetable pointers contain a (different)
	117	* shift value in the low bits. All tables must be aligned so
	118	* as to leave enough 0 bits in the address to contain it. */
	119	unsigned long minalign = max(MAX_PGTABLE_INDEX_SIZE + 1,
	120	HUGEPD_SHIFT_MASK + 1);
a0668cdc DG	121	struct kmem_cache *new;
	122
	123	/* It would be nice if this was a BUILD_BUG_ON(), but at the
	124	* moment, gcc doesn't seem to recognize is_power_of_2 as a
	125	* constant expression, so so much for that. */
	126	BUG_ON(!is_power_of_2(minalign));
	127	BUG_ON((shift < 1) \|\| (shift > MAX_PGTABLE_INDEX_SIZE));
	128
	129	if (PGT_CACHE(shift))
	130	return; /* Already have a cache of this size */
	131
	132	align = max_t(unsigned long, align, minalign);
	133	name = kasprintf(GFP_KERNEL, "pgtable-2^%d", shift);
	134	new = kmem_cache_create(name, table_size, align, 0, ctor);
e77553cb	135	kfree(name);
cf9427b8	136	pgtable_cache[shift - 1] = new;
a0668cdc DG	137	pr_debug("Allocated pgtable cache for order %d\n", shift);
	138	}
	139
14cf11af PM	140
	141	void pgtable_cache_init(void)
	142	{
a0668cdc	143	pgtable_cache_add(PGD_INDEX_SIZE, pgd_ctor);
f940f528 AK	144	pgtable_cache_add(PMD_CACHE_INDEX, pmd_ctor);
f940f528 AK	145	if (!PGT_CACHE(PGD_INDEX_SIZE) \|\| !PGT_CACHE(PMD_CACHE_INDEX))
a0668cdc	146	panic("Couldn't allocate pgtable caches");
a0668cdc DG	147	/* In all current configs, when the PUD index exists it's the
	148	* same size as either the pgd or pmd index. Verify that the
	149	* initialization above has also created a PUD cache. This
	150	* will need re-examiniation if we add new possibilities for
	151	* the pagetable layout. */
	152	BUG_ON(PUD_INDEX_SIZE && !PGT_CACHE(PUD_INDEX_SIZE));
14cf11af	153	}
d29eff7b AW	154
	155	#ifdef CONFIG_SPARSEMEM_VMEMMAP
	156	/*
	157	* Given an address within the vmemmap, determine the pfn of the page that
	158	* represents the start of the section it is within. Note that we have to
	159	* do this by hand as the proffered address may not be correctly aligned.
	160	* Subtraction of non-aligned pointers produces undefined results.
	161	*/
09de9ff8	162	static unsigned long __meminit vmemmap_section_start(unsigned long page)
d29eff7b AW	163	{
	164	unsigned long offset = page - ((unsigned long)(vmemmap));
	165
	166	/* Return the pfn of the start of the section. */
	167	return (offset / sizeof(struct page)) & PAGE_SECTION_MASK;
	168	}
	169
	170	/*
	171	* Check if this vmemmap page is already initialised. If any section
	172	* which overlaps this vmemmap page is initialised then this page is
	173	* initialised already.
	174	*/
09de9ff8	175	static int __meminit vmemmap_populated(unsigned long start, int page_size)
d29eff7b AW	176	{
d29eff7b AW	177	unsigned long end = start + page_size;
16a05bff	178	start = (unsigned long)(pfn_to_page(vmemmap_section_start(start)));
d29eff7b AW	179
d29eff7b AW	180	for (; start < end; start += (PAGES_PER_SECTION * sizeof(struct page)))
16a05bff	181	if (pfn_valid(page_to_pfn((struct page *)start)))
d29eff7b AW	182	return 1;
	183
	184	return 0;
	185	}
	186
32a74949 BH	187	/* On hash-based CPUs, the vmemmap is bolted in the hash table.
	188	*
	189	* On Book3E CPUs, the vmemmap is currently mapped in the top half of
	190	* the vmalloc space using normal page tables, though the size of
	191	* pages encoded in the PTEs can be different
	192	*/
	193
	194	#ifdef CONFIG_PPC_BOOK3E
	195	static void __meminit vmemmap_create_mapping(unsigned long start,
	196	unsigned long page_size,
	197	unsigned long phys)
	198	{
	199	/* Create a PTE encoding without page size */
	200	unsigned long i, flags = _PAGE_PRESENT \| _PAGE_ACCESSED \|
	201	_PAGE_KERNEL_RW;
	202
	203	/* PTEs only contain page size encodings up to 32M */
	204	BUG_ON(mmu_psize_defs[mmu_vmemmap_psize].enc > 0xf);
	205
	206	/* Encode the size in the PTE */
	207	flags \|= mmu_psize_defs[mmu_vmemmap_psize].enc << 8;
	208
	209	/* For each PTE for that area, map things. Note that we don't
	210	* increment phys because all PTEs are of the large size and
	211	* thus must have the low bits clear
	212	*/
	213	for (i = 0; i < page_size; i += PAGE_SIZE)
	214	BUG_ON(map_kernel_page(start + i, phys, flags));
	215	}
ed5694a8 LZ	216
	217	#ifdef CONFIG_MEMORY_HOTPLUG
	218	static void vmemmap_remove_mapping(unsigned long start,
	219	unsigned long page_size)
	220	{
	221	}
	222	#endif
32a74949 BH	223	#else /* CONFIG_PPC_BOOK3E */
	224	static void __meminit vmemmap_create_mapping(unsigned long start,
	225	unsigned long page_size,
	226	unsigned long phys)
	227	{
	228	int mapped = htab_bolt_mapping(start, start + page_size, phys,
83d5e64b AK	229	pgprot_val(PAGE_KERNEL),
83d5e64b AK	230	mmu_vmemmap_psize,
32a74949 BH	231	mmu_kernel_ssize);
	232	BUG_ON(mapped < 0);
	233	}
ed5694a8 LZ	234
ed5694a8 LZ	235	#ifdef CONFIG_MEMORY_HOTPLUG
ed5694a8 LZ	236	static void vmemmap_remove_mapping(unsigned long start,
	237	unsigned long page_size)
	238	{
	239	int mapped = htab_remove_mapping(start, start + page_size,
	240	mmu_vmemmap_psize,
	241	mmu_kernel_ssize);
	242	BUG_ON(mapped < 0);
	243	}
	244	#endif
	245
32a74949 BH	246	#endif /* CONFIG_PPC_BOOK3E */
32a74949 BH	247
91eea67c	248	struct vmemmap_backing *vmemmap_list;
bd8cb03d LZ	249	static struct vmemmap_backing *next;
	250	static int num_left;
	251	static int num_freed;
91eea67c MN	252
	253	static __meminit struct vmemmap_backing * vmemmap_list_alloc(int node)
	254	{
bd8cb03d LZ	255	struct vmemmap_backing *vmem_back;
	256	/* get from freed entries first */
	257	if (num_freed) {
	258	num_freed--;
	259	vmem_back = next;
	260	next = next->list;
	261
	262	return vmem_back;
	263	}
91eea67c MN	264
91eea67c MN	265	/* allocate a page when required and hand out chunks */
bd8cb03d	266	if (!num_left) {
91eea67c MN	267	next = vmemmap_alloc_block(PAGE_SIZE, node);
	268	if (unlikely(!next)) {
	269	WARN_ON(1);
	270	return NULL;
	271	}
	272	num_left = PAGE_SIZE / sizeof(struct vmemmap_backing);
	273	}
	274
	275	num_left--;
	276
	277	return next++;
	278	}
	279
	280	static __meminit void vmemmap_list_populate(unsigned long phys,
	281	unsigned long start,
	282	int node)
	283	{
	284	struct vmemmap_backing *vmem_back;
	285
	286	vmem_back = vmemmap_list_alloc(node);
	287	if (unlikely(!vmem_back)) {
	288	WARN_ON(1);
	289	return;
	290	}
	291
	292	vmem_back->phys = phys;
	293	vmem_back->virt_addr = start;
	294	vmem_back->list = vmemmap_list;
	295
	296	vmemmap_list = vmem_back;
	297	}
	298
71b0bfe4 LZ	299	int __meminit vmemmap_populate(unsigned long start, unsigned long end, int node)
	300	{
	301	unsigned long page_size = 1 << mmu_psize_defs[mmu_vmemmap_psize].shift;
	302
	303	/* Align to the page size of the linear mapping. */
	304	start = _ALIGN_DOWN(start, page_size);
	305
	306	pr_debug("vmemmap_populate %lx..%lx, node %d\n", start, end, node);
	307
	308	for (; start < end; start += page_size) {
	309	void *p;
	310
	311	if (vmemmap_populated(start, page_size))
	312	continue;
	313
	314	p = vmemmap_alloc_block(page_size, node);
	315	if (!p)
	316	return -ENOMEM;
	317
	318	vmemmap_list_populate(__pa(p), start, node);
	319
	320	pr_debug(" * %016lx..%016lx allocated at %p\n",
	321	start, start + page_size, p);
	322
	323	vmemmap_create_mapping(start, page_size, __pa(p));
	324	}
	325
	326	return 0;
	327	}
	328
	329	#ifdef CONFIG_MEMORY_HOTPLUG
bd8cb03d LZ	330	static unsigned long vmemmap_list_free(unsigned long start)
	331	{
	332	struct vmemmap_backing vmem_back, vmem_back_prev;
	333
	334	vmem_back_prev = vmem_back = vmemmap_list;
	335
	336	/* look for it with prev pointer recorded */
	337	for (; vmem_back; vmem_back = vmem_back->list) {
	338	if (vmem_back->virt_addr == start)
	339	break;
	340	vmem_back_prev = vmem_back;
	341	}
	342
	343	if (unlikely(!vmem_back)) {
	344	WARN_ON(1);
	345	return 0;
	346	}
	347
	348	/* remove it from vmemmap_list */
	349	if (vmem_back == vmemmap_list) /* remove head */
	350	vmemmap_list = vmem_back->list;
	351	else
	352	vmem_back_prev->list = vmem_back->list;
	353
	354	/* next point to this freed entry */
	355	vmem_back->list = next;
	356	next = vmem_back;
	357	num_freed++;
	358
	359	return vmem_back->phys;
	360	}
	361
71b0bfe4	362	void __ref vmemmap_free(unsigned long start, unsigned long end)
d29eff7b	363	{
cec08e7a	364	unsigned long page_size = 1 << mmu_psize_defs[mmu_vmemmap_psize].shift;
d29eff7b	365
d29eff7b AW	366	start = _ALIGN_DOWN(start, page_size);
d29eff7b AW	367
71b0bfe4	368	pr_debug("vmemmap_free %lx...%lx\n", start, end);
32a74949	369
d29eff7b	370	for (; start < end; start += page_size) {
71b0bfe4	371	unsigned long addr;
d29eff7b	372
71b0bfe4 LZ	373	/*
	374	* the section has already be marked as invalid, so
	375	* vmemmap_populated() true means some other sections still
	376	* in this page, so skip it.
	377	*/
d29eff7b AW	378	if (vmemmap_populated(start, page_size))
	379	continue;
	380
71b0bfe4 LZ	381	addr = vmemmap_list_free(start);
	382	if (addr) {
	383	struct page *page = pfn_to_page(addr >> PAGE_SHIFT);
	384
	385	if (PageReserved(page)) {
	386	/* allocated from bootmem */
	387	if (page_size < PAGE_SIZE) {
	388	/*
	389	* this shouldn't happen, but if it is
	390	* the case, leave the memory there
	391	*/
	392	WARN_ON_ONCE(1);
	393	} else {
	394	unsigned int nr_pages =
	395	1 << get_order(page_size);
	396	while (nr_pages--)
	397	free_reserved_page(page++);
	398	}
	399	} else
	400	free_pages((unsigned long)(__va(addr)),
	401	get_order(page_size));
	402
	403	vmemmap_remove_mapping(start, page_size);
	404	}
d29eff7b	405	}
0197518c	406	}
71b0bfe4	407	#endif
f7e3334a NF	408	void register_page_bootmem_memmap(unsigned long section_nr,
	409	struct page *start_page, unsigned long size)
	410	{
	411	}
cd3db0c4	412
8e0861fa AK	413	/*
	414	* We do not have access to the sparsemem vmemmap, so we fallback to
	415	* walking the list of sparsemem blocks which we already maintain for
	416	* the sake of crashdump. In the long run, we might want to maintain
	417	* a tree if performance of that linear walk becomes a problem.
	418	*
	419	* realmode_pfn_to_page functions can fail due to:
	420	* 1) As real sparsemem blocks do not lay in RAM continously (they
	421	* are in virtual address space which is not available in the real mode),
	422	* the requested page struct can be split between blocks so get_page/put_page
	423	* may fail.
	424	* 2) When huge pages are used, the get_page/put_page API will fail
	425	* in real mode as the linked addresses in the page struct are virtual
	426	* too.
	427	*/
	428	struct page *realmode_pfn_to_page(unsigned long pfn)
	429	{
	430	struct vmemmap_backing *vmem_back;
	431	struct page *page;
	432	unsigned long page_size = 1 << mmu_psize_defs[mmu_vmemmap_psize].shift;
	433	unsigned long pg_va = (unsigned long) pfn_to_page(pfn);
	434
	435	for (vmem_back = vmemmap_list; vmem_back; vmem_back = vmem_back->list) {
	436	if (pg_va < vmem_back->virt_addr)
	437	continue;
	438
bd8cb03d LZ	439	/* After vmemmap_list entry free is possible, need check all */
	440	if ((pg_va + sizeof(struct page)) <=
	441	(vmem_back->virt_addr + page_size)) {
	442	page = (struct page *) (vmem_back->phys + pg_va -
8e0861fa	443	vmem_back->virt_addr);
bd8cb03d LZ	444	return page;
bd8cb03d LZ	445	}
8e0861fa AK	446	}
8e0861fa AK	447
bd8cb03d	448	/* Probably that page struct is split between real pages */
8e0861fa AK	449	return NULL;
	450	}
	451	EXPORT_SYMBOL_GPL(realmode_pfn_to_page);
	452
	453	#elif defined(CONFIG_FLATMEM)
	454
	455	struct page *realmode_pfn_to_page(unsigned long pfn)
	456	{
	457	struct page *page = pfn_to_page(pfn);
	458	return page;
	459	}
	460	EXPORT_SYMBOL_GPL(realmode_pfn_to_page);
	461
	462	#endif /* CONFIG_SPARSEMEM_VMEMMAP/CONFIG_FLATMEM */