]> Pileus Git - ~andy/linux/blob - kernel/time/timekeeping.c
5980e902978c4b84b4c3723ff6c1ffab2b2e6a14
[~andy/linux] / kernel / time / timekeeping.c
1 /*
2  *  linux/kernel/time/timekeeping.c
3  *
4  *  Kernel timekeeping code and accessor functions
5  *
6  *  This code was moved from linux/kernel/timer.c.
7  *  Please see that file for copyright and history logs.
8  *
9  */
10
11 #include <linux/module.h>
12 #include <linux/interrupt.h>
13 #include <linux/percpu.h>
14 #include <linux/init.h>
15 #include <linux/mm.h>
16 #include <linux/sched.h>
17 #include <linux/syscore_ops.h>
18 #include <linux/clocksource.h>
19 #include <linux/jiffies.h>
20 #include <linux/time.h>
21 #include <linux/tick.h>
22 #include <linux/stop_machine.h>
23
24 /* Structure holding internal timekeeping values. */
25 struct timekeeper {
26         /* Current clocksource used for timekeeping. */
27         struct clocksource      *clock;
28         /* NTP adjusted clock multiplier */
29         u32                     mult;
30         /* The shift value of the current clocksource. */
31         u32                     shift;
32         /* Number of clock cycles in one NTP interval. */
33         cycle_t                 cycle_interval;
34         /* Number of clock shifted nano seconds in one NTP interval. */
35         u64                     xtime_interval;
36         /* shifted nano seconds left over when rounding cycle_interval */
37         s64                     xtime_remainder;
38         /* Raw nano seconds accumulated per NTP interval. */
39         u32                     raw_interval;
40
41         /* Current CLOCK_REALTIME time in seconds */
42         u64                     xtime_sec;
43         /* Clock shifted nano seconds */
44         u64                     xtime_nsec;
45
46         /* Difference between accumulated time and NTP time in ntp
47          * shifted nano seconds. */
48         s64                     ntp_error;
49         /* Shift conversion between clock shifted nano seconds and
50          * ntp shifted nano seconds. */
51         u32                     ntp_error_shift;
52
53         /*
54          * wall_to_monotonic is what we need to add to xtime (or xtime corrected
55          * for sub jiffie times) to get to monotonic time.  Monotonic is pegged
56          * at zero at system boot time, so wall_to_monotonic will be negative,
57          * however, we will ALWAYS keep the tv_nsec part positive so we can use
58          * the usual normalization.
59          *
60          * wall_to_monotonic is moved after resume from suspend for the
61          * monotonic time not to jump. We need to add total_sleep_time to
62          * wall_to_monotonic to get the real boot based time offset.
63          *
64          * - wall_to_monotonic is no longer the boot time, getboottime must be
65          * used instead.
66          */
67         struct timespec         wall_to_monotonic;
68         /* time spent in suspend */
69         struct timespec         total_sleep_time;
70         /* The raw monotonic time for the CLOCK_MONOTONIC_RAW posix clock. */
71         struct timespec         raw_time;
72         /* Offset clock monotonic -> clock realtime */
73         ktime_t                 offs_real;
74         /* Offset clock monotonic -> clock boottime */
75         ktime_t                 offs_boot;
76         /* Seqlock for all timekeeper values */
77         seqlock_t               lock;
78 };
79
80 static struct timekeeper timekeeper;
81
82 /*
83  * This read-write spinlock protects us from races in SMP while
84  * playing with xtime.
85  */
86 __cacheline_aligned_in_smp DEFINE_SEQLOCK(xtime_lock);
87
88 /* flag for if timekeeping is suspended */
89 int __read_mostly timekeeping_suspended;
90
91 static inline void tk_normalize_xtime(struct timekeeper *tk)
92 {
93         while (tk->xtime_nsec >= ((u64)NSEC_PER_SEC << tk->shift)) {
94                 tk->xtime_nsec -= (u64)NSEC_PER_SEC << tk->shift;
95                 tk->xtime_sec++;
96         }
97 }
98
99 static struct timespec tk_xtime(struct timekeeper *tk)
100 {
101         struct timespec ts;
102
103         ts.tv_sec = tk->xtime_sec;
104         ts.tv_nsec = (long)(tk->xtime_nsec >> tk->shift);
105         return ts;
106 }
107
108 static void tk_set_xtime(struct timekeeper *tk, const struct timespec *ts)
109 {
110         tk->xtime_sec = ts->tv_sec;
111         tk->xtime_nsec = ts->tv_nsec << tk->shift;
112 }
113
114 static void tk_xtime_add(struct timekeeper *tk, const struct timespec *ts)
115 {
116         tk->xtime_sec += ts->tv_sec;
117         tk->xtime_nsec += ts->tv_nsec << tk->shift;
118 }
119
120 /**
121  * timekeeper_setup_internals - Set up internals to use clocksource clock.
122  *
123  * @clock:              Pointer to clocksource.
124  *
125  * Calculates a fixed cycle/nsec interval for a given clocksource/adjustment
126  * pair and interval request.
127  *
128  * Unless you're the timekeeping code, you should not be using this!
129  */
130 static void tk_setup_internals(struct timekeeper *tk, struct clocksource *clock)
131 {
132         cycle_t interval;
133         u64 tmp, ntpinterval;
134         struct clocksource *old_clock;
135
136         old_clock = tk->clock;
137         tk->clock = clock;
138         clock->cycle_last = clock->read(clock);
139
140         /* Do the ns -> cycle conversion first, using original mult */
141         tmp = NTP_INTERVAL_LENGTH;
142         tmp <<= clock->shift;
143         ntpinterval = tmp;
144         tmp += clock->mult/2;
145         do_div(tmp, clock->mult);
146         if (tmp == 0)
147                 tmp = 1;
148
149         interval = (cycle_t) tmp;
150         tk->cycle_interval = interval;
151
152         /* Go back from cycles -> shifted ns */
153         tk->xtime_interval = (u64) interval * clock->mult;
154         tk->xtime_remainder = ntpinterval - tk->xtime_interval;
155         tk->raw_interval =
156                 ((u64) interval * clock->mult) >> clock->shift;
157
158          /* if changing clocks, convert xtime_nsec shift units */
159         if (old_clock) {
160                 int shift_change = clock->shift - old_clock->shift;
161                 if (shift_change < 0)
162                         tk->xtime_nsec >>= -shift_change;
163                 else
164                         tk->xtime_nsec <<= shift_change;
165         }
166         tk->shift = clock->shift;
167
168         tk->ntp_error = 0;
169         tk->ntp_error_shift = NTP_SCALE_SHIFT - clock->shift;
170
171         /*
172          * The timekeeper keeps its own mult values for the currently
173          * active clocksource. These value will be adjusted via NTP
174          * to counteract clock drifting.
175          */
176         tk->mult = clock->mult;
177 }
178
179 /* Timekeeper helper functions. */
180 static inline s64 timekeeping_get_ns(struct timekeeper *tk)
181 {
182         cycle_t cycle_now, cycle_delta;
183         struct clocksource *clock;
184         s64 nsec;
185
186         /* read clocksource: */
187         clock = tk->clock;
188         cycle_now = clock->read(clock);
189
190         /* calculate the delta since the last update_wall_time: */
191         cycle_delta = (cycle_now - clock->cycle_last) & clock->mask;
192
193         nsec = cycle_delta * tk->mult + tk->xtime_nsec;
194         nsec >>= tk->shift;
195
196         /* If arch requires, add in gettimeoffset() */
197         return nsec + arch_gettimeoffset();
198 }
199
200 static inline s64 timekeeping_get_ns_raw(struct timekeeper *tk)
201 {
202         cycle_t cycle_now, cycle_delta;
203         struct clocksource *clock;
204         s64 nsec;
205
206         /* read clocksource: */
207         clock = tk->clock;
208         cycle_now = clock->read(clock);
209
210         /* calculate the delta since the last update_wall_time: */
211         cycle_delta = (cycle_now - clock->cycle_last) & clock->mask;
212
213         /* convert delta to nanoseconds. */
214         nsec = clocksource_cyc2ns(cycle_delta, clock->mult, clock->shift);
215
216         /* If arch requires, add in gettimeoffset() */
217         return nsec + arch_gettimeoffset();
218 }
219
220 static void update_rt_offset(struct timekeeper *tk)
221 {
222         struct timespec tmp, *wtm = &tk->wall_to_monotonic;
223
224         set_normalized_timespec(&tmp, -wtm->tv_sec, -wtm->tv_nsec);
225         tk->offs_real = timespec_to_ktime(tmp);
226 }
227
228 /* must hold write on timekeeper.lock */
229 static void timekeeping_update(struct timekeeper *tk, bool clearntp)
230 {
231         struct timespec xt;
232
233         if (clearntp) {
234                 tk->ntp_error = 0;
235                 ntp_clear();
236         }
237         update_rt_offset(tk);
238         xt = tk_xtime(tk);
239         update_vsyscall(&xt, &tk->wall_to_monotonic, tk->clock, tk->mult);
240 }
241
242
243 /**
244  * timekeeping_forward_now - update clock to the current time
245  *
246  * Forward the current clock to update its state since the last call to
247  * update_wall_time(). This is useful before significant clock changes,
248  * as it avoids having to deal with this time offset explicitly.
249  */
250 static void timekeeping_forward_now(struct timekeeper *tk)
251 {
252         cycle_t cycle_now, cycle_delta;
253         struct clocksource *clock;
254         s64 nsec;
255
256         clock = tk->clock;
257         cycle_now = clock->read(clock);
258         cycle_delta = (cycle_now - clock->cycle_last) & clock->mask;
259         clock->cycle_last = cycle_now;
260
261         tk->xtime_nsec += cycle_delta * tk->mult;
262
263         /* If arch requires, add in gettimeoffset() */
264         tk->xtime_nsec += arch_gettimeoffset() << tk->shift;
265
266         tk_normalize_xtime(tk);
267
268         nsec = clocksource_cyc2ns(cycle_delta, clock->mult, clock->shift);
269         timespec_add_ns(&tk->raw_time, nsec);
270 }
271
272 /**
273  * getnstimeofday - Returns the time of day in a timespec
274  * @ts:         pointer to the timespec to be set
275  *
276  * Returns the time of day in a timespec.
277  */
278 void getnstimeofday(struct timespec *ts)
279 {
280         unsigned long seq;
281         s64 nsecs = 0;
282
283         WARN_ON(timekeeping_suspended);
284
285         do {
286                 seq = read_seqbegin(&timekeeper.lock);
287
288                 ts->tv_sec = timekeeper.xtime_sec;
289                 ts->tv_nsec = timekeeping_get_ns(&timekeeper);
290
291         } while (read_seqretry(&timekeeper.lock, seq));
292
293         timespec_add_ns(ts, nsecs);
294 }
295 EXPORT_SYMBOL(getnstimeofday);
296
297 ktime_t ktime_get(void)
298 {
299         unsigned int seq;
300         s64 secs, nsecs;
301
302         WARN_ON(timekeeping_suspended);
303
304         do {
305                 seq = read_seqbegin(&timekeeper.lock);
306                 secs = timekeeper.xtime_sec +
307                                 timekeeper.wall_to_monotonic.tv_sec;
308                 nsecs = timekeeping_get_ns(&timekeeper) +
309                                 timekeeper.wall_to_monotonic.tv_nsec;
310
311         } while (read_seqretry(&timekeeper.lock, seq));
312         /*
313          * Use ktime_set/ktime_add_ns to create a proper ktime on
314          * 32-bit architectures without CONFIG_KTIME_SCALAR.
315          */
316         return ktime_add_ns(ktime_set(secs, 0), nsecs);
317 }
318 EXPORT_SYMBOL_GPL(ktime_get);
319
320 /**
321  * ktime_get_ts - get the monotonic clock in timespec format
322  * @ts:         pointer to timespec variable
323  *
324  * The function calculates the monotonic clock from the realtime
325  * clock and the wall_to_monotonic offset and stores the result
326  * in normalized timespec format in the variable pointed to by @ts.
327  */
328 void ktime_get_ts(struct timespec *ts)
329 {
330         struct timespec tomono;
331         unsigned int seq;
332
333         WARN_ON(timekeeping_suspended);
334
335         do {
336                 seq = read_seqbegin(&timekeeper.lock);
337                 ts->tv_sec = timekeeper.xtime_sec;
338                 ts->tv_nsec = timekeeping_get_ns(&timekeeper);
339                 tomono = timekeeper.wall_to_monotonic;
340
341         } while (read_seqretry(&timekeeper.lock, seq));
342
343         set_normalized_timespec(ts, ts->tv_sec + tomono.tv_sec,
344                                 ts->tv_nsec + tomono.tv_nsec);
345 }
346 EXPORT_SYMBOL_GPL(ktime_get_ts);
347
348 #ifdef CONFIG_NTP_PPS
349
350 /**
351  * getnstime_raw_and_real - get day and raw monotonic time in timespec format
352  * @ts_raw:     pointer to the timespec to be set to raw monotonic time
353  * @ts_real:    pointer to the timespec to be set to the time of day
354  *
355  * This function reads both the time of day and raw monotonic time at the
356  * same time atomically and stores the resulting timestamps in timespec
357  * format.
358  */
359 void getnstime_raw_and_real(struct timespec *ts_raw, struct timespec *ts_real)
360 {
361         unsigned long seq;
362         s64 nsecs_raw, nsecs_real;
363
364         WARN_ON_ONCE(timekeeping_suspended);
365
366         do {
367                 seq = read_seqbegin(&timekeeper.lock);
368
369                 *ts_raw = timekeeper.raw_time;
370                 ts_real->tv_sec = timekeeper.xtime_sec;
371                 ts_real->tv_nsec = 0;
372
373                 nsecs_raw = timekeeping_get_ns_raw(&timekeeper);
374                 nsecs_real = timekeeping_get_ns(&timekeeper);
375
376         } while (read_seqretry(&timekeeper.lock, seq));
377
378         timespec_add_ns(ts_raw, nsecs_raw);
379         timespec_add_ns(ts_real, nsecs_real);
380 }
381 EXPORT_SYMBOL(getnstime_raw_and_real);
382
383 #endif /* CONFIG_NTP_PPS */
384
385 /**
386  * do_gettimeofday - Returns the time of day in a timeval
387  * @tv:         pointer to the timeval to be set
388  *
389  * NOTE: Users should be converted to using getnstimeofday()
390  */
391 void do_gettimeofday(struct timeval *tv)
392 {
393         struct timespec now;
394
395         getnstimeofday(&now);
396         tv->tv_sec = now.tv_sec;
397         tv->tv_usec = now.tv_nsec/1000;
398 }
399 EXPORT_SYMBOL(do_gettimeofday);
400
401 /**
402  * do_settimeofday - Sets the time of day
403  * @tv:         pointer to the timespec variable containing the new time
404  *
405  * Sets the time of day to the new time and update NTP and notify hrtimers
406  */
407 int do_settimeofday(const struct timespec *tv)
408 {
409         struct timespec ts_delta, xt;
410         unsigned long flags;
411
412         if ((unsigned long)tv->tv_nsec >= NSEC_PER_SEC)
413                 return -EINVAL;
414
415         write_seqlock_irqsave(&timekeeper.lock, flags);
416
417         timekeeping_forward_now(&timekeeper);
418
419         xt = tk_xtime(&timekeeper);
420         ts_delta.tv_sec = tv->tv_sec - xt.tv_sec;
421         ts_delta.tv_nsec = tv->tv_nsec - xt.tv_nsec;
422
423         timekeeper.wall_to_monotonic =
424                         timespec_sub(timekeeper.wall_to_monotonic, ts_delta);
425
426         tk_set_xtime(&timekeeper, tv);
427
428         timekeeping_update(&timekeeper, true);
429
430         write_sequnlock_irqrestore(&timekeeper.lock, flags);
431
432         /* signal hrtimers about time change */
433         clock_was_set();
434
435         return 0;
436 }
437 EXPORT_SYMBOL(do_settimeofday);
438
439
440 /**
441  * timekeeping_inject_offset - Adds or subtracts from the current time.
442  * @tv:         pointer to the timespec variable containing the offset
443  *
444  * Adds or subtracts an offset value from the current time.
445  */
446 int timekeeping_inject_offset(struct timespec *ts)
447 {
448         unsigned long flags;
449
450         if ((unsigned long)ts->tv_nsec >= NSEC_PER_SEC)
451                 return -EINVAL;
452
453         write_seqlock_irqsave(&timekeeper.lock, flags);
454
455         timekeeping_forward_now(&timekeeper);
456
457
458         tk_xtime_add(&timekeeper, ts);
459         timekeeper.wall_to_monotonic =
460                                 timespec_sub(timekeeper.wall_to_monotonic, *ts);
461
462         timekeeping_update(&timekeeper, true);
463
464         write_sequnlock_irqrestore(&timekeeper.lock, flags);
465
466         /* signal hrtimers about time change */
467         clock_was_set();
468
469         return 0;
470 }
471 EXPORT_SYMBOL(timekeeping_inject_offset);
472
473 /**
474  * change_clocksource - Swaps clocksources if a new one is available
475  *
476  * Accumulates current time interval and initializes new clocksource
477  */
478 static int change_clocksource(void *data)
479 {
480         struct clocksource *new, *old;
481         unsigned long flags;
482
483         new = (struct clocksource *) data;
484
485         write_seqlock_irqsave(&timekeeper.lock, flags);
486
487         timekeeping_forward_now(&timekeeper);
488         if (!new->enable || new->enable(new) == 0) {
489                 old = timekeeper.clock;
490                 tk_setup_internals(&timekeeper, new);
491                 if (old->disable)
492                         old->disable(old);
493         }
494         timekeeping_update(&timekeeper, true);
495
496         write_sequnlock_irqrestore(&timekeeper.lock, flags);
497
498         return 0;
499 }
500
501 /**
502  * timekeeping_notify - Install a new clock source
503  * @clock:              pointer to the clock source
504  *
505  * This function is called from clocksource.c after a new, better clock
506  * source has been registered. The caller holds the clocksource_mutex.
507  */
508 void timekeeping_notify(struct clocksource *clock)
509 {
510         if (timekeeper.clock == clock)
511                 return;
512         stop_machine(change_clocksource, clock, NULL);
513         tick_clock_notify();
514 }
515
516 /**
517  * ktime_get_real - get the real (wall-) time in ktime_t format
518  *
519  * returns the time in ktime_t format
520  */
521 ktime_t ktime_get_real(void)
522 {
523         struct timespec now;
524
525         getnstimeofday(&now);
526
527         return timespec_to_ktime(now);
528 }
529 EXPORT_SYMBOL_GPL(ktime_get_real);
530
531 /**
532  * getrawmonotonic - Returns the raw monotonic time in a timespec
533  * @ts:         pointer to the timespec to be set
534  *
535  * Returns the raw monotonic time (completely un-modified by ntp)
536  */
537 void getrawmonotonic(struct timespec *ts)
538 {
539         unsigned long seq;
540         s64 nsecs;
541
542         do {
543                 seq = read_seqbegin(&timekeeper.lock);
544                 nsecs = timekeeping_get_ns_raw(&timekeeper);
545                 *ts = timekeeper.raw_time;
546
547         } while (read_seqretry(&timekeeper.lock, seq));
548
549         timespec_add_ns(ts, nsecs);
550 }
551 EXPORT_SYMBOL(getrawmonotonic);
552
553
554 /**
555  * timekeeping_valid_for_hres - Check if timekeeping is suitable for hres
556  */
557 int timekeeping_valid_for_hres(void)
558 {
559         unsigned long seq;
560         int ret;
561
562         do {
563                 seq = read_seqbegin(&timekeeper.lock);
564
565                 ret = timekeeper.clock->flags & CLOCK_SOURCE_VALID_FOR_HRES;
566
567         } while (read_seqretry(&timekeeper.lock, seq));
568
569         return ret;
570 }
571
572 /**
573  * timekeeping_max_deferment - Returns max time the clocksource can be deferred
574  */
575 u64 timekeeping_max_deferment(void)
576 {
577         unsigned long seq;
578         u64 ret;
579
580         do {
581                 seq = read_seqbegin(&timekeeper.lock);
582
583                 ret = timekeeper.clock->max_idle_ns;
584
585         } while (read_seqretry(&timekeeper.lock, seq));
586
587         return ret;
588 }
589
590 /**
591  * read_persistent_clock -  Return time from the persistent clock.
592  *
593  * Weak dummy function for arches that do not yet support it.
594  * Reads the time from the battery backed persistent clock.
595  * Returns a timespec with tv_sec=0 and tv_nsec=0 if unsupported.
596  *
597  *  XXX - Do be sure to remove it once all arches implement it.
598  */
599 void __attribute__((weak)) read_persistent_clock(struct timespec *ts)
600 {
601         ts->tv_sec = 0;
602         ts->tv_nsec = 0;
603 }
604
605 /**
606  * read_boot_clock -  Return time of the system start.
607  *
608  * Weak dummy function for arches that do not yet support it.
609  * Function to read the exact time the system has been started.
610  * Returns a timespec with tv_sec=0 and tv_nsec=0 if unsupported.
611  *
612  *  XXX - Do be sure to remove it once all arches implement it.
613  */
614 void __attribute__((weak)) read_boot_clock(struct timespec *ts)
615 {
616         ts->tv_sec = 0;
617         ts->tv_nsec = 0;
618 }
619
620 /*
621  * timekeeping_init - Initializes the clocksource and common timekeeping values
622  */
623 void __init timekeeping_init(void)
624 {
625         struct clocksource *clock;
626         unsigned long flags;
627         struct timespec now, boot;
628
629         read_persistent_clock(&now);
630         read_boot_clock(&boot);
631
632         seqlock_init(&timekeeper.lock);
633
634         ntp_init();
635
636         write_seqlock_irqsave(&timekeeper.lock, flags);
637         clock = clocksource_default_clock();
638         if (clock->enable)
639                 clock->enable(clock);
640         tk_setup_internals(&timekeeper, clock);
641
642         tk_set_xtime(&timekeeper, &now);
643         timekeeper.raw_time.tv_sec = 0;
644         timekeeper.raw_time.tv_nsec = 0;
645         if (boot.tv_sec == 0 && boot.tv_nsec == 0)
646                 boot = tk_xtime(&timekeeper);
647
648         set_normalized_timespec(&timekeeper.wall_to_monotonic,
649                                 -boot.tv_sec, -boot.tv_nsec);
650         update_rt_offset(&timekeeper);
651         timekeeper.total_sleep_time.tv_sec = 0;
652         timekeeper.total_sleep_time.tv_nsec = 0;
653         write_sequnlock_irqrestore(&timekeeper.lock, flags);
654 }
655
656 /* time in seconds when suspend began */
657 static struct timespec timekeeping_suspend_time;
658
659 static void update_sleep_time(struct timespec t)
660 {
661         timekeeper.total_sleep_time = t;
662         timekeeper.offs_boot = timespec_to_ktime(t);
663 }
664
665 /**
666  * __timekeeping_inject_sleeptime - Internal function to add sleep interval
667  * @delta: pointer to a timespec delta value
668  *
669  * Takes a timespec offset measuring a suspend interval and properly
670  * adds the sleep offset to the timekeeping variables.
671  */
672 static void __timekeeping_inject_sleeptime(struct timekeeper *tk,
673                                                         struct timespec *delta)
674 {
675         if (!timespec_valid(delta)) {
676                 printk(KERN_WARNING "__timekeeping_inject_sleeptime: Invalid "
677                                         "sleep delta value!\n");
678                 return;
679         }
680
681         tk_xtime_add(tk, delta);
682         tk->wall_to_monotonic = timespec_sub(tk->wall_to_monotonic, *delta);
683         update_sleep_time(timespec_add(tk->total_sleep_time, *delta));
684 }
685
686
687 /**
688  * timekeeping_inject_sleeptime - Adds suspend interval to timeekeeping values
689  * @delta: pointer to a timespec delta value
690  *
691  * This hook is for architectures that cannot support read_persistent_clock
692  * because their RTC/persistent clock is only accessible when irqs are enabled.
693  *
694  * This function should only be called by rtc_resume(), and allows
695  * a suspend offset to be injected into the timekeeping values.
696  */
697 void timekeeping_inject_sleeptime(struct timespec *delta)
698 {
699         unsigned long flags;
700         struct timespec ts;
701
702         /* Make sure we don't set the clock twice */
703         read_persistent_clock(&ts);
704         if (!(ts.tv_sec == 0 && ts.tv_nsec == 0))
705                 return;
706
707         write_seqlock_irqsave(&timekeeper.lock, flags);
708
709         timekeeping_forward_now(&timekeeper);
710
711         __timekeeping_inject_sleeptime(&timekeeper, delta);
712
713         timekeeping_update(&timekeeper, true);
714
715         write_sequnlock_irqrestore(&timekeeper.lock, flags);
716
717         /* signal hrtimers about time change */
718         clock_was_set();
719 }
720
721
722 /**
723  * timekeeping_resume - Resumes the generic timekeeping subsystem.
724  *
725  * This is for the generic clocksource timekeeping.
726  * xtime/wall_to_monotonic/jiffies/etc are
727  * still managed by arch specific suspend/resume code.
728  */
729 static void timekeeping_resume(void)
730 {
731         unsigned long flags;
732         struct timespec ts;
733
734         read_persistent_clock(&ts);
735
736         clocksource_resume();
737
738         write_seqlock_irqsave(&timekeeper.lock, flags);
739
740         if (timespec_compare(&ts, &timekeeping_suspend_time) > 0) {
741                 ts = timespec_sub(ts, timekeeping_suspend_time);
742                 __timekeeping_inject_sleeptime(&timekeeper, &ts);
743         }
744         /* re-base the last cycle value */
745         timekeeper.clock->cycle_last = timekeeper.clock->read(timekeeper.clock);
746         timekeeper.ntp_error = 0;
747         timekeeping_suspended = 0;
748         write_sequnlock_irqrestore(&timekeeper.lock, flags);
749
750         touch_softlockup_watchdog();
751
752         clockevents_notify(CLOCK_EVT_NOTIFY_RESUME, NULL);
753
754         /* Resume hrtimers */
755         hrtimers_resume();
756 }
757
758 static int timekeeping_suspend(void)
759 {
760         unsigned long flags;
761         struct timespec         delta, delta_delta;
762         static struct timespec  old_delta;
763
764         read_persistent_clock(&timekeeping_suspend_time);
765
766         write_seqlock_irqsave(&timekeeper.lock, flags);
767         timekeeping_forward_now(&timekeeper);
768         timekeeping_suspended = 1;
769
770         /*
771          * To avoid drift caused by repeated suspend/resumes,
772          * which each can add ~1 second drift error,
773          * try to compensate so the difference in system time
774          * and persistent_clock time stays close to constant.
775          */
776         delta = timespec_sub(tk_xtime(&timekeeper), timekeeping_suspend_time);
777         delta_delta = timespec_sub(delta, old_delta);
778         if (abs(delta_delta.tv_sec)  >= 2) {
779                 /*
780                  * if delta_delta is too large, assume time correction
781                  * has occured and set old_delta to the current delta.
782                  */
783                 old_delta = delta;
784         } else {
785                 /* Otherwise try to adjust old_system to compensate */
786                 timekeeping_suspend_time =
787                         timespec_add(timekeeping_suspend_time, delta_delta);
788         }
789         write_sequnlock_irqrestore(&timekeeper.lock, flags);
790
791         clockevents_notify(CLOCK_EVT_NOTIFY_SUSPEND, NULL);
792         clocksource_suspend();
793
794         return 0;
795 }
796
797 /* sysfs resume/suspend bits for timekeeping */
798 static struct syscore_ops timekeeping_syscore_ops = {
799         .resume         = timekeeping_resume,
800         .suspend        = timekeeping_suspend,
801 };
802
803 static int __init timekeeping_init_ops(void)
804 {
805         register_syscore_ops(&timekeeping_syscore_ops);
806         return 0;
807 }
808
809 device_initcall(timekeeping_init_ops);
810
811 /*
812  * If the error is already larger, we look ahead even further
813  * to compensate for late or lost adjustments.
814  */
815 static __always_inline int timekeeping_bigadjust(struct timekeeper *tk,
816                                                  s64 error, s64 *interval,
817                                                  s64 *offset)
818 {
819         s64 tick_error, i;
820         u32 look_ahead, adj;
821         s32 error2, mult;
822
823         /*
824          * Use the current error value to determine how much to look ahead.
825          * The larger the error the slower we adjust for it to avoid problems
826          * with losing too many ticks, otherwise we would overadjust and
827          * produce an even larger error.  The smaller the adjustment the
828          * faster we try to adjust for it, as lost ticks can do less harm
829          * here.  This is tuned so that an error of about 1 msec is adjusted
830          * within about 1 sec (or 2^20 nsec in 2^SHIFT_HZ ticks).
831          */
832         error2 = tk->ntp_error >> (NTP_SCALE_SHIFT + 22 - 2 * SHIFT_HZ);
833         error2 = abs(error2);
834         for (look_ahead = 0; error2 > 0; look_ahead++)
835                 error2 >>= 2;
836
837         /*
838          * Now calculate the error in (1 << look_ahead) ticks, but first
839          * remove the single look ahead already included in the error.
840          */
841         tick_error = ntp_tick_length() >> (tk->ntp_error_shift + 1);
842         tick_error -= tk->xtime_interval >> 1;
843         error = ((error - tick_error) >> look_ahead) + tick_error;
844
845         /* Finally calculate the adjustment shift value.  */
846         i = *interval;
847         mult = 1;
848         if (error < 0) {
849                 error = -error;
850                 *interval = -*interval;
851                 *offset = -*offset;
852                 mult = -1;
853         }
854         for (adj = 0; error > i; adj++)
855                 error >>= 1;
856
857         *interval <<= adj;
858         *offset <<= adj;
859         return mult << adj;
860 }
861
862 /*
863  * Adjust the multiplier to reduce the error value,
864  * this is optimized for the most common adjustments of -1,0,1,
865  * for other values we can do a bit more work.
866  */
867 static void timekeeping_adjust(struct timekeeper *tk, s64 offset)
868 {
869         s64 error, interval = tk->cycle_interval;
870         int adj;
871
872         /*
873          * The point of this is to check if the error is greater than half
874          * an interval.
875          *
876          * First we shift it down from NTP_SHIFT to clocksource->shifted nsecs.
877          *
878          * Note we subtract one in the shift, so that error is really error*2.
879          * This "saves" dividing(shifting) interval twice, but keeps the
880          * (error > interval) comparison as still measuring if error is
881          * larger than half an interval.
882          *
883          * Note: It does not "save" on aggravation when reading the code.
884          */
885         error = tk->ntp_error >> (tk->ntp_error_shift - 1);
886         if (error > interval) {
887                 /*
888                  * We now divide error by 4(via shift), which checks if
889                  * the error is greater than twice the interval.
890                  * If it is greater, we need a bigadjust, if its smaller,
891                  * we can adjust by 1.
892                  */
893                 error >>= 2;
894                 /*
895                  * XXX - In update_wall_time, we round up to the next
896                  * nanosecond, and store the amount rounded up into
897                  * the error. This causes the likely below to be unlikely.
898                  *
899                  * The proper fix is to avoid rounding up by using
900                  * the high precision timekeeper.xtime_nsec instead of
901                  * xtime.tv_nsec everywhere. Fixing this will take some
902                  * time.
903                  */
904                 if (likely(error <= interval))
905                         adj = 1;
906                 else
907                         adj = timekeeping_bigadjust(tk, error, &interval,
908                                                         &offset);
909         } else if (error < -interval) {
910                 /* See comment above, this is just switched for the negative */
911                 error >>= 2;
912                 if (likely(error >= -interval)) {
913                         adj = -1;
914                         interval = -interval;
915                         offset = -offset;
916                 } else
917                         adj = timekeeping_bigadjust(tk, error, &interval,
918                                                         &offset);
919         } else
920                 return;
921
922         if (unlikely(tk->clock->maxadj &&
923                 (tk->mult + adj > tk->clock->mult + tk->clock->maxadj))) {
924                 printk_once(KERN_WARNING
925                         "Adjusting %s more than 11%% (%ld vs %ld)\n",
926                         tk->clock->name, (long)tk->mult + adj,
927                         (long)tk->clock->mult + tk->clock->maxadj);
928         }
929         /*
930          * So the following can be confusing.
931          *
932          * To keep things simple, lets assume adj == 1 for now.
933          *
934          * When adj != 1, remember that the interval and offset values
935          * have been appropriately scaled so the math is the same.
936          *
937          * The basic idea here is that we're increasing the multiplier
938          * by one, this causes the xtime_interval to be incremented by
939          * one cycle_interval. This is because:
940          *      xtime_interval = cycle_interval * mult
941          * So if mult is being incremented by one:
942          *      xtime_interval = cycle_interval * (mult + 1)
943          * Its the same as:
944          *      xtime_interval = (cycle_interval * mult) + cycle_interval
945          * Which can be shortened to:
946          *      xtime_interval += cycle_interval
947          *
948          * So offset stores the non-accumulated cycles. Thus the current
949          * time (in shifted nanoseconds) is:
950          *      now = (offset * adj) + xtime_nsec
951          * Now, even though we're adjusting the clock frequency, we have
952          * to keep time consistent. In other words, we can't jump back
953          * in time, and we also want to avoid jumping forward in time.
954          *
955          * So given the same offset value, we need the time to be the same
956          * both before and after the freq adjustment.
957          *      now = (offset * adj_1) + xtime_nsec_1
958          *      now = (offset * adj_2) + xtime_nsec_2
959          * So:
960          *      (offset * adj_1) + xtime_nsec_1 =
961          *              (offset * adj_2) + xtime_nsec_2
962          * And we know:
963          *      adj_2 = adj_1 + 1
964          * So:
965          *      (offset * adj_1) + xtime_nsec_1 =
966          *              (offset * (adj_1+1)) + xtime_nsec_2
967          *      (offset * adj_1) + xtime_nsec_1 =
968          *              (offset * adj_1) + offset + xtime_nsec_2
969          * Canceling the sides:
970          *      xtime_nsec_1 = offset + xtime_nsec_2
971          * Which gives us:
972          *      xtime_nsec_2 = xtime_nsec_1 - offset
973          * Which simplfies to:
974          *      xtime_nsec -= offset
975          *
976          * XXX - TODO: Doc ntp_error calculation.
977          */
978         tk->mult += adj;
979         tk->xtime_interval += interval;
980         tk->xtime_nsec -= offset;
981         tk->ntp_error -= (interval - offset) << tk->ntp_error_shift;
982
983         /*
984          * It may be possible that when we entered this function, xtime_nsec
985          * was very small.  Further, if we're slightly speeding the clocksource
986          * in the code above, its possible the required corrective factor to
987          * xtime_nsec could cause it to underflow.
988          *
989          * Now, since we already accumulated the second, cannot simply roll
990          * the accumulated second back, since the NTP subsystem has been
991          * notified via second_overflow. So instead we push xtime_nsec forward
992          * by the amount we underflowed, and add that amount into the error.
993          *
994          * We'll correct this error next time through this function, when
995          * xtime_nsec is not as small.
996          */
997         if (unlikely((s64)tk->xtime_nsec < 0)) {
998                 s64 neg = -(s64)tk->xtime_nsec;
999                 tk->xtime_nsec = 0;
1000                 tk->ntp_error += neg << tk->ntp_error_shift;
1001         }
1002
1003 }
1004
1005
1006 /**
1007  * accumulate_nsecs_to_secs - Accumulates nsecs into secs
1008  *
1009  * Helper function that accumulates a the nsecs greater then a second
1010  * from the xtime_nsec field to the xtime_secs field.
1011  * It also calls into the NTP code to handle leapsecond processing.
1012  *
1013  */
1014 static inline void accumulate_nsecs_to_secs(struct timekeeper *tk)
1015 {
1016         u64 nsecps = (u64)NSEC_PER_SEC << tk->shift;
1017
1018         while (tk->xtime_nsec >= nsecps) {
1019                 int leap;
1020
1021                 tk->xtime_nsec -= nsecps;
1022                 tk->xtime_sec++;
1023
1024                 /* Figure out if its a leap sec and apply if needed */
1025                 leap = second_overflow(tk->xtime_sec);
1026                 tk->xtime_sec += leap;
1027                 tk->wall_to_monotonic.tv_sec -= leap;
1028                 if (leap)
1029                         clock_was_set_delayed();
1030
1031         }
1032 }
1033
1034
1035 /**
1036  * logarithmic_accumulation - shifted accumulation of cycles
1037  *
1038  * This functions accumulates a shifted interval of cycles into
1039  * into a shifted interval nanoseconds. Allows for O(log) accumulation
1040  * loop.
1041  *
1042  * Returns the unconsumed cycles.
1043  */
1044 static cycle_t logarithmic_accumulation(struct timekeeper *tk, cycle_t offset,
1045                                                 u32 shift)
1046 {
1047         u64 raw_nsecs;
1048
1049         /* If the offset is smaller then a shifted interval, do nothing */
1050         if (offset < tk->cycle_interval<<shift)
1051                 return offset;
1052
1053         /* Accumulate one shifted interval */
1054         offset -= tk->cycle_interval << shift;
1055         tk->clock->cycle_last += tk->cycle_interval << shift;
1056
1057         tk->xtime_nsec += tk->xtime_interval << shift;
1058         accumulate_nsecs_to_secs(tk);
1059
1060         /* Accumulate raw time */
1061         raw_nsecs = tk->raw_interval << shift;
1062         raw_nsecs += tk->raw_time.tv_nsec;
1063         if (raw_nsecs >= NSEC_PER_SEC) {
1064                 u64 raw_secs = raw_nsecs;
1065                 raw_nsecs = do_div(raw_secs, NSEC_PER_SEC);
1066                 tk->raw_time.tv_sec += raw_secs;
1067         }
1068         tk->raw_time.tv_nsec = raw_nsecs;
1069
1070         /* Accumulate error between NTP and clock interval */
1071         tk->ntp_error += ntp_tick_length() << shift;
1072         tk->ntp_error -= (tk->xtime_interval + tk->xtime_remainder) <<
1073                                                 (tk->ntp_error_shift + shift);
1074
1075         return offset;
1076 }
1077
1078
1079 /**
1080  * update_wall_time - Uses the current clocksource to increment the wall time
1081  *
1082  */
1083 static void update_wall_time(void)
1084 {
1085         struct clocksource *clock;
1086         cycle_t offset;
1087         int shift = 0, maxshift;
1088         unsigned long flags;
1089         s64 remainder;
1090
1091         write_seqlock_irqsave(&timekeeper.lock, flags);
1092
1093         /* Make sure we're fully resumed: */
1094         if (unlikely(timekeeping_suspended))
1095                 goto out;
1096
1097         clock = timekeeper.clock;
1098
1099 #ifdef CONFIG_ARCH_USES_GETTIMEOFFSET
1100         offset = timekeeper.cycle_interval;
1101 #else
1102         offset = (clock->read(clock) - clock->cycle_last) & clock->mask;
1103 #endif
1104
1105         /*
1106          * With NO_HZ we may have to accumulate many cycle_intervals
1107          * (think "ticks") worth of time at once. To do this efficiently,
1108          * we calculate the largest doubling multiple of cycle_intervals
1109          * that is smaller than the offset.  We then accumulate that
1110          * chunk in one go, and then try to consume the next smaller
1111          * doubled multiple.
1112          */
1113         shift = ilog2(offset) - ilog2(timekeeper.cycle_interval);
1114         shift = max(0, shift);
1115         /* Bound shift to one less than what overflows tick_length */
1116         maxshift = (64 - (ilog2(ntp_tick_length())+1)) - 1;
1117         shift = min(shift, maxshift);
1118         while (offset >= timekeeper.cycle_interval) {
1119                 offset = logarithmic_accumulation(&timekeeper, offset, shift);
1120                 if(offset < timekeeper.cycle_interval<<shift)
1121                         shift--;
1122         }
1123
1124         /* correct the clock when NTP error is too big */
1125         timekeeping_adjust(&timekeeper, offset);
1126
1127
1128         /*
1129         * Store only full nanoseconds into xtime_nsec after rounding
1130         * it up and add the remainder to the error difference.
1131         * XXX - This is necessary to avoid small 1ns inconsistnecies caused
1132         * by truncating the remainder in vsyscalls. However, it causes
1133         * additional work to be done in timekeeping_adjust(). Once
1134         * the vsyscall implementations are converted to use xtime_nsec
1135         * (shifted nanoseconds), this can be killed.
1136         */
1137         remainder = timekeeper.xtime_nsec & ((1 << timekeeper.shift) - 1);
1138         timekeeper.xtime_nsec -= remainder;
1139         timekeeper.xtime_nsec += 1 << timekeeper.shift;
1140         timekeeper.ntp_error += remainder << timekeeper.ntp_error_shift;
1141
1142         /*
1143          * Finally, make sure that after the rounding
1144          * xtime_nsec isn't larger than NSEC_PER_SEC
1145          */
1146         accumulate_nsecs_to_secs(&timekeeper);
1147
1148         timekeeping_update(&timekeeper, false);
1149
1150 out:
1151         write_sequnlock_irqrestore(&timekeeper.lock, flags);
1152
1153 }
1154
1155 /**
1156  * getboottime - Return the real time of system boot.
1157  * @ts:         pointer to the timespec to be set
1158  *
1159  * Returns the wall-time of boot in a timespec.
1160  *
1161  * This is based on the wall_to_monotonic offset and the total suspend
1162  * time. Calls to settimeofday will affect the value returned (which
1163  * basically means that however wrong your real time clock is at boot time,
1164  * you get the right time here).
1165  */
1166 void getboottime(struct timespec *ts)
1167 {
1168         struct timespec boottime = {
1169                 .tv_sec = timekeeper.wall_to_monotonic.tv_sec +
1170                                 timekeeper.total_sleep_time.tv_sec,
1171                 .tv_nsec = timekeeper.wall_to_monotonic.tv_nsec +
1172                                 timekeeper.total_sleep_time.tv_nsec
1173         };
1174
1175         set_normalized_timespec(ts, -boottime.tv_sec, -boottime.tv_nsec);
1176 }
1177 EXPORT_SYMBOL_GPL(getboottime);
1178
1179
1180 /**
1181  * get_monotonic_boottime - Returns monotonic time since boot
1182  * @ts:         pointer to the timespec to be set
1183  *
1184  * Returns the monotonic time since boot in a timespec.
1185  *
1186  * This is similar to CLOCK_MONTONIC/ktime_get_ts, but also
1187  * includes the time spent in suspend.
1188  */
1189 void get_monotonic_boottime(struct timespec *ts)
1190 {
1191         struct timespec tomono, sleep;
1192         unsigned int seq;
1193
1194         WARN_ON(timekeeping_suspended);
1195
1196         do {
1197                 seq = read_seqbegin(&timekeeper.lock);
1198                 ts->tv_sec = timekeeper.xtime_sec;
1199                 ts->tv_nsec = timekeeping_get_ns(&timekeeper);
1200                 tomono = timekeeper.wall_to_monotonic;
1201                 sleep = timekeeper.total_sleep_time;
1202
1203         } while (read_seqretry(&timekeeper.lock, seq));
1204
1205         set_normalized_timespec(ts, ts->tv_sec + tomono.tv_sec + sleep.tv_sec,
1206                         ts->tv_nsec + tomono.tv_nsec + sleep.tv_nsec);
1207 }
1208 EXPORT_SYMBOL_GPL(get_monotonic_boottime);
1209
1210 /**
1211  * ktime_get_boottime - Returns monotonic time since boot in a ktime
1212  *
1213  * Returns the monotonic time since boot in a ktime
1214  *
1215  * This is similar to CLOCK_MONTONIC/ktime_get, but also
1216  * includes the time spent in suspend.
1217  */
1218 ktime_t ktime_get_boottime(void)
1219 {
1220         struct timespec ts;
1221
1222         get_monotonic_boottime(&ts);
1223         return timespec_to_ktime(ts);
1224 }
1225 EXPORT_SYMBOL_GPL(ktime_get_boottime);
1226
1227 /**
1228  * monotonic_to_bootbased - Convert the monotonic time to boot based.
1229  * @ts:         pointer to the timespec to be converted
1230  */
1231 void monotonic_to_bootbased(struct timespec *ts)
1232 {
1233         *ts = timespec_add(*ts, timekeeper.total_sleep_time);
1234 }
1235 EXPORT_SYMBOL_GPL(monotonic_to_bootbased);
1236
1237 unsigned long get_seconds(void)
1238 {
1239         return timekeeper.xtime_sec;
1240 }
1241 EXPORT_SYMBOL(get_seconds);
1242
1243 struct timespec __current_kernel_time(void)
1244 {
1245         return tk_xtime(&timekeeper);
1246 }
1247
1248 struct timespec current_kernel_time(void)
1249 {
1250         struct timespec now;
1251         unsigned long seq;
1252
1253         do {
1254                 seq = read_seqbegin(&timekeeper.lock);
1255
1256                 now = tk_xtime(&timekeeper);
1257         } while (read_seqretry(&timekeeper.lock, seq));
1258
1259         return now;
1260 }
1261 EXPORT_SYMBOL(current_kernel_time);
1262
1263 struct timespec get_monotonic_coarse(void)
1264 {
1265         struct timespec now, mono;
1266         unsigned long seq;
1267
1268         do {
1269                 seq = read_seqbegin(&timekeeper.lock);
1270
1271                 now = tk_xtime(&timekeeper);
1272                 mono = timekeeper.wall_to_monotonic;
1273         } while (read_seqretry(&timekeeper.lock, seq));
1274
1275         set_normalized_timespec(&now, now.tv_sec + mono.tv_sec,
1276                                 now.tv_nsec + mono.tv_nsec);
1277         return now;
1278 }
1279
1280 /*
1281  * The 64-bit jiffies value is not atomic - you MUST NOT read it
1282  * without sampling the sequence number in xtime_lock.
1283  * jiffies is defined in the linker script...
1284  */
1285 void do_timer(unsigned long ticks)
1286 {
1287         jiffies_64 += ticks;
1288         update_wall_time();
1289         calc_global_load(ticks);
1290 }
1291
1292 /**
1293  * get_xtime_and_monotonic_and_sleep_offset() - get xtime, wall_to_monotonic,
1294  *    and sleep offsets.
1295  * @xtim:       pointer to timespec to be set with xtime
1296  * @wtom:       pointer to timespec to be set with wall_to_monotonic
1297  * @sleep:      pointer to timespec to be set with time in suspend
1298  */
1299 void get_xtime_and_monotonic_and_sleep_offset(struct timespec *xtim,
1300                                 struct timespec *wtom, struct timespec *sleep)
1301 {
1302         unsigned long seq;
1303
1304         do {
1305                 seq = read_seqbegin(&timekeeper.lock);
1306                 *xtim = tk_xtime(&timekeeper);
1307                 *wtom = timekeeper.wall_to_monotonic;
1308                 *sleep = timekeeper.total_sleep_time;
1309         } while (read_seqretry(&timekeeper.lock, seq));
1310 }
1311
1312 #ifdef CONFIG_HIGH_RES_TIMERS
1313 /**
1314  * ktime_get_update_offsets - hrtimer helper
1315  * @offs_real:  pointer to storage for monotonic -> realtime offset
1316  * @offs_boot:  pointer to storage for monotonic -> boottime offset
1317  *
1318  * Returns current monotonic time and updates the offsets
1319  * Called from hrtimer_interupt() or retrigger_next_event()
1320  */
1321 ktime_t ktime_get_update_offsets(ktime_t *offs_real, ktime_t *offs_boot)
1322 {
1323         ktime_t now;
1324         unsigned int seq;
1325         u64 secs, nsecs;
1326
1327         do {
1328                 seq = read_seqbegin(&timekeeper.lock);
1329
1330                 secs = timekeeper.xtime_sec;
1331                 nsecs = timekeeping_get_ns(&timekeeper);
1332
1333                 *offs_real = timekeeper.offs_real;
1334                 *offs_boot = timekeeper.offs_boot;
1335         } while (read_seqretry(&timekeeper.lock, seq));
1336
1337         now = ktime_add_ns(ktime_set(secs, 0), nsecs);
1338         now = ktime_sub(now, *offs_real);
1339         return now;
1340 }
1341 #endif
1342
1343 /**
1344  * ktime_get_monotonic_offset() - get wall_to_monotonic in ktime_t format
1345  */
1346 ktime_t ktime_get_monotonic_offset(void)
1347 {
1348         unsigned long seq;
1349         struct timespec wtom;
1350
1351         do {
1352                 seq = read_seqbegin(&timekeeper.lock);
1353                 wtom = timekeeper.wall_to_monotonic;
1354         } while (read_seqretry(&timekeeper.lock, seq));
1355
1356         return timespec_to_ktime(wtom);
1357 }
1358 EXPORT_SYMBOL_GPL(ktime_get_monotonic_offset);
1359
1360
1361 /**
1362  * xtime_update() - advances the timekeeping infrastructure
1363  * @ticks:      number of ticks, that have elapsed since the last call.
1364  *
1365  * Must be called with interrupts disabled.
1366  */
1367 void xtime_update(unsigned long ticks)
1368 {
1369         write_seqlock(&xtime_lock);
1370         do_timer(ticks);
1371         write_sequnlock(&xtime_lock);
1372 }