]> Pileus Git - ~andy/fetchmail/blob - uid.c
Snapshot Rainer's patch 2010-05-24 19:30:42
[~andy/fetchmail] / uid.c
1 /**
2  * \file uid.c -- UIDL handling for POP3 servers without LAST
3  *
4  * For license terms, see the file COPYING in this directory.
5  */
6
7 #include "config.h"
8
9 #include <sys/stat.h>
10 #include <errno.h>
11 #include <stdio.h>
12 #include <limits.h>
13 #if defined(STDC_HEADERS)
14 #include <stdlib.h>
15 #include <string.h>
16 #endif
17 #if defined(HAVE_UNISTD_H)
18 #include <unistd.h>
19 #endif
20
21 #include "fetchmail.h"
22 #include "i18n.h"
23 #include "sdump.h"
24
25 /*
26  * Machinery for handling UID lists live here.  This is mainly to support
27  * RFC1725/RFC1939-conformant POP3 servers without a LAST command, but may also
28  * be useful for making the IMAP4 querying logic UID-oriented, if a future
29  * revision of IMAP forces me to.
30  *
31  * These functions are also used by the rest of the code to maintain
32  * string lists.
33  *
34  * Here's the theory:
35  *
36  * At start of a query, we have a (possibly empty) list of UIDs to be
37  * considered seen in `oldsaved'.  These are messages that were left in
38  * the mailbox and *not deleted* on previous queries (we don't need to
39  * remember the UIDs of deleted messages because ... well, they're gone!)
40  * This list is initially set up by initialize_saved_list() from the
41  * .fetchids file.
42  *
43  * Early in the query, during the execution of the protocol-specific
44  * getrange code, the driver expects that the host's `newsaved' member
45  * will be filled with a list of UIDs and message numbers representing
46  * the mailbox state.  If this list is empty, the server did
47  * not respond to the request for a UID listing.
48  *
49  * Each time a message is fetched, we can check its UID against the
50  * `oldsaved' list to see if it is old.
51  *
52  * Each time a message-id is seen, we mark it with MARK_SEEN.
53  *
54  * Each time a message is deleted, we mark its id UID_DELETED in the
55  * `newsaved' member.  When we want to assert that an expunge has been
56  * done on the server, we call expunge_uid() to register that all
57  * deleted messages are gone by marking them UID_EXPUNGED.
58  *
59  * At the end of the query, the `newsaved' member becomes the
60  * `oldsaved' list.  The old `oldsaved' list is freed.
61  *
62  * At the end of the fetchmail run, seen and non-EXPUNGED members of all
63  * current `oldsaved' lists are flushed out to the .fetchids file to
64  * be picked up by the next run.  If there are no un-expunged
65  * messages, the file is deleted.
66  *
67  * One disadvantage of UIDL is that all the UIDs have to be downloaded
68  * before a search for new messages can be done. Typically, new messages
69  * are appended to mailboxes. Hence, downloading all UIDs just to download
70  * a few new mails is a waste of bandwidth. If new messages are always at
71  * the end of the mailbox, fast UIDL will decrease the time required to
72  * download new mails.
73  *
74  * During fast UIDL, the UIDs of all messages are not downloaded! The first
75  * unseen message is searched for by using a binary search on UIDs. UIDs
76  * after the first unseen message are downloaded as and when needed.
77  *
78  * The advantages of fast UIDL are (this is noticeable only when the
79  * mailbox has too many mails):
80  *
81  * - There is no need to download the UIDs of all mails right at the start.
82  * - There is no need to save all the UIDs in memory separately in
83  * `newsaved' list.
84  * - There is no need to download the UIDs of seen mail (except for the
85  * first binary search).
86  * - The first new mail is downloaded considerably faster.
87  *
88  * The disadvantages are:
89  *
90  * - Since all UIDs are not downloaded, it is not possible to swap old and
91  * new list. The current state of the mailbox is essentially a merged state
92  * of old and new mails.
93  * - If an intermediate mail has been temporarily refused (say, due to 4xx
94  * code from the smtp server), this mail may not get downloaded.
95  * - If 'flush' is used, such intermediate mails will also get deleted.
96  *
97  * The first two disadvantages can be overcome by doing a linear search
98  * once in a while (say, every 10th poll). Also, with flush, fast UIDL
99  * should be disabled.
100  *
101  * Note: some comparisons (those used for DNS address lists) are caseblind!
102  */
103
104 int dofastuidl = 0;
105
106 #ifdef POP3_ENABLE
107 /** UIDs associated with un-queried hosts */
108 static struct idlist *scratchlist;
109
110 /** Read saved IDs from \a idfile and attach to each host in \a hostlist. */
111 static int dump_saved_uid(struct uid_db_record *rec, void *unused)
112 {
113     char *t;
114
115     (void)unused;
116
117     t = sdump(rec->id, rec->id_len);
118     report_build(stdout, " %s", t);
119     free(t);
120
121     return 0;
122 }
123
124 void initialize_saved_lists(struct query *hostlist, const char *idfile)
125 {
126     struct stat statbuf;
127     FILE        *tmpfp;
128     struct query *ctl;
129
130     /* make sure lists are initially empty */
131     for (ctl = hostlist; ctl; ctl = ctl->next) {
132         ctl->skipped = (struct idlist *)NULL;
133
134         init_uid_db(&ctl->oldsaved);
135         init_uid_db(&ctl->newsaved);
136     }
137
138     errno = 0;
139
140     /*
141      * Croak if the uidl directory does not exist.
142      * This probably means an NFS mount failed and we can't
143      * see a uidl file that ought to be there.
144      * Question: is this a portable check? It's not clear
145      * that all implementations of lstat() will return ENOTDIR
146      * rather than plain ENOENT in this case...
147      */
148     if (lstat(idfile, &statbuf) < 0) {
149         if (errno == ENOTDIR)
150         {
151             report(stderr, "lstat: %s: %s\n", idfile, strerror(errno));
152             exit(PS_IOERR);
153         }
154     }
155
156     /* let's get stored message UIDs from previous queries */
157     if ((tmpfp = fopen(idfile, "r")) != (FILE *)NULL)
158     {
159         char buf[POPBUFSIZE+1];
160         char *host = NULL;      /* pacify -Wall */
161         char *user;
162         char *id;
163         char *atsign;   /* temp pointer used in parsing user and host */
164         char *delimp1;
165         char saveddelim1;
166         char *delimp2;
167         char saveddelim2 = '\0';        /* pacify -Wall */
168
169         while (fgets(buf, POPBUFSIZE, tmpfp) != (char *)NULL)
170         {
171             /*
172              * At this point, we assume the bug has two fields -- a user@host
173              * part, and an ID part. Either field may contain spurious @ signs.
174              * The previous version of this code presumed one could split at
175              * the rightmost '@'.  This is not correct, as InterMail puts an
176              * '@' in the UIDL.
177              */
178
179             /* first, skip leading spaces */
180             user = buf + strspn(buf, " \t");
181
182             /*
183              * First, we split the buf into a userhost part and an id
184              * part ... but id doesn't necessarily start with a '<',
185              * espescially if the POP server returns an X-UIDL header
186              * instead of a Message-ID, as GMX's (www.gmx.net) POP3
187              * StreamProxy V1.0 does.
188              *
189              * this is one other trick. The userhost part
190              * may contain ' ' in the user part, at least in
191              * the lotus notes case.
192              * So we start looking for the '@' after which the
193              * host will follow with the ' ' separator with the id.
194              *
195              * XXX FIXME: There is a case this code cannot handle:
196              * the user name cannot have blanks after a '@'.
197              */
198             if ((delimp1 = strchr(user, '@')) != NULL &&
199                 (id = strchr(delimp1,' ')) != NULL)
200             {
201                 for (delimp1 = id; delimp1 >= user; delimp1--)
202                     if ((*delimp1 != ' ') && (*delimp1 != '\t'))
203                         break;
204
205                 /*
206                  * It should be safe to assume that id starts after
207                  * the " " - after all, we're writing the " "
208                  * ourselves in write_saved_lists() :-)
209                  */
210                 id = id + strspn(id, " ");
211
212                 delimp1++; /* but what if there is only white space ?!? */
213                 /* we have at least one @, else we are not in this branch */
214                 saveddelim1 = *delimp1;         /* save char after token */
215                 *delimp1 = '\0';                /* delimit token with \0 */
216
217                 /* now remove trailing white space chars from id */
218                 if ((delimp2 = strpbrk(id, " \t\n")) != NULL ) {
219                     saveddelim2 = *delimp2;
220                     *delimp2 = '\0';
221                 }
222
223                 atsign = strrchr(user, '@');
224                 /* we have at least one @, else we are not in this branch */
225                 *atsign = '\0';
226                 host = atsign + 1;
227
228                 /* find uidl db and save it */
229                 for (ctl = hostlist; ctl; ctl = ctl->next) {
230                     if (strcasecmp(host, ctl->server.queryname) == 0
231                             && strcasecmp(user, ctl->remotename) == 0) {
232                         uid_db_insert(&ctl->oldsaved, id, UID_SEEN);
233                         break;
234                     }
235                 }
236                 /*
237                  * If it's not in a host we're querying,
238                  * save it anyway.  Otherwise we'd lose UIDL
239                  * information any time we queried an explicit
240                  * subset of hosts.
241                  */
242                 if (ctl == (struct query *)NULL) {
243                     /* restore string */
244                     *delimp1 = saveddelim1;
245                     *atsign = '@';
246                     if (delimp2 != NULL) {
247                         *delimp2 = saveddelim2;
248                     }
249                     save_str(&scratchlist, buf, UID_SEEN);
250                 }
251             }
252         }
253         fclose(tmpfp);  /* not checking should be safe, mode was "r" */
254     }
255
256     if (outlevel >= O_DEBUG)
257     {
258         struct idlist   *idp;
259
260         for (ctl = hostlist; ctl; ctl = ctl->next)
261             {
262                 report_build(stdout, GT_("Old UID list from %s:"),
263                              ctl->server.pollname);
264
265                 if (!uid_db_n_records(&ctl->oldsaved))
266                     report_build(stdout, GT_(" <empty>"));
267                 else
268                     traverse_uid_db(&ctl->oldsaved, dump_saved_uid, NULL);
269
270                 report_complete(stdout, "\n");
271             }
272
273         report_build(stdout, GT_("Scratch list of UIDs:"));
274         if (!scratchlist)
275                 report_build(stdout, GT_(" <empty>"));
276         else for (idp = scratchlist; idp; idp = idp->next) {
277                 char *t = sdump(idp->id, strlen(idp->id)-1);
278                 report_build(stdout, " %s\n", t);
279                 free(t);
280         }
281         report_complete(stdout, "\n");
282     }
283 }
284
285 /** Assert that all UIDs marked deleted in query \a ctl have actually been
286 expunged. */
287 static int mark_as_expunged_if(struct uid_db_record *rec, void *unused)
288 {
289     (void)unused;
290
291     if (rec->status == UID_DELETED) rec->status = UID_EXPUNGED;
292     return 0;
293 }
294
295 void expunge_uids(struct query *ctl)
296 {
297     traverse_uid_db(dofastuidl ? &ctl->oldsaved : &ctl->newsaved,
298                      mark_as_expunged_if, NULL);
299 }
300
301 static const char *str_uidmark(int mark)
302 {
303         static char buf[20];
304
305         switch(mark) {
306                 case UID_UNSEEN:
307                         return "UNSEEN";
308                 case UID_SEEN:
309                         return "SEEN";
310                 case UID_EXPUNGED:
311                         return "EXPUNGED";
312                 case UID_DELETED:
313                         return "DELETED";
314                 default:
315                         if (snprintf(buf, sizeof(buf), "MARK=%d", mark) < 0)
316                                 return "ERROR";
317                         else
318                                 return buf;
319         }
320 }
321
322 static int dump_uid_db_record(struct uid_db_record *rec, void *arg)
323 {
324         unsigned *n_recs;
325         char *t;
326
327         n_recs = arg;
328         --*n_recs;
329
330         t = sdump(rec->id, rec->id_len);
331         report_build(stdout, " %s = %s%s", t, str_uidmark(rec->status), *n_recs ? "," : "");
332         free(t);
333
334         return 0;
335 }
336
337 static void dump_uid_db(struct uid_db *db)
338 {
339         unsigned n_recs;
340
341         n_recs = uid_db_n_records(db);
342         if (!n_recs) {
343                 report_build(stdout, GT_(" <empty>"));
344                 return;
345         }
346
347         traverse_uid_db(db, dump_uid_db_record, &n_recs);
348 }
349
350 /* finish a query */
351 void uid_swap_lists(struct query *ctl)
352 {
353     /* debugging code */
354     if (outlevel >= O_DEBUG)
355     {
356         if (dofastuidl) {
357             report_build(stdout, GT_("Merged UID list from %s:"), ctl->server.pollname);
358             dump_uid_db(&ctl->oldsaved);
359         } else {
360             report_build(stdout, GT_("New UID list from %s:"), ctl->server.pollname);
361             dump_uid_db(&ctl->newsaved);
362         }
363         report_complete(stdout, "\n");
364     }
365
366     /*
367      * Don't swap UID lists unless we've actually seen UIDLs.
368      * This is necessary in order to keep UIDL information
369      * from being heedlessly deleted later on.
370      *
371      * Older versions of fetchmail did
372      *
373      *     free_str_list(&scratchlist);
374      *
375      * after swap.  This was wrong; we need to preserve the UIDL information
376      * from unqueried hosts.  Unfortunately, not doing this means that
377      * under some circumstances UIDLs can end up being stored forever --
378      * specifically, if a user description is removed from .fetchmailrc
379      * with UIDLs from that account in .fetchids, there is no way for
380      * them to ever get garbage-collected.
381      */
382     if (uid_db_n_records(&ctl->newsaved))
383     {
384         swap_uid_db_data(&ctl->newsaved, &ctl->oldsaved);
385         clear_uid_db(&ctl->newsaved);
386     }
387     /* in fast uidl, there is no need to swap lists: the old state of
388      * mailbox cannot be discarded! */
389     else if (outlevel >= O_DEBUG && !dofastuidl)
390         report(stdout, GT_("not swapping UID lists, no UIDs seen this query\n"));
391 }
392
393 /* finish a query which had errors */
394 void uid_discard_new_list(struct query *ctl)
395 {
396     /* debugging code */
397     if (outlevel >= O_DEBUG)
398     {
399         /* this is now a merged list! the mails which were seen in this
400          * poll are marked here. */
401         report_build(stdout, GT_("Merged UID list from %s:"), ctl->server.pollname);
402         dump_uid_db(&ctl->oldsaved);
403         report_complete(stdout, "\n");
404     }
405
406     if (uid_db_n_records(&ctl->newsaved))
407     {
408         /* new state of mailbox is not reliable */
409         if (outlevel >= O_DEBUG)
410             report(stdout, GT_("discarding new UID list\n"));
411         clear_uid_db(&ctl->newsaved);
412     }
413 }
414
415 /** Reset the number associated with each id */
416 void uid_reset_num(struct query *ctl)
417 {
418     reset_uid_db_nums(&ctl->oldsaved);
419 }
420
421 /** Write list of seen messages, at end of run. */
422 static int count_seen_deleted(struct uid_db_record *rec, void *arg)
423 {
424     if (rec->status == UID_SEEN || rec->status == UID_DELETED)
425         ++*(long *)arg;
426     return 0;
427 }
428
429 struct write_saved_info {
430     struct query *ctl;
431     FILE *fp;
432 };
433
434 static int write_uid_db_record(struct uid_db_record *rec, void *arg)
435 {
436     struct write_saved_info *info;
437     int rc;
438
439     if (!(rec->status == UID_SEEN || rec->status == UID_DELETED))
440         return 0;
441
442     info = arg;
443     rc = fprintf(info->fp, "%s@%s %s\n",
444                  info->ctl->remotename, info->ctl->server.queryname,
445                  rec->id);
446     return rc < 0 ? -1 : 0;
447 }
448
449 void write_saved_lists(struct query *hostlist, const char *idfile)
450 {
451     long        idcount;
452     FILE        *tmpfp;
453     struct query *ctl;
454     struct idlist *idp;
455
456     /* if all lists are empty, nuke the file */
457     idcount = 0;
458     for (ctl = hostlist; ctl; ctl = ctl->next)
459         traverse_uid_db(&ctl->oldsaved, count_seen_deleted, &idcount);
460
461     /* either nuke the file or write updated last-seen IDs */
462     if (!idcount && !scratchlist)
463     {
464         if (outlevel >= O_DEBUG) {
465             if (access(idfile, F_OK) == 0)
466                     report(stdout, GT_("Deleting fetchids file.\n"));
467         }
468         if (unlink(idfile) && errno != ENOENT)
469             report(stderr, GT_("Error deleting %s: %s\n"), idfile, strerror(errno));
470     } else {
471         char *newnam = (char *)xmalloc(strlen(idfile) + 2);
472         strcpy(newnam, idfile);
473         strcat(newnam, "_");
474         if (outlevel >= O_DEBUG)
475             report(stdout, GT_("Writing fetchids file.\n"));
476         (void)unlink(newnam); /* remove file/link first */
477         if ((tmpfp = fopen(newnam, "w")) != (FILE *)NULL) {
478             struct write_saved_info info;
479             int errflg = 0;
480
481             info.fp = tmpfp;
482
483             for (ctl = hostlist; ctl; ctl = ctl->next) {
484                 info.ctl = ctl;
485
486                 if (traverse_uid_db(&ctl->oldsaved, write_uid_db_record, &info) < 0) {
487                     int e = errno;
488                     report(stderr, GT_("Write error on fetchids file %s: %s\n"), newnam, strerror(e));
489                     errflg = 1;
490                     goto bailout;
491                 }
492             }
493
494             for (idp = scratchlist; idp; idp = idp->next)
495                 if (EOF == fputs(idp->id, tmpfp)) {
496                             int e = errno;
497                             report(stderr, GT_("Write error on fetchids file %s: %s\n"), newnam, strerror(e));
498                             errflg = 1;
499                             goto bailout;
500                 }
501
502 bailout:
503             (void)fflush(tmpfp); /* return code ignored, we check ferror instead */
504             errflg |= ferror(tmpfp);
505             fclose(tmpfp);
506             /* if we could write successfully, move into place;
507              * otherwise, drop */
508             if (errflg) {
509                 report(stderr, GT_("Error writing to fetchids file %s, old file left in place.\n"), newnam);
510                 unlink(newnam);
511             } else {
512                 if (rename(newnam, idfile)) {
513                     report(stderr, GT_("Cannot rename fetchids file %s to %s: %s\n"), newnam, idfile, strerror(errno));
514                 }
515             }
516         } else {
517             report(stderr, GT_("Cannot open fetchids file %s for writing: %s\n"), newnam, strerror(errno));
518         }
519         free(newnam);
520     }
521 }
522 #endif /* POP3_ENABLE */
523
524 /* uid.c ends here */