]> Pileus Git - ~andy/fetchmail/blob - design-notes.html
IPv6 and IPSEC
[~andy/fetchmail] / design-notes.html
1 <!doctype HTML public "-//W3O//DTD W3 HTML 3.2//EN">
2 <HTML>
3 <HEAD>
4 <TITLE>Design notes on fetchmail</TITLE>
5 <link rev=made href=mailto:esr@snark.thyrsus.com>
6 <meta name="description" content="Design notes on fetchmail.">
7 <meta name="keywords" content="fetchmail, POP, POP2, POP3, IMAP, remote mail"> 
8 </HEAD>
9 <BODY>
10 <table width="100%" cellpadding=0><tr>
11 <td width="30%">Back to <a href="index.html">Fetchmail Home Page</a>
12 <td width="30%" align=center>To <a href="/~esr/sitemap.html">Site Map</a>
13 <td width="30%" align=right>$Date: 1998/02/16 06:46:23 $
14 </table>
15 <HR>
16 <H1 ALIGN=CENTER>Design Notes On Fetchmail</H1>
17
18 These notes are for the benefit of future hackers and maintainers.  
19 The following sections are both functional and narrative, read from
20 beginning to end.<P>
21
22 <H1>History</H1>
23
24 A direct ancestor of the fetchmail program was originally authored
25 (under the name popclient) by Carl Harris <ceharris@mal.com>. I took
26 over development in June 1996 and subsequently renamed the program
27 `fetchmail' to reflect the addition of IMAP support.  In early
28 November 1996 Carl officially ended support for the last popclient
29 versions.<P>
30
31 Before accepting responsibility for the popclient sources from Carl, I
32 had investigated and used and tinkered with every other UNIX
33 remote-mail forwarder I could find, including fetchpop1.9,
34 PopTart-0.9.3, get-mail, gwpop, pimp-1.0, pop-perl5-1.2, popc,
35 popmail-1.6 and upop.  My major goal was to get a header-rewrite
36 feature like fetchmail's working so I wouldn't have reply problems
37 anymore.<P>
38
39 Despite having done a good bit of work on fetchpop1.9, when I found
40 popclient I quickly concluded that it offered the solidest base for
41 future development.  I was convinced of this primarily by the presence
42 of multiple-protocol support.  The competition didn't do
43 POP2/RPOP/APOP, and I was already having vague thoughts of maybe
44 adding IMAP.  (This would advance two other goals: learn IMAP and get
45 comfortable writing TCP/IP client software.)<P>
46
47 Until popclient 3.05 I was simply following out the implications of
48 Carl's basic design.  He already had daemon.c in the distribution, 
49 and I wanted daemon mode almost as badly as I wanted the header
50 rewrite feature.  The other things I added were bug fixes or
51 minor extensions.<P>
52
53 After 3.1, when I put in SMTP-forwarding support (more about this
54 below) the nature of the project changed -- it became a
55 carefully-thought-out attempt to render obsolete every other program
56 in its class.  The name change quickly followed.<P>
57
58 <H1>The rewrite option</H1>
59
60 RFC 1123 stipulates that MTAs ought to canonicalize the addresses of
61 outgoing mail so that From:, To:, Cc:, Bcc: and other address headers
62 contain only fully qualified domain names.  Failure to do so can break
63 the reply function on many mailers.<P>
64
65 This problem only becomes obvious when a reply is generated on a
66 machine different from where the message was delivered.  The
67 two machines will have different local username spaces, potentially
68 leading to misrouted mail.<P>
69
70 Most MTAs (and sendmail in particular) do not canonicalize address headers
71 in this way (violating RFC 1123).  Fetchmail therefore has to do it.  This
72 is the first feature I added to the ancestral popclient.<P>
73
74 <H1>Reorganization</H1>
75
76 The second thing I did reorganize and simplify popclient a lot.  Carl
77 Harris's implementation was very sound, but exhibited a kind of
78 unnecessary complexity common to many C programmers.  He treated the
79 code as central and the data structures as support for the code.  As a
80 result, the code was beautiful but the data structure design ad-hoc
81 and rather ugly (at least to this old LISP hacker).<P>
82
83 I was able to improve matters significantly by reorganizing most of the
84 program around the `query' data structure and eliminating a bunch of
85 global context.  This especially simplified the main sequence in
86 fetchmail.c and was critical in enabling the daemon mode changes.<P>
87
88 <H1>IMAP support and the method table</H1>
89
90 The next step was IMAP support.  I initially wrote the IMAP code
91 as a generic query driver and a method table.  The idea was to have
92 all the protocol-independent setup logic and flow of control in the
93 driver, and the protocol-specific stuff in the method table.<P>
94
95 Once this worked, I rewrote the POP3 code to use the same organization.
96 The POP2 code kept its own driver for a couple more releases, until
97 I found sources of a POP2 server to test against (the breed seems
98 to be nearly extinct).<P>
99
100 The purpose of this reorganization, of course, is to trivialize 
101 the development of support for future protocols as much as possible.
102 All mail-retrieval protocols have to have pretty similar logical
103 design by the nature of the task.  By abstracting out that common
104 logic and its interface to the rest of the program, both the common
105 and protocol-specific parts become easier to understand.<P>
106
107 Furthermore, many kinds of new features can instantly be supported
108 across all protocols by modifying the one driver module.<P>
109
110 <H1>Implications of smtp forwarding</H1>
111
112 The direction of the project changed radically when Harry Hochheiser
113 sent me his scratch code for forwarding fetched mail to the SMTP port.
114 I realized almost immediately that a reliable implementation of this
115 feature would make all the other delivery modes obsolete.<P>
116
117 Why mess with all the complexity of configuring an MDA or setting up
118 lock-and-append on a mailbox when port 25 is guaranteed to be there on
119 any platform with TCP/IP support in the first place?  Especially when
120 this means retrieved mail is guaranteed to look like normal sender-
121 initiated SMTP mail, which is really what we want anyway.<P>
122
123 Clearly, the right thing to do was (1) hack SMTP forwarding support
124 into the generic driver, (2) make it the default mode, and (3) eventually
125 throw out all the other delivery modes.  <P>
126
127 I hesitated over step 3 for some time, fearing to upset long-time
128 popclient users dependent on the alternate delivery mechanisms.  In
129 theory, they could immediately switch to .forward files or their
130 non-sendmail equivalents to get the same effects.  In practice the
131 transition might have been messy.<P>
132
133 But when I did it (see the NEWS note on the great options massacre)
134 the benefits proved huge.  The cruftiest parts of the driver code
135 vanished.  Configuration got radically simpler -- no more grovelling
136 around for the system MDA and user's mailbox, no more worries about
137 whether the underlying OS supports file locking.<P>
138
139 Also, the only way to lose mail vanished.  If you specified localfolder
140 and the disk got full, your mail got lost.  This can't happen with 
141 SMTP forwarding because your SMTP listener won't return OK unless
142 the message can be spooled or processed.<P>
143
144 Also, performance improved (though not so you'd notice it in a single
145 run).  Another not insignificant benefit of this change was that the
146 manual page got a lot simpler.<P>
147
148 Later, I had to bring --mda back in order to allow handling of some
149 obscure situations involving dynamic SLIP.  But I found a much simpler
150 way to do it.<P>
151
152 The moral?  Don't hesitate to throw away superannuated features when
153 you can do it without loss of effectiveness.  I tanked a couple I'd
154 added myself and have no regrets at all.  As Saint-Exupery said,
155 "Perfection [in design] is achieved not when there is nothing more to
156 add, but rather when there is nothing more to take away."  This
157 program isn't perfect, but it's trying.<P>
158
159 <H1>The most-requested features that I will never add, and why not:</H1>
160
161 <H2>1. Password encryption in .fetchmailrc</H2>
162
163 The reason there's no facility to store passwords encrypted in the
164 .fetchmailrc file is because this doesn't actually add protection.<P>
165
166 Anyone who's acquired the 0600 permissions needed to read your
167 .fetchmailrc file will be able to run fetchmail as you anyway -- and
168 if it's your password they're after, they'd be able to rip the
169 necessary decoder out of the fetchmail code itself to get it.<P>
170
171 All .fetchmailrc encryption would do is give a false sense of
172 security to people who don't think very hard.<P>
173
174 <H2>Truly concurrent queries to multiple hosts</H2>
175
176 Occasionally I get a request for this on "efficiency" grounds.  These
177 people aren't thinking either.  True concurrency would do nothing to lessen
178 fetchmail's total IP volume.  The best it could possibly do is change the
179 usage profile to shorten the duration of the active part of a poll cycle
180 at the cost of increasing its demand on IP volume per unit time.<P>
181
182 If one could thread the protocol code so that fetchmail didn't block
183 on waiting for a protocol response, but rather switched to trying to
184 process another host query, one might get an efficiency gain (close to
185 constant loading at the single-host level).<P>
186
187 Fortunately, I've only seldom seen a server that incurred significant
188 wait time on an individual response.  I judge the gain from this not
189 worth the hideous complexity increase it would require in the code.<P>
190
191 <H2>Multiple concurrent instances of fetchmail</H1>
192
193 What would be required for this is a per-host semaphore asserted
194 during each poll.<P>
195
196 The fundamental problem here is how an instance of fetchmail polling
197 host foo can assert that it's doing so in a way visible to all other
198 fetchmails.  System V semaphores would be ideal for this purpose, but
199 they're not portable.<P>
200
201 I've thought about this a lot and roughed up several designs.  All are
202 complicated and fragile, with a bunch of the standard problems (what
203 happens if a fetchmail aborts before clearing its semaphore, and how
204 do we recover reliably?)<P>.
205
206 I'm not satisfied that there's enough functional gain here to pay
207 for the large increase in complexity that adding these semaphores
208 would entail.<P>
209
210 <H1>Multidrop and alias handling</H1>
211
212 I decided to add the multidrop support partly because some users were
213 clamoring for it, but mostly because I thought it would shake bugs out
214 of the single-drop code by forcing me to deal with addressing in full
215 generality.  And so it proved.<P>
216
217 There are two important aspects of the features for handling
218 multiple-drop aliases and mailing lists which future hackers should be
219 careful to preserve.<P>
220
221 <OL>
222 <LI>
223    The logic path for single-recipient mailboxes doesn't involve header
224    parsing or DNS lookups at all.  This is important -- it means the code
225    for the most common case can be much simpler and more robust.<P>
226
227 <LI>
228    The multidrop handing does <EM>not</EM> rely on doing the equivalent of passing
229    the message to sendmail -oem -t.  Instead, it explicitly mines members
230    of a specified set of local usernames out of the header.<P>
231
232 <LI>
233    We do <EM>not</EM> attempt delivery to multidrop mailboxes in the presence of DNS
234    errors.  Before each multidrop poll we probe DNS to see if we have a
235    nameserver handy.  If not, the poll is skipped. If DNS crashes during a
236    poll, the error return from the next nameserver lookup aborts message
237    delivery and ends the poll.  The daemon mode will then quietly spin until
238    DNS comes up again, at which point it will resume delivering mail.<P>
239 </OL>
240
241 When I designed this support, I was terrified of doing anything that could 
242 conceivably cause a mail loop (you should be too).  That's why the code
243 as written can only append <EM>local</EM> names (never @-addresses) to the
244 recipients list.<P>
245
246 The code in mxget.c is nasty, no two ways about it.  But it's utterly
247 necessary, there are a lot of MX pointers out there.  It really ought
248 to be a (documented!) entry point in the bind library.<P>
249
250 <H1>DNS error handling</H1>
251
252 Fetchmail's behavior on DNS errors is to suppress forwarding and
253 deletion of the individual message that each occurs in, leaving it
254 queued on the server for retrieval on a subsequent poll.  The
255 assumption is that DNS errors are transient, due to temporary server
256 outages.<P>
257
258 Unfortunately this means that if a DNS error is permanent a message
259 can be perpetually stuck in the server mailbox.  We've had a couple
260 bug reports of this kind due to subtle RFC822 parsing errors in the fetchmail
261 code that resulted in impossible things getting passed to the DNS lookup
262 routines.<P>
263
264 Alternative ways to handle the problem: ignore DNS errors (treating
265 them as a non-match on the mailserver domain), or forward messages
266 with errors to fetchmail's invoking user in addition to any other
267 recipients.  These would fit an assumption that DNS lookup errors are
268 likely to be permanent problems associated with an address.<P>
269
270 <H1>IPv6 and IPSEC</H1>
271
272 The IPv6 support patches are really more protocol-family independence
273 patches. Because of this, in most places, "ports" (numbers) have been
274 replaced with "services" (strings, that may be digits). This allows us
275 to run with certain protocols that use strings as "service names"
276 where we in the IP world think of port numbers.  Someday we'll plumb
277 strings all over and then, if inet6 is not enabled, do a
278 getservbyname() down in SocketOpen. The IPv6 support patches use
279 getaddrinfo(), which is a POSIX p1003.1g mandated function. So, in the
280 not too distant future, we'll zap the ifdefs and just let autoconf
281 check for getaddrinfo. IPv6 support comes pretty much automatically
282 once you have protocol family independence.<P>
283
284 Craig Metz used his inner_connect() function to handle most of the
285 connect work. This is a nonstandard function not likely to ever exist
286 in a system's libc, but we can just include that source file if the
287 day comes when we want to support IPv6 without the inet6-apps
288 library. It just makes life easier.<P>
289
290 <H1>Lessons learned</H1>
291
292 <H3>1. Server-side state is essential</H3>
293
294 The person(s) responsible for removing LAST from POP3 deserve to suffer.
295 Without it, a client has no way to know which messages in a box have been
296 read by other means, such as an MUA running on the server.<P>
297
298 The POP3 UID feature described in RFC1725 to replace LAST is
299 insufficient.  The only problem it solves is tracking which messages
300 have been read <EM>by this client</EM> -- and even that requires
301 tricky, fragile implementation.<P>
302
303 The underlying lesson is that maintaining accessible server-side
304 `seen' state bits associated with Status headers is indispensible in a
305 Unix/RFC822 mail server protocol.  IMAP gets this right.<P>
306
307 <H3>2. Readable text protocol transactions are a Good Thing</H3>
308
309 A nice thing about the general class of text-based protocols that SMTP,
310 POP2, POP3, and IMAP belongs to is that client/server transactions are
311 easy to watch and transaction code correspondingly easy to debug.  Given
312 a decent layer of socket utility functions (which Carl provided) it's
313 easy to write protocol engines and not hard to show that they're working
314 correctly.<P>
315
316 This is an advantage not to be despised!  Because of it, this project has
317 been interesting and fun --  no serious or persistent bugs, no long
318 hours spent looking for subtle pathologies.<P>
319
320 <H3>3. IMAP is a Good Thing.</H3>
321
322 If there were a standard IMAP equivalent of the POP3 APOP validation,
323 POP3 would be completely obsolete.<P>
324
325 <H3>4. SMTP is the Right Thing</H3>
326
327 In retrospect it seems clear that this program (and others like it)
328 should have been designed to forward via SMTP from the beginning.
329 This lesson may be applicable to other Unix programs that now call the
330 local MDA/MTA as a program.<P>
331
332 <H3>5. Syntactic noise can be your friend</H3>
333
334 The optional `noise' keywords in the rc file syntax started out as
335 a late-night experiment.  The English-like syntax they allow is
336 considerably more readable than the traditional terse keyword-value
337 pairs you get when you strip them all out.  I think there may be a
338 wider lesson here.<P>
339
340 <H1>Motivation and validation</H1>
341
342 It is truly written: the best hacks start out as personal solutions to
343 the author's everyday problems, and spread because the problem turns
344 out to be typical for a large class of users.  So it was with Carl Harris
345 and the ancestral popclient, and so with me and fetchmail.<P>
346
347 It's gratifying that fetchmail has become so popular.  Until just before
348 1.9 I was designing strictly to my own taste.  The multi-drop mailbox 
349 support and the new --limit option were the first features to go in that
350 I didn't need myself.<P>
351
352 By 1.9, four months after I started hacking on popclient and a month
353 after the first fetchmail release, there were literally a hundred
354 people on the fetchmail-friends contact list.  That's pretty powerful
355 motivation.  And they were a good crowd, too, sending fixes and
356 intelligent bug reports in volume.  A user population like that is
357 a gift from the gods, and this is my expression of gratitude.<P>
358
359 The beta testers didn't know it at the time, but they were also the
360 subjects of a sociological experiment.  The results are described in
361 my paper, <cite>The Cathedral And The Bazaar</cite>, available on the
362 <a href="http://www.ccil.org/~esr/fetchmail">Fetchmail home page</a>.
363
364 <H1>Credits</H1>
365
366 Special thanks go to Carl Harris, who built a good solid code base
367 and then tolerated me hacking it out of recognition.  And to Harry
368 Hochheiser, who gave me the idea of the SMTP-forwarding delivery mode.<P>
369
370 Other significant contributors to the code have included Dave Bodenstab
371 (error.c code and --syslog), George Sipe (--monitor and --interface),
372 Gordon Matzigkeit (netrc.c), Al Longyear (UIDL support), and Nalin
373 Dahyabhai (Kerberos V4 support).<P>
374
375 <H1>Conclusion</H1>
376
377 At this point, the fetchmail code appears to be pretty stable.
378 It will probably undergo substantial change only if and when support
379 for a new retrieval protocol or authentication method is added.<P>
380
381 <H1>Relevant RFCS</H1>
382
383 Not all of these describe standards explicitly used in fetchmail, but they
384 all shaped the design in one way or another.<P>
385
386 <DL>
387 <DT>RFC821<DD>  SMTP protocol
388 <DT>RFC822<DD>  Mail header format
389 <DT>RFC937<DD>  Post Office Protocol - Version 2
390 <DT>RFC974<DD>  MX routing
391 <DT>RFC976<DD>  UUCP mail format
392 <DT>RFC1081<DD> Post Office Protocol - Version 3
393 <DT>RFC1123<DD> Host requirements (modifies 821, 822, and 974)
394 <DT>RFC1176<DD> Interactive Mail Access Protocol - Version 2
395 <DT>RFC1203<DD> Interactive Mail Access Protocol - Version 3
396 <DT>RFC1225<DD> Post Office Protocol - Version 3
397 <DT>RFC1344<DD> Implications of MIME for Internet Mail Gateways
398 <DT>RFC1413<DD> Identification server
399 <DT>RFC1428<DD> Transition of Internet Mail from Just-Send-8 to 8-bit SMTP/MIME
400 <DT>RFC1460<DD> Post Office Protocol - Version 3
401 <DT>RFC1521<DD> MIME: Multipurpose Internet Mail Extensions
402 <DT>RFC1869<DD> SMTP Service Extensions (ESMTP spec)
403 <DT>RFC1652<DD> SMTP Service Extension for 8bit-MIMEtransport
404 <DT>RFC1725<DD> Post Office Protocol - Version 3
405 <DT>RFC1730<DD> Interactive Mail Access Protocol - Version 4
406 <DT>RFC1731<DD> IMAP4 Authentication Mechanisms
407 <DT>RFC1732<DD> IMAP4 Compatibility With IMAP2 And IMAP2bis
408 <DT>RFC1734<DD> POP3 AUTHentication command
409 <DT>RFC1870<DD> SMTP Service Extension for Message Size Declaration
410 <DT>RFC1891<DD> SMTP Service Extension for Delivery Status Notifications
411 <DT>RFC1892<DD> The Multipart/Report Content Type for the Reporting of Mail System Administrative Messages
412 <DT>RFC1893<DD> Enhanced Mail System Status Codes
413 <DT>RFC1894<DD> An Extensible Message Format for Delivery Status Notifications
414 <DT>RFC1938<DD> A One-Time Password System
415 <DT>RFC1939<DD> Post Office Protocol - Version 3
416 <DT>RFC1985<DD> SMTP Service Extension for Remote Message Queue Starting
417 <DT>RFC2060<DD> Internet Message Access Protocol - Version 4rev1
418 <DT>RFC2061<DD> IMAP4 Compatibility With IMAP2bis
419 <DT>RFC2062<DD> Internet Message Access Protocol - Obsolete Syntax
420 </DL>
421
422 <HR>
423 <table width="100%" cellpadding=0><tr>
424 <td width="30%">Back to <a href="index.html">Fetchmail Home Page</a>
425 <td width="30%" align=center>To <a href="/~esr/sitemap.html">Site Map</a>
426 <td width="30%" align=right>$Date: 1998/02/16 06:46:23 $
427 </table>
428
429 <P><ADDRESS>Eric S. Raymond <A HREF="mailto:esr@thyrsus.com">&lt;esr@snark.thyrsus.com&gt;</A></ADDRESS>
430 </BODY>
431 </HTML>