Merge branches 'for-3.10/wiimote' and 'for-3.9/upstream-fixes' into for-linus

[~andy/linux] / drivers / block / rbd.c
diff --git a/drivers/block/rbd.c b/drivers/block/rbd.c

index 007b726ea0eb550e2d735242471618c2af6f51f2..f556f8a8b3f9b476949c6133f39778c49502e380 100644 (file)
--- a/drivers/block/rbd.c
+++ b/drivers/block/rbd.c
@@ -69,7 +69,6 @@
                         (NAME_MAX - (sizeof (RBD_SNAP_DEV_NAME_PREFIX) - 1))
  
  #define RBD_MAX_SNAP_COUNT     510     /* allows max snapc to fit in 4KB */
-#define RBD_MAX_OPT_LEN                1024
  
  #define RBD_SNAP_HEAD_NAME     "-"
  
@@ -96,8 +95,6 @@
  #define DEV_NAME_LEN           32
  #define MAX_INT_FORMAT_WIDTH   ((5 * sizeof (int)) / 2 + 1)
  
-#define RBD_READ_ONLY_DEFAULT          false
-
  /*
   * block device image metadata (in-memory version)
   */
@@ -156,10 +153,6 @@ struct rbd_spec {
         struct kref     kref;
  };
  
-struct rbd_options {
-       bool    read_only;
-};
-
  /*
   * an instance of the client.  multiple devices may share an rbd client.
   */
@@ -169,37 +162,76 @@ struct rbd_client {
         struct list_head        node;
  };
  
-/*
- * a request completion status
- */
-struct rbd_req_status {
-       int done;
-       s32 rc;
-       u64 bytes;
+struct rbd_img_request;
+typedef void (*rbd_img_callback_t)(struct rbd_img_request *);
+
+#define        BAD_WHICH       U32_MAX         /* Good which or bad which, which? */
+
+struct rbd_obj_request;
+typedef void (*rbd_obj_callback_t)(struct rbd_obj_request *);
+
+enum obj_request_type {
+       OBJ_REQUEST_NODATA, OBJ_REQUEST_BIO, OBJ_REQUEST_PAGES
  };
  
-/*
- * a collection of requests
- */
-struct rbd_req_coll {
-       int                     total;
-       int                     num_done;
+struct rbd_obj_request {
+       const char              *object_name;
+       u64                     offset;         /* object start byte */
+       u64                     length;         /* bytes from offset */
+
+       struct rbd_img_request  *img_request;
+       struct list_head        links;          /* img_request->obj_requests */
+       u32                     which;          /* posn image request list */
+
+       enum obj_request_type   type;
+       union {
+               struct bio      *bio_list;
+               struct {
+                       struct page     **pages;
+                       u32             page_count;
+               };
+       };
+
+       struct ceph_osd_request *osd_req;
+
+       u64                     xferred;        /* bytes transferred */
+       u64                     version;
+       int                     result;
+       atomic_t                done;
+
+       rbd_obj_callback_t      callback;
+       struct completion       completion;
+
         struct kref             kref;
-       struct rbd_req_status   status[0];
  };
  
-/*
- * a single io request
- */
-struct rbd_request {
-       struct request          *rq;            /* blk layer request */
-       struct bio              *bio;           /* cloned bio */
-       struct page             **pages;        /* list of used pages */
-       u64                     len;
-       int                     coll_index;
-       struct rbd_req_coll     *coll;
+struct rbd_img_request {
+       struct request          *rq;
+       struct rbd_device       *rbd_dev;
+       u64                     offset; /* starting image byte offset */
+       u64                     length; /* byte count from offset */
+       bool                    write_request;  /* false for read */
+       union {
+               struct ceph_snap_context *snapc;        /* for writes */
+               u64             snap_id;                /* for reads */
+       };
+       spinlock_t              completion_lock;/* protects next_completion */
+       u32                     next_completion;
+       rbd_img_callback_t      callback;
+
+       u32                     obj_request_count;
+       struct list_head        obj_requests;   /* rbd_obj_request structs */
+
+       struct kref             kref;
  };
  
+#define for_each_obj_request(ireq, oreq) \
+       list_for_each_entry(oreq, &(ireq)->obj_requests, links)
+#define for_each_obj_request_from(ireq, oreq) \
+       list_for_each_entry_from(oreq, &(ireq)->obj_requests, links)
+#define for_each_obj_request_safe(ireq, oreq, n) \
+       list_for_each_entry_safe_reverse(oreq, n, &(ireq)->obj_requests, links)
+
  struct rbd_snap {
         struct  device          dev;
         const char              *name;
@@ -229,10 +261,10 @@ struct rbd_device {
  
         char                    name[DEV_NAME_LEN]; /* blkdev name, e.g. rbd3 */
  
-       spinlock_t              lock;           /* queue lock */
+       spinlock_t              lock;           /* queue, flags, open_count */
  
         struct rbd_image_header header;
-       atomic_t                exists;
+       unsigned long           flags;          /* possibly lock protected */
         struct rbd_spec         *spec;
  
         char                    *header_name;
@@ -240,7 +272,7 @@ struct rbd_device {
         struct ceph_file_layout layout;
  
         struct ceph_osd_event   *watch_event;
-       struct ceph_osd_request *watch_request;
+       struct rbd_obj_request  *watch_request;
  
         struct rbd_spec         *parent_spec;
         u64                     parent_overlap;
@@ -257,7 +289,19 @@ struct rbd_device {
  
         /* sysfs related */
         struct device           dev;
-       unsigned long           open_count;
+       unsigned long           open_count;     /* protected by lock */
+};
+
+/*
+ * Flag bits for rbd_dev->flags.  If atomicity is required,
+ * rbd_dev->lock is used to protect access.
+ *
+ * Currently, only the "removing" flag (which is coupled with the
+ * "open_count" field) requires atomic access.
+ */
+enum rbd_dev_flags {
+       RBD_DEV_FLAG_EXISTS,    /* mapped snapshot has not been deleted */
+       RBD_DEV_FLAG_REMOVING,  /* this mapping is being removed */
  };
  
  static DEFINE_MUTEX(ctl_mutex);          /* Serialize open/close/setup/teardown */
@@ -345,14 +389,23 @@ static int rbd_dev_v2_refresh(struct rbd_device *rbd_dev, u64 *hver);
  static int rbd_open(struct block_device *bdev, fmode_t mode)
  {
         struct rbd_device *rbd_dev = bdev->bd_disk->private_data;
+       bool removing = false;
  
         if ((mode & FMODE_WRITE) && rbd_dev->mapping.read_only)
                 return -EROFS;
  
+       spin_lock_irq(&rbd_dev->lock);
+       if (test_bit(RBD_DEV_FLAG_REMOVING, &rbd_dev->flags))
+               removing = true;
+       else
+               rbd_dev->open_count++;
+       spin_unlock_irq(&rbd_dev->lock);
+       if (removing)
+               return -ENOENT;
+
         mutex_lock_nested(&ctl_mutex, SINGLE_DEPTH_NESTING);
         (void) get_device(&rbd_dev->dev);
         set_device_ro(bdev, rbd_dev->mapping.read_only);
-       rbd_dev->open_count++;
         mutex_unlock(&ctl_mutex);
  
         return 0;
@@ -361,10 +414,14 @@ static int rbd_open(struct block_device *bdev, fmode_t mode)
  static int rbd_release(struct gendisk *disk, fmode_t mode)
  {
         struct rbd_device *rbd_dev = disk->private_data;
+       unsigned long open_count_before;
+
+       spin_lock_irq(&rbd_dev->lock);
+       open_count_before = rbd_dev->open_count--;
+       spin_unlock_irq(&rbd_dev->lock);
+       rbd_assert(open_count_before > 0);
  
         mutex_lock_nested(&ctl_mutex, SINGLE_DEPTH_NESTING);
-       rbd_assert(rbd_dev->open_count > 0);
-       rbd_dev->open_count--;
         put_device(&rbd_dev->dev);
         mutex_unlock(&ctl_mutex);
  
@@ -386,7 +443,7 @@ static struct rbd_client *rbd_client_create(struct ceph_options *ceph_opts)
         struct rbd_client *rbdc;
         int ret = -ENOMEM;
  
-       dout("rbd_client_create\n");
+       dout("%s:\n", __func__);
         rbdc = kmalloc(sizeof(struct rbd_client), GFP_KERNEL);
         if (!rbdc)
                 goto out_opt;
@@ -410,8 +467,8 @@ static struct rbd_client *rbd_client_create(struct ceph_options *ceph_opts)
         spin_unlock(&rbd_client_list_lock);
  
         mutex_unlock(&ctl_mutex);
+       dout("%s: rbdc %p\n", __func__, rbdc);
  
-       dout("rbd_client_create created %p\n", rbdc);
         return rbdc;
  
  out_err:
@@ -422,6 +479,8 @@ out_mutex:
  out_opt:
         if (ceph_opts)
                 ceph_destroy_options(ceph_opts);
+       dout("%s: error %d\n", __func__, ret);
+
         return ERR_PTR(ret);
  }
  
@@ -475,6 +534,12 @@ static match_table_t rbd_opts_tokens = {
         {-1, NULL}
  };
  
+struct rbd_options {
+       bool    read_only;
+};
+
+#define RBD_READ_ONLY_DEFAULT  false
+
  static int parse_rbd_opts_token(char *c, void *private)
  {
         struct rbd_options *rbd_opts = private;
@@ -542,7 +607,7 @@ static void rbd_client_release(struct kref *kref)
  {
         struct rbd_client *rbdc = container_of(kref, struct rbd_client, kref);
  
-       dout("rbd_release_client %p\n", rbdc);
+       dout("%s: rbdc %p\n", __func__, rbdc);
         spin_lock(&rbd_client_list_lock);
         list_del(&rbdc->node);
         spin_unlock(&rbd_client_list_lock);
@@ -561,18 +626,6 @@ static void rbd_put_client(struct rbd_client *rbdc)
                 kref_put(&rbdc->kref, rbd_client_release);
  }
  
-/*
- * Destroy requests collection
- */
-static void rbd_coll_release(struct kref *kref)
-{
-       struct rbd_req_coll *coll =
-               container_of(kref, struct rbd_req_coll, kref);
-
-       dout("rbd_coll_release %p\n", coll);
-       kfree(coll);
-}
-
  static bool rbd_image_format_valid(u32 image_format)
  {
         return image_format == 1 || image_format == 2;
@@ -756,7 +809,8 @@ static int rbd_dev_set_mapping(struct rbd_device *rbd_dev)
                         goto done;
                 rbd_dev->mapping.read_only = true;
         }
-       atomic_set(&rbd_dev->exists, 1);
+       set_bit(RBD_DEV_FLAG_EXISTS, &rbd_dev->flags);
+
  done:
         return ret;
  }
@@ -773,7 +827,7 @@ static void rbd_header_free(struct rbd_image_header *header)
         header->snapc = NULL;
  }
  
-static char *rbd_segment_name(struct rbd_device *rbd_dev, u64 offset)
+static const char *rbd_segment_name(struct rbd_device *rbd_dev, u64 offset)
  {
         char *name;
         u64 segment;
@@ -816,23 +870,6 @@ static u64 rbd_segment_length(struct rbd_device *rbd_dev,
         return length;
  }
  
-static int rbd_get_num_segments(struct rbd_image_header *header,
-                               u64 ofs, u64 len)
-{
-       u64 start_seg;
-       u64 end_seg;
-
-       if (!len)
-               return 0;
-       if (len - 1 > U64_MAX - ofs)
-               return -ERANGE;
-
-       start_seg = ofs >> header->obj_order;
-       end_seg = (ofs + len - 1) >> header->obj_order;
-
-       return end_seg - start_seg + 1;
-}
-
  /*
   * returns the size of an object in the image
   */
@@ -1027,7 +1064,84 @@ out_err:
         return NULL;
  }
  
-struct ceph_osd_req_op *rbd_osd_req_op_create(u16 opcode, ...)
+static void rbd_obj_request_get(struct rbd_obj_request *obj_request)
+{
+       dout("%s: obj %p (was %d)\n", __func__, obj_request,
+               atomic_read(&obj_request->kref.refcount));
+       kref_get(&obj_request->kref);
+}
+
+static void rbd_obj_request_destroy(struct kref *kref);
+static void rbd_obj_request_put(struct rbd_obj_request *obj_request)
+{
+       rbd_assert(obj_request != NULL);
+       dout("%s: obj %p (was %d)\n", __func__, obj_request,
+               atomic_read(&obj_request->kref.refcount));
+       kref_put(&obj_request->kref, rbd_obj_request_destroy);
+}
+
+static void rbd_img_request_get(struct rbd_img_request *img_request)
+{
+       dout("%s: img %p (was %d)\n", __func__, img_request,
+               atomic_read(&img_request->kref.refcount));
+       kref_get(&img_request->kref);
+}
+
+static void rbd_img_request_destroy(struct kref *kref);
+static void rbd_img_request_put(struct rbd_img_request *img_request)
+{
+       rbd_assert(img_request != NULL);
+       dout("%s: img %p (was %d)\n", __func__, img_request,
+               atomic_read(&img_request->kref.refcount));
+       kref_put(&img_request->kref, rbd_img_request_destroy);
+}
+
+static inline void rbd_img_obj_request_add(struct rbd_img_request *img_request,
+                                       struct rbd_obj_request *obj_request)
+{
+       rbd_assert(obj_request->img_request == NULL);
+
+       rbd_obj_request_get(obj_request);
+       obj_request->img_request = img_request;
+       obj_request->which = img_request->obj_request_count;
+       rbd_assert(obj_request->which != BAD_WHICH);
+       img_request->obj_request_count++;
+       list_add_tail(&obj_request->links, &img_request->obj_requests);
+       dout("%s: img %p obj %p w=%u\n", __func__, img_request, obj_request,
+               obj_request->which);
+}
+
+static inline void rbd_img_obj_request_del(struct rbd_img_request *img_request,
+                                       struct rbd_obj_request *obj_request)
+{
+       rbd_assert(obj_request->which != BAD_WHICH);
+
+       dout("%s: img %p obj %p w=%u\n", __func__, img_request, obj_request,
+               obj_request->which);
+       list_del(&obj_request->links);
+       rbd_assert(img_request->obj_request_count > 0);
+       img_request->obj_request_count--;
+       rbd_assert(obj_request->which == img_request->obj_request_count);
+       obj_request->which = BAD_WHICH;
+       rbd_assert(obj_request->img_request == img_request);
+       obj_request->img_request = NULL;
+       obj_request->callback = NULL;
+       rbd_obj_request_put(obj_request);
+}
+
+static bool obj_request_type_valid(enum obj_request_type type)
+{
+       switch (type) {
+       case OBJ_REQUEST_NODATA:
+       case OBJ_REQUEST_BIO:
+       case OBJ_REQUEST_PAGES:
+               return true;
+       default:
+               return false;
+       }
+}
+
+static struct ceph_osd_req_op *rbd_osd_req_op_create(u16 opcode, ...)
  {
         struct ceph_osd_req_op *op;
         va_list args;
@@ -1048,6 +1162,8 @@ struct ceph_osd_req_op *rbd_osd_req_op_create(u16 opcode, ...)
                 if (opcode == CEPH_OSD_OP_WRITE)
                         op->payload_len = op->extent.length;
                 break;
+       case CEPH_OSD_OP_STAT:
+               break;
         case CEPH_OSD_OP_CALL:
                 /* rbd_osd_req_op_create(CALL, class, method, data, datalen) */
                 op->cls.class_name = va_arg(args, char *);
@@ -1095,348 +1211,586 @@ static void rbd_osd_req_op_destroy(struct ceph_osd_req_op *op)
         kfree(op);
  }
  
-static void rbd_coll_end_req_index(struct request *rq,
-                                  struct rbd_req_coll *coll,
-                                  int index,
-                                  s32 ret, u64 len)
+static int rbd_obj_request_submit(struct ceph_osd_client *osdc,
+                               struct rbd_obj_request *obj_request)
  {
-       struct request_queue *q;
-       int min, max, i;
+       dout("%s: osdc %p obj %p\n", __func__, osdc, obj_request);
  
-       dout("rbd_coll_end_req_index %p index %d ret %d len %llu\n",
-            coll, index, (int)ret, (unsigned long long)len);
+       return ceph_osdc_start_request(osdc, obj_request->osd_req, false);
+}
  
-       if (!rq)
-               return;
+static void rbd_img_request_complete(struct rbd_img_request *img_request)
+{
+       dout("%s: img %p\n", __func__, img_request);
+       if (img_request->callback)
+               img_request->callback(img_request);
+       else
+               rbd_img_request_put(img_request);
+}
  
-       if (!coll) {
-               blk_end_request(rq, ret, len);
-               return;
+/* Caller is responsible for rbd_obj_request_destroy(obj_request) */
+
+static int rbd_obj_request_wait(struct rbd_obj_request *obj_request)
+{
+       dout("%s: obj %p\n", __func__, obj_request);
+
+       return wait_for_completion_interruptible(&obj_request->completion);
+}
+
+static void obj_request_done_init(struct rbd_obj_request *obj_request)
+{
+       atomic_set(&obj_request->done, 0);
+       smp_wmb();
+}
+
+static void obj_request_done_set(struct rbd_obj_request *obj_request)
+{
+       int done;
+
+       done = atomic_inc_return(&obj_request->done);
+       if (done > 1) {
+               struct rbd_img_request *img_request = obj_request->img_request;
+               struct rbd_device *rbd_dev;
+
+               rbd_dev = img_request ? img_request->rbd_dev : NULL;
+               rbd_warn(rbd_dev, "obj_request %p was already done\n",
+                       obj_request);
         }
+}
+
+static bool obj_request_done_test(struct rbd_obj_request *obj_request)
+{
+       smp_mb();
+       return atomic_read(&obj_request->done) != 0;
+}
  
-       q = rq->q;
-
-       spin_lock_irq(q->queue_lock);
-       coll->status[index].done = 1;
-       coll->status[index].rc = ret;
-       coll->status[index].bytes = len;
-       max = min = coll->num_done;
-       while (max < coll->total && coll->status[max].done)
-               max++;
-
-       for (i = min; i<max; i++) {
-               __blk_end_request(rq, (int)coll->status[i].rc,
-                                 coll->status[i].bytes);
-               coll->num_done++;
-               kref_put(&coll->kref, rbd_coll_release);
+static void
+rbd_img_obj_request_read_callback(struct rbd_obj_request *obj_request)
+{
+       dout("%s: obj %p img %p result %d %llu/%llu\n", __func__,
+               obj_request, obj_request->img_request, obj_request->result,
+               obj_request->xferred, obj_request->length);
+       /*
+        * ENOENT means a hole in the image.  We zero-fill the
+        * entire length of the request.  A short read also implies
+        * zero-fill to the end of the request.  Either way we
+        * update the xferred count to indicate the whole request
+        * was satisfied.
+        */
+       BUG_ON(obj_request->type != OBJ_REQUEST_BIO);
+       if (obj_request->result == -ENOENT) {
+               zero_bio_chain(obj_request->bio_list, 0);
+               obj_request->result = 0;
+               obj_request->xferred = obj_request->length;
+       } else if (obj_request->xferred < obj_request->length &&
+                       !obj_request->result) {
+               zero_bio_chain(obj_request->bio_list, obj_request->xferred);
+               obj_request->xferred = obj_request->length;
         }
-       spin_unlock_irq(q->queue_lock);
+       obj_request_done_set(obj_request);
+}
+
+static void rbd_obj_request_complete(struct rbd_obj_request *obj_request)
+{
+       dout("%s: obj %p cb %p\n", __func__, obj_request,
+               obj_request->callback);
+       if (obj_request->callback)
+               obj_request->callback(obj_request);
+       else
+               complete_all(&obj_request->completion);
+}
+
+static void rbd_osd_trivial_callback(struct rbd_obj_request *obj_request)
+{
+       dout("%s: obj %p\n", __func__, obj_request);
+       obj_request_done_set(obj_request);
+}
+
+static void rbd_osd_read_callback(struct rbd_obj_request *obj_request)
+{
+       dout("%s: obj %p result %d %llu/%llu\n", __func__, obj_request,
+               obj_request->result, obj_request->xferred, obj_request->length);
+       if (obj_request->img_request)
+               rbd_img_obj_request_read_callback(obj_request);
+       else
+               obj_request_done_set(obj_request);
  }
  
-static void rbd_coll_end_req(struct rbd_request *rbd_req,
-                            s32 ret, u64 len)
+static void rbd_osd_write_callback(struct rbd_obj_request *obj_request)
  {
-       rbd_coll_end_req_index(rbd_req->rq,
-                               rbd_req->coll, rbd_req->coll_index,
-                               ret, len);
+       dout("%s: obj %p result %d %llu\n", __func__, obj_request,
+               obj_request->result, obj_request->length);
+       /*
+        * There is no such thing as a successful short write.
+        * Our xferred value is the number of bytes transferred
+        * back.  Set it to our originally-requested length.
+        */
+       obj_request->xferred = obj_request->length;
+       obj_request_done_set(obj_request);
  }
  
  /*
- * Send ceph osd request
+ * For a simple stat call there's nothing to do.  We'll do more if
+ * this is part of a write sequence for a layered image.
   */
-static int rbd_do_request(struct request *rq,
-                         struct rbd_device *rbd_dev,
-                         struct ceph_snap_context *snapc,
-                         u64 snapid,
-                         const char *object_name, u64 ofs, u64 len,
-                         struct bio *bio,
-                         struct page **pages,
-                         int num_pages,
-                         int flags,
-                         struct ceph_osd_req_op *op,
-                         struct rbd_req_coll *coll,
-                         int coll_index,
-                         void (*rbd_cb)(struct ceph_osd_request *,
-                                        struct ceph_msg *),
-                         u64 *ver)
+static void rbd_osd_stat_callback(struct rbd_obj_request *obj_request)
  {
+       dout("%s: obj %p\n", __func__, obj_request);
+       obj_request_done_set(obj_request);
+}
+
+static void rbd_osd_req_callback(struct ceph_osd_request *osd_req,
+                               struct ceph_msg *msg)
+{
+       struct rbd_obj_request *obj_request = osd_req->r_priv;
+       u16 opcode;
+
+       dout("%s: osd_req %p msg %p\n", __func__, osd_req, msg);
+       rbd_assert(osd_req == obj_request->osd_req);
+       rbd_assert(!!obj_request->img_request ^
+                               (obj_request->which == BAD_WHICH));
+
+       if (osd_req->r_result < 0)
+               obj_request->result = osd_req->r_result;
+       obj_request->version = le64_to_cpu(osd_req->r_reassert_version.version);
+
+       WARN_ON(osd_req->r_num_ops != 1);       /* For now */
+
+       /*
+        * We support a 64-bit length, but ultimately it has to be
+        * passed to blk_end_request(), which takes an unsigned int.
+        */
+       obj_request->xferred = osd_req->r_reply_op_len[0];
+       rbd_assert(obj_request->xferred < (u64) UINT_MAX);
+       opcode = osd_req->r_request_ops[0].op;
+       switch (opcode) {
+       case CEPH_OSD_OP_READ:
+               rbd_osd_read_callback(obj_request);
+               break;
+       case CEPH_OSD_OP_WRITE:
+               rbd_osd_write_callback(obj_request);
+               break;
+       case CEPH_OSD_OP_STAT:
+               rbd_osd_stat_callback(obj_request);
+               break;
+       case CEPH_OSD_OP_CALL:
+       case CEPH_OSD_OP_NOTIFY_ACK:
+       case CEPH_OSD_OP_WATCH:
+               rbd_osd_trivial_callback(obj_request);
+               break;
+       default:
+               rbd_warn(NULL, "%s: unsupported op %hu\n",
+                       obj_request->object_name, (unsigned short) opcode);
+               break;
+       }
+
+       if (obj_request_done_test(obj_request))
+               rbd_obj_request_complete(obj_request);
+}
+
+static struct ceph_osd_request *rbd_osd_req_create(
+                                       struct rbd_device *rbd_dev,
+                                       bool write_request,
+                                       struct rbd_obj_request *obj_request,
+                                       struct ceph_osd_req_op *op)
+{
+       struct rbd_img_request *img_request = obj_request->img_request;
+       struct ceph_snap_context *snapc = NULL;
         struct ceph_osd_client *osdc;
         struct ceph_osd_request *osd_req;
-       struct rbd_request *rbd_req = NULL;
-       struct timespec mtime = CURRENT_TIME;
-       int ret;
+       struct timespec now;
+       struct timespec *mtime;
+       u64 snap_id = CEPH_NOSNAP;
+       u64 offset = obj_request->offset;
+       u64 length = obj_request->length;
+
+       if (img_request) {
+               rbd_assert(img_request->write_request == write_request);
+               if (img_request->write_request)
+                       snapc = img_request->snapc;
+               else
+                       snap_id = img_request->snap_id;
+       }
  
-       dout("rbd_do_request object_name=%s ofs=%llu len=%llu coll=%p[%d]\n",
-               object_name, (unsigned long long) ofs,
-               (unsigned long long) len, coll, coll_index);
+       /* Allocate and initialize the request, for the single op */
  
         osdc = &rbd_dev->rbd_client->client->osdc;
-       osd_req = ceph_osdc_alloc_request(osdc, snapc, 1, false, GFP_NOIO);
+       osd_req = ceph_osdc_alloc_request(osdc, snapc, 1, false, GFP_ATOMIC);
         if (!osd_req)
-               return -ENOMEM;
+               return NULL;    /* ENOMEM */
  
-       osd_req->r_flags = flags;
-       osd_req->r_pages = pages;
-       if (bio) {
-               osd_req->r_bio = bio;
-               bio_get(osd_req->r_bio);
+       rbd_assert(obj_request_type_valid(obj_request->type));
+       switch (obj_request->type) {
+       case OBJ_REQUEST_NODATA:
+               break;          /* Nothing to do */
+       case OBJ_REQUEST_BIO:
+               rbd_assert(obj_request->bio_list != NULL);
+               osd_req->r_bio = obj_request->bio_list;
+               break;
+       case OBJ_REQUEST_PAGES:
+               osd_req->r_pages = obj_request->pages;
+               osd_req->r_num_pages = obj_request->page_count;
+               osd_req->r_page_alignment = offset & ~PAGE_MASK;
+               break;
         }
  
-       if (coll) {
-               ret = -ENOMEM;
-               rbd_req = kmalloc(sizeof(*rbd_req), GFP_NOIO);
-               if (!rbd_req)
-                       goto done_osd_req;
-
-               rbd_req->rq = rq;
-               rbd_req->bio = bio;
-               rbd_req->pages = pages;
-               rbd_req->len = len;
-               rbd_req->coll = coll;
-               rbd_req->coll_index = coll_index;
+       if (write_request) {
+               osd_req->r_flags = CEPH_OSD_FLAG_WRITE | CEPH_OSD_FLAG_ONDISK;
+               now = CURRENT_TIME;
+               mtime = &now;
+       } else {
+               osd_req->r_flags = CEPH_OSD_FLAG_READ;
+               mtime = NULL;   /* not needed for reads */
+               offset = 0;     /* These are not used... */
+               length = 0;     /* ...for osd read requests */
         }
  
-       osd_req->r_callback = rbd_cb;
-       osd_req->r_priv = rbd_req;
+       osd_req->r_callback = rbd_osd_req_callback;
+       osd_req->r_priv = obj_request;
  
-       strncpy(osd_req->r_oid, object_name, sizeof(osd_req->r_oid));
-       osd_req->r_oid_len = strlen(osd_req->r_oid);
+       osd_req->r_oid_len = strlen(obj_request->object_name);
+       rbd_assert(osd_req->r_oid_len < sizeof (osd_req->r_oid));
+       memcpy(osd_req->r_oid, obj_request->object_name, osd_req->r_oid_len);
  
         osd_req->r_file_layout = rbd_dev->layout;       /* struct */
-       osd_req->r_num_pages = calc_pages_for(ofs, len);
-       osd_req->r_page_alignment = ofs & ~PAGE_MASK;
  
-       ceph_osdc_build_request(osd_req, ofs, len, 1, op,
-                               snapc, snapid, &mtime);
+       /* osd_req will get its own reference to snapc (if non-null) */
  
-       if (op->op == CEPH_OSD_OP_WATCH && op->watch.flag) {
-               ceph_osdc_set_request_linger(osdc, osd_req);
-               rbd_dev->watch_request = osd_req;
-       }
+       ceph_osdc_build_request(osd_req, offset, length, 1, op,
+                               snapc, snap_id, mtime);
  
-       ret = ceph_osdc_start_request(osdc, osd_req, false);
-       if (ret < 0)
-               goto done_err;
+       return osd_req;
+}
  
-       if (!rbd_cb) {
-               u64 version;
+static void rbd_osd_req_destroy(struct ceph_osd_request *osd_req)
+{
+       ceph_osdc_put_request(osd_req);
+}
  
-               ret = ceph_osdc_wait_request(osdc, osd_req);
-               version = le64_to_cpu(osd_req->r_reassert_version.version);
-               if (ver)
-                       *ver = version;
-               dout("reassert_ver=%llu\n", (unsigned long long) version);
-               ceph_osdc_put_request(osd_req);
-       }
-       return ret;
+/* object_name is assumed to be a non-null pointer and NUL-terminated */
  
-done_err:
-       if (bio)
-               bio_chain_put(osd_req->r_bio);
-       kfree(rbd_req);
-done_osd_req:
-       ceph_osdc_put_request(osd_req);
+static struct rbd_obj_request *rbd_obj_request_create(const char *object_name,
+                                               u64 offset, u64 length,
+                                               enum obj_request_type type)
+{
+       struct rbd_obj_request *obj_request;
+       size_t size;
+       char *name;
  
-       return ret;
+       rbd_assert(obj_request_type_valid(type));
+
+       size = strlen(object_name) + 1;
+       obj_request = kzalloc(sizeof (*obj_request) + size, GFP_KERNEL);
+       if (!obj_request)
+               return NULL;
+
+       name = (char *)(obj_request + 1);
+       obj_request->object_name = memcpy(name, object_name, size);
+       obj_request->offset = offset;
+       obj_request->length = length;
+       obj_request->which = BAD_WHICH;
+       obj_request->type = type;
+       INIT_LIST_HEAD(&obj_request->links);
+       obj_request_done_init(obj_request);
+       init_completion(&obj_request->completion);
+       kref_init(&obj_request->kref);
+
+       dout("%s: \"%s\" %llu/%llu %d -> obj %p\n", __func__, object_name,
+               offset, length, (int)type, obj_request);
+
+       return obj_request;
+}
+
+static void rbd_obj_request_destroy(struct kref *kref)
+{
+       struct rbd_obj_request *obj_request;
+
+       obj_request = container_of(kref, struct rbd_obj_request, kref);
+
+       dout("%s: obj %p\n", __func__, obj_request);
+
+       rbd_assert(obj_request->img_request == NULL);
+       rbd_assert(obj_request->which == BAD_WHICH);
+
+       if (obj_request->osd_req)
+               rbd_osd_req_destroy(obj_request->osd_req);
+
+       rbd_assert(obj_request_type_valid(obj_request->type));
+       switch (obj_request->type) {
+       case OBJ_REQUEST_NODATA:
+               break;          /* Nothing to do */
+       case OBJ_REQUEST_BIO:
+               if (obj_request->bio_list)
+                       bio_chain_put(obj_request->bio_list);
+               break;
+       case OBJ_REQUEST_PAGES:
+               if (obj_request->pages)
+                       ceph_release_page_vector(obj_request->pages,
+                                               obj_request->page_count);
+               break;
+       }
+
+       kfree(obj_request);
  }
  
  /*
- * Ceph osd op callback
+ * Caller is responsible for filling in the list of object requests
+ * that comprises the image request, and the Linux request pointer
+ * (if there is one).
   */
-static void rbd_req_cb(struct ceph_osd_request *osd_req, struct ceph_msg *msg)
-{
-       struct rbd_request *rbd_req = osd_req->r_priv;
-       struct ceph_osd_reply_head *replyhead;
-       struct ceph_osd_op *op;
-       s32 rc;
-       u64 bytes;
-       int read_op;
-
-       /* parse reply */
-       replyhead = msg->front.iov_base;
-       WARN_ON(le32_to_cpu(replyhead->num_ops) == 0);
-       op = (void *)(replyhead + 1);
-       rc = (s32)le32_to_cpu(replyhead->result);
-       bytes = le64_to_cpu(op->extent.length);
-       read_op = (le16_to_cpu(op->op) == CEPH_OSD_OP_READ);
-
-       dout("rbd_req_cb bytes=%llu readop=%d rc=%d\n",
-               (unsigned long long) bytes, read_op, (int) rc);
-
-       if (rc == (s32)-ENOENT && read_op) {
-               zero_bio_chain(rbd_req->bio, 0);
-               rc = 0;
-       } else if (rc == 0 && read_op && bytes < rbd_req->len) {
-               zero_bio_chain(rbd_req->bio, bytes);
-               bytes = rbd_req->len;
-       }
+static struct rbd_img_request *rbd_img_request_create(
+                                       struct rbd_device *rbd_dev,
+                                       u64 offset, u64 length,
+                                       bool write_request)
+{
+       struct rbd_img_request *img_request;
+       struct ceph_snap_context *snapc = NULL;
  
-       rbd_coll_end_req(rbd_req, rc, bytes);
+       img_request = kmalloc(sizeof (*img_request), GFP_ATOMIC);
+       if (!img_request)
+               return NULL;
  
-       if (rbd_req->bio)
-               bio_chain_put(rbd_req->bio);
+       if (write_request) {
+               down_read(&rbd_dev->header_rwsem);
+               snapc = ceph_get_snap_context(rbd_dev->header.snapc);
+               up_read(&rbd_dev->header_rwsem);
+               if (WARN_ON(!snapc)) {
+                       kfree(img_request);
+                       return NULL;    /* Shouldn't happen */
+               }
+       }
  
-       ceph_osdc_put_request(osd_req);
-       kfree(rbd_req);
+       img_request->rq = NULL;
+       img_request->rbd_dev = rbd_dev;
+       img_request->offset = offset;
+       img_request->length = length;
+       img_request->write_request = write_request;
+       if (write_request)
+               img_request->snapc = snapc;
+       else
+               img_request->snap_id = rbd_dev->spec->snap_id;
+       spin_lock_init(&img_request->completion_lock);
+       img_request->next_completion = 0;
+       img_request->callback = NULL;
+       img_request->obj_request_count = 0;
+       INIT_LIST_HEAD(&img_request->obj_requests);
+       kref_init(&img_request->kref);
+
+       rbd_img_request_get(img_request);       /* Avoid a warning */
+       rbd_img_request_put(img_request);       /* TEMPORARY */
+
+       dout("%s: rbd_dev %p %s %llu/%llu -> img %p\n", __func__, rbd_dev,
+               write_request ? "write" : "read", offset, length,
+               img_request);
+
+       return img_request;
  }
  
-static void rbd_simple_req_cb(struct ceph_osd_request *osd_req,
-                               struct ceph_msg *msg)
+static void rbd_img_request_destroy(struct kref *kref)
  {
-       ceph_osdc_put_request(osd_req);
+       struct rbd_img_request *img_request;
+       struct rbd_obj_request *obj_request;
+       struct rbd_obj_request *next_obj_request;
+
+       img_request = container_of(kref, struct rbd_img_request, kref);
+
+       dout("%s: img %p\n", __func__, img_request);
+
+       for_each_obj_request_safe(img_request, obj_request, next_obj_request)
+               rbd_img_obj_request_del(img_request, obj_request);
+       rbd_assert(img_request->obj_request_count == 0);
+
+       if (img_request->write_request)
+               ceph_put_snap_context(img_request->snapc);
+
+       kfree(img_request);
  }
  
-/*
- * Do a synchronous ceph osd operation
- */
-static int rbd_req_sync_op(struct rbd_device *rbd_dev,
-                          int flags,
-                          struct ceph_osd_req_op *op,
-                          const char *object_name,
-                          u64 ofs, u64 inbound_size,
-                          char *inbound,
-                          u64 *ver)
+static int rbd_img_request_fill_bio(struct rbd_img_request *img_request,
+                                       struct bio *bio_list)
  {
-       int ret;
-       struct page **pages;
-       int num_pages;
+       struct rbd_device *rbd_dev = img_request->rbd_dev;
+       struct rbd_obj_request *obj_request = NULL;
+       struct rbd_obj_request *next_obj_request;
+       unsigned int bio_offset;
+       u64 image_offset;
+       u64 resid;
+       u16 opcode;
  
-       rbd_assert(op != NULL);
+       dout("%s: img %p bio %p\n", __func__, img_request, bio_list);
  
-       num_pages = calc_pages_for(ofs, inbound_size);
-       pages = ceph_alloc_page_vector(num_pages, GFP_KERNEL);
-       if (IS_ERR(pages))
-               return PTR_ERR(pages);
+       opcode = img_request->write_request ? CEPH_OSD_OP_WRITE
+                                             : CEPH_OSD_OP_READ;
+       bio_offset = 0;
+       image_offset = img_request->offset;
+       rbd_assert(image_offset == bio_list->bi_sector << SECTOR_SHIFT);
+       resid = img_request->length;
+       rbd_assert(resid > 0);
+       while (resid) {
+               const char *object_name;
+               unsigned int clone_size;
+               struct ceph_osd_req_op *op;
+               u64 offset;
+               u64 length;
+
+               object_name = rbd_segment_name(rbd_dev, image_offset);
+               if (!object_name)
+                       goto out_unwind;
+               offset = rbd_segment_offset(rbd_dev, image_offset);
+               length = rbd_segment_length(rbd_dev, image_offset, resid);
+               obj_request = rbd_obj_request_create(object_name,
+                                               offset, length,
+                                               OBJ_REQUEST_BIO);
+               kfree(object_name);     /* object request has its own copy */
+               if (!obj_request)
+                       goto out_unwind;
+
+               rbd_assert(length <= (u64) UINT_MAX);
+               clone_size = (unsigned int) length;
+               obj_request->bio_list = bio_chain_clone_range(&bio_list,
+                                               &bio_offset, clone_size,
+                                               GFP_ATOMIC);
+               if (!obj_request->bio_list)
+                       goto out_partial;
  
-       ret = rbd_do_request(NULL, rbd_dev, NULL, CEPH_NOSNAP,
-                         object_name, ofs, inbound_size, NULL,
-                         pages, num_pages,
-                         flags,
-                         op,
-                         NULL, 0,
-                         NULL,
-                         ver);
-       if (ret < 0)
-               goto done;
+               /*
+                * Build up the op to use in building the osd
+                * request.  Note that the contents of the op are
+                * copied by rbd_osd_req_create().
+                */
+               op = rbd_osd_req_op_create(opcode, offset, length);
+               if (!op)
+                       goto out_partial;
+               obj_request->osd_req = rbd_osd_req_create(rbd_dev,
+                                               img_request->write_request,
+                                               obj_request, op);
+               rbd_osd_req_op_destroy(op);
+               if (!obj_request->osd_req)
+                       goto out_partial;
+               /* status and version are initially zero-filled */
+
+               rbd_img_obj_request_add(img_request, obj_request);
+
+               image_offset += length;
+               resid -= length;
+       }
  
-       if ((flags & CEPH_OSD_FLAG_READ) && inbound)
-               ret = ceph_copy_from_page_vector(pages, inbound, ofs, ret);
+       return 0;
  
-done:
-       ceph_release_page_vector(pages, num_pages);
-       return ret;
+out_partial:
+       rbd_obj_request_put(obj_request);
+out_unwind:
+       for_each_obj_request_safe(img_request, obj_request, next_obj_request)
+               rbd_obj_request_put(obj_request);
+
+       return -ENOMEM;
  }
  
-/*
- * Do an asynchronous ceph osd operation
- */
-static int rbd_do_op(struct request *rq,
-                    struct rbd_device *rbd_dev,
-                    struct ceph_snap_context *snapc,
-                    u64 ofs, u64 len,
-                    struct bio *bio,
-                    struct rbd_req_coll *coll,
-                    int coll_index)
-{
-       char *seg_name;
-       u64 seg_ofs;
-       u64 seg_len;
-       int ret;
-       struct ceph_osd_req_op *op;
-       int opcode;
-       int flags;
-       u64 snapid;
+static void rbd_img_obj_callback(struct rbd_obj_request *obj_request)
+{
+       struct rbd_img_request *img_request;
+       u32 which = obj_request->which;
+       bool more = true;
+
+       img_request = obj_request->img_request;
+
+       dout("%s: img %p obj %p\n", __func__, img_request, obj_request);
+       rbd_assert(img_request != NULL);
+       rbd_assert(img_request->rq != NULL);
+       rbd_assert(img_request->obj_request_count > 0);
+       rbd_assert(which != BAD_WHICH);
+       rbd_assert(which < img_request->obj_request_count);
+       rbd_assert(which >= img_request->next_completion);
+
+       spin_lock_irq(&img_request->completion_lock);
+       if (which != img_request->next_completion)
+               goto out;
  
-       seg_name = rbd_segment_name(rbd_dev, ofs);
-       if (!seg_name)
-               return -ENOMEM;
-       seg_len = rbd_segment_length(rbd_dev, ofs, len);
-       seg_ofs = rbd_segment_offset(rbd_dev, ofs);
+       for_each_obj_request_from(img_request, obj_request) {
+               unsigned int xferred;
+               int result;
  
-       if (rq_data_dir(rq) == WRITE) {
-               opcode = CEPH_OSD_OP_WRITE;
-               flags = CEPH_OSD_FLAG_WRITE|CEPH_OSD_FLAG_ONDISK;
-               snapid = CEPH_NOSNAP;
-       } else {
-               opcode = CEPH_OSD_OP_READ;
-               flags = CEPH_OSD_FLAG_READ;
-               rbd_assert(!snapc);
-               snapid = rbd_dev->spec->snap_id;
+               rbd_assert(more);
+               rbd_assert(which < img_request->obj_request_count);
+
+               if (!obj_request_done_test(obj_request))
+                       break;
+
+               rbd_assert(obj_request->xferred <= (u64) UINT_MAX);
+               xferred = (unsigned int) obj_request->xferred;
+               result = (int) obj_request->result;
+               if (result)
+                       rbd_warn(NULL, "obj_request %s result %d xferred %u\n",
+                               img_request->write_request ? "write" : "read",
+                               result, xferred);
+
+               more = blk_end_request(img_request->rq, result, xferred);
+               which++;
         }
  
-       ret = -ENOMEM;
-       op = rbd_osd_req_op_create(opcode, seg_ofs, seg_len);
-       if (!op)
-               goto done;
+       rbd_assert(more ^ (which == img_request->obj_request_count));
+       img_request->next_completion = which;
+out:
+       spin_unlock_irq(&img_request->completion_lock);
  
-       /* we've taken care of segment sizes earlier when we
-          cloned the bios. We should never have a segment
-          truncated at this point */
-       rbd_assert(seg_len == len);
-
-       ret = rbd_do_request(rq, rbd_dev, snapc, snapid,
-                            seg_name, seg_ofs, seg_len,
-                            bio,
-                            NULL, 0,
-                            flags,
-                            op,
-                            coll, coll_index,
-                            rbd_req_cb, NULL);
-       if (ret < 0)
-               rbd_coll_end_req_index(rq, coll, coll_index,
-                                       (s32)ret, seg_len);
-       rbd_osd_req_op_destroy(op);
-done:
-       kfree(seg_name);
-       return ret;
+       if (!more)
+               rbd_img_request_complete(img_request);
  }
  
-/*
- * Request sync osd read
- */
-static int rbd_req_sync_read(struct rbd_device *rbd_dev,
-                         const char *object_name,
-                         u64 ofs, u64 len,
-                         char *buf,
-                         u64 *ver)
+static int rbd_img_request_submit(struct rbd_img_request *img_request)
  {
-       struct ceph_osd_req_op *op;
-       int ret;
+       struct rbd_device *rbd_dev = img_request->rbd_dev;
+       struct ceph_osd_client *osdc = &rbd_dev->rbd_client->client->osdc;
+       struct rbd_obj_request *obj_request;
  
-       op = rbd_osd_req_op_create(CEPH_OSD_OP_READ, ofs, len);
-       if (!op)
-               return -ENOMEM;
+       dout("%s: img %p\n", __func__, img_request);
+       for_each_obj_request(img_request, obj_request) {
+               int ret;
  
-       ret = rbd_req_sync_op(rbd_dev, CEPH_OSD_FLAG_READ,
-                              op, object_name, ofs, len, buf, ver);
-       rbd_osd_req_op_destroy(op);
+               obj_request->callback = rbd_img_obj_callback;
+               ret = rbd_obj_request_submit(osdc, obj_request);
+               if (ret)
+                       return ret;
+               /*
+                * The image request has its own reference to each
+                * of its object requests, so we can safely drop the
+                * initial one here.
+                */
+               rbd_obj_request_put(obj_request);
+       }
  
-       return ret;
+       return 0;
  }
  
-/*
- * Request sync osd watch
- */
-static int rbd_req_sync_notify_ack(struct rbd_device *rbd_dev,
-                                  u64 ver,
-                                  u64 notify_id)
+static int rbd_obj_notify_ack(struct rbd_device *rbd_dev,
+                                  u64 ver, u64 notify_id)
  {
+       struct rbd_obj_request *obj_request;
         struct ceph_osd_req_op *op;
+       struct ceph_osd_client *osdc;
         int ret;
  
-       op = rbd_osd_req_op_create(CEPH_OSD_OP_NOTIFY_ACK, notify_id, ver);
-       if (!op)
+       obj_request = rbd_obj_request_create(rbd_dev->header_name, 0, 0,
+                                                       OBJ_REQUEST_NODATA);
+       if (!obj_request)
                 return -ENOMEM;
  
-       ret = rbd_do_request(NULL, rbd_dev, NULL, CEPH_NOSNAP,
-                         rbd_dev->header_name, 0, 0, NULL,
-                         NULL, 0,
-                         CEPH_OSD_FLAG_READ,
-                         op,
-                         NULL, 0,
-                         rbd_simple_req_cb, NULL);
-
+       ret = -ENOMEM;
+       op = rbd_osd_req_op_create(CEPH_OSD_OP_NOTIFY_ACK, notify_id, ver);
+       if (!op)
+               goto out;
+       obj_request->osd_req = rbd_osd_req_create(rbd_dev, false,
+                                               obj_request, op);
         rbd_osd_req_op_destroy(op);
+       if (!obj_request->osd_req)
+               goto out;
+
+       osdc = &rbd_dev->rbd_client->client->osdc;
+       obj_request->callback = rbd_obj_request_put;
+       ret = rbd_obj_request_submit(osdc, obj_request);
+out:
+       if (ret)
+               rbd_obj_request_put(obj_request);
  
         return ret;
  }
@@ -1450,7 +1804,7 @@ static void rbd_watch_cb(u64 ver, u64 notify_id, u8 opcode, void *data)
         if (!rbd_dev)
                 return;
  
-       dout("rbd_watch_cb %s notify_id=%llu opcode=%u\n",
+       dout("%s: \"%s\" notify_id %llu opcode %u\n", __func__,
                 rbd_dev->header_name, (unsigned long long) notify_id,
                 (unsigned int) opcode);
         rc = rbd_dev_refresh(rbd_dev, &hver);
@@ -1458,46 +1812,87 @@ static void rbd_watch_cb(u64 ver, u64 notify_id, u8 opcode, void *data)
                 rbd_warn(rbd_dev, "got notification but failed to "
                            " update snaps: %d\n", rc);
  
-       rbd_req_sync_notify_ack(rbd_dev, hver, notify_id);
+       rbd_obj_notify_ack(rbd_dev, hver, notify_id);
  }
  
  /*
   * Request sync osd watch/unwatch.  The value of "start" determines
   * whether a watch request is being initiated or torn down.
   */
-static int rbd_req_sync_watch(struct rbd_device *rbd_dev, int start)
+static int rbd_dev_header_watch_sync(struct rbd_device *rbd_dev, int start)
  {
+       struct ceph_osd_client *osdc = &rbd_dev->rbd_client->client->osdc;
+       struct rbd_obj_request *obj_request;
         struct ceph_osd_req_op *op;
-       int ret = 0;
+       int ret;
  
-       if (start) {
-               struct ceph_osd_client *osdc;
+       rbd_assert(start ^ !!rbd_dev->watch_event);
+       rbd_assert(start ^ !!rbd_dev->watch_request);
  
-               osdc = &rbd_dev->rbd_client->client->osdc;
-               ret = ceph_osdc_create_event(osdc, rbd_watch_cb, 0, rbd_dev,
+       if (start) {
+               ret = ceph_osdc_create_event(osdc, rbd_watch_cb, rbd_dev,
                                                 &rbd_dev->watch_event);
                 if (ret < 0)
                         return ret;
-       } else {
-               rbd_assert(rbd_dev->watch_request != NULL);
+               rbd_assert(rbd_dev->watch_event != NULL);
         }
  
+       ret = -ENOMEM;
+       obj_request = rbd_obj_request_create(rbd_dev->header_name, 0, 0,
+                                                       OBJ_REQUEST_NODATA);
+       if (!obj_request)
+               goto out_cancel;
+
         op = rbd_osd_req_op_create(CEPH_OSD_OP_WATCH,
                                 rbd_dev->watch_event->cookie,
                                 rbd_dev->header.obj_version, start);
-       if (op)
-               ret = rbd_req_sync_op(rbd_dev,
-                             CEPH_OSD_FLAG_WRITE | CEPH_OSD_FLAG_ONDISK,
-                             op, rbd_dev->header_name,
-                             0, 0, NULL, NULL);
+       if (!op)
+               goto out_cancel;
+       obj_request->osd_req = rbd_osd_req_create(rbd_dev, true,
+                                                       obj_request, op);
+       rbd_osd_req_op_destroy(op);
+       if (!obj_request->osd_req)
+               goto out_cancel;
  
-       /* Cancel the event if we're tearing down, or on error */
+       if (start)
+               ceph_osdc_set_request_linger(osdc, obj_request->osd_req);
+       else
+               ceph_osdc_unregister_linger_request(osdc,
+                                       rbd_dev->watch_request->osd_req);
+       ret = rbd_obj_request_submit(osdc, obj_request);
+       if (ret)
+               goto out_cancel;
+       ret = rbd_obj_request_wait(obj_request);
+       if (ret)
+               goto out_cancel;
+       ret = obj_request->result;
+       if (ret)
+               goto out_cancel;
+
+       /*
+        * A watch request is set to linger, so the underlying osd
+        * request won't go away until we unregister it.  We retain
+        * a pointer to the object request during that time (in
+        * rbd_dev->watch_request), so we'll keep a reference to
+        * it.  We'll drop that reference (below) after we've
+        * unregistered it.
+        */
+       if (start) {
+               rbd_dev->watch_request = obj_request;
  
-       if (!start || !op || ret < 0) {
-               ceph_osdc_cancel_event(rbd_dev->watch_event);
-               rbd_dev->watch_event = NULL;
+               return 0;
         }
-       rbd_osd_req_op_destroy(op);
+
+       /* We have successfully torn down the watch request */
+
+       rbd_obj_request_put(rbd_dev->watch_request);
+       rbd_dev->watch_request = NULL;
+out_cancel:
+       /* Cancel the event if we're tearing down, or on error */
+       ceph_osdc_cancel_event(rbd_dev->watch_event);
+       rbd_dev->watch_event = NULL;
+       if (obj_request)
+               rbd_obj_request_put(obj_request);
  
         return ret;
  }
@@ -1505,7 +1900,7 @@ static int rbd_req_sync_watch(struct rbd_device *rbd_dev, int start)
  /*
   * Synchronous osd object method call
   */
-static int rbd_req_sync_exec(struct rbd_device *rbd_dev,
+static int rbd_obj_method_sync(struct rbd_device *rbd_dev,
                              const char *object_name,
                              const char *class_name,
                              const char *method_name,
@@ -1513,165 +1908,154 @@ static int rbd_req_sync_exec(struct rbd_device *rbd_dev,
                              size_t outbound_size,
                              char *inbound,
                              size_t inbound_size,
-                            u64 *ver)
+                            u64 *version)
  {
+       struct rbd_obj_request *obj_request;
+       struct ceph_osd_client *osdc;
         struct ceph_osd_req_op *op;
+       struct page **pages;
+       u32 page_count;
         int ret;
  
         /*
-        * Any input parameters required by the method we're calling
-        * will be sent along with the class and method names as
-        * part of the message payload.  That data and its size are
-        * supplied via the indata and indata_len fields (named from
-        * the perspective of the server side) in the OSD request
-        * operation.
+        * Method calls are ultimately read operations but they
+        * don't involve object data (so no offset or length).
+        * The result should placed into the inbound buffer
+        * provided.  They also supply outbound data--parameters for
+        * the object method.  Currently if this is present it will
+        * be a snapshot id.
          */
+       page_count = (u32) calc_pages_for(0, inbound_size);
+       pages = ceph_alloc_page_vector(page_count, GFP_KERNEL);
+       if (IS_ERR(pages))
+               return PTR_ERR(pages);
+
+       ret = -ENOMEM;
+       obj_request = rbd_obj_request_create(object_name, 0, 0,
+                                                       OBJ_REQUEST_PAGES);
+       if (!obj_request)
+               goto out;
+
+       obj_request->pages = pages;
+       obj_request->page_count = page_count;
+
         op = rbd_osd_req_op_create(CEPH_OSD_OP_CALL, class_name,
                                         method_name, outbound, outbound_size);
         if (!op)
-               return -ENOMEM;
-
-       ret = rbd_req_sync_op(rbd_dev, CEPH_OSD_FLAG_READ, op,
-                              object_name, 0, inbound_size, inbound,
-                              ver);
-
+               goto out;
+       obj_request->osd_req = rbd_osd_req_create(rbd_dev, false,
+                                               obj_request, op);
         rbd_osd_req_op_destroy(op);
+       if (!obj_request->osd_req)
+               goto out;
  
-       dout("cls_exec returned %d\n", ret);
-       return ret;
-}
-
-static struct rbd_req_coll *rbd_alloc_coll(int num_reqs)
-{
-       struct rbd_req_coll *coll =
-                       kzalloc(sizeof(struct rbd_req_coll) +
-                               sizeof(struct rbd_req_status) * num_reqs,
-                               GFP_ATOMIC);
-
-       if (!coll)
-               return NULL;
-       coll->total = num_reqs;
-       kref_init(&coll->kref);
-       return coll;
-}
-
-static int rbd_dev_do_request(struct request *rq,
-                               struct rbd_device *rbd_dev,
-                               struct ceph_snap_context *snapc,
-                               u64 ofs, unsigned int size,
-                               struct bio *bio_chain)
-{
-       int num_segs;
-       struct rbd_req_coll *coll;
-       unsigned int bio_offset;
-       int cur_seg = 0;
-
-       dout("%s 0x%x bytes at 0x%llx\n",
-               rq_data_dir(rq) == WRITE ? "write" : "read",
-               size, (unsigned long long) blk_rq_pos(rq) * SECTOR_SIZE);
-
-       num_segs = rbd_get_num_segments(&rbd_dev->header, ofs, size);
-       if (num_segs <= 0)
-               return num_segs;
-
-       coll = rbd_alloc_coll(num_segs);
-       if (!coll)
-               return -ENOMEM;
-
-       bio_offset = 0;
-       do {
-               u64 limit = rbd_segment_length(rbd_dev, ofs, size);
-               unsigned int clone_size;
-               struct bio *bio_clone;
-
-               BUG_ON(limit > (u64)UINT_MAX);
-               clone_size = (unsigned int)limit;
-               dout("bio_chain->bi_vcnt=%hu\n", bio_chain->bi_vcnt);
-
-               kref_get(&coll->kref);
-
-               /* Pass a cloned bio chain via an osd request */
-
-               bio_clone = bio_chain_clone_range(&bio_chain,
-                                       &bio_offset, clone_size,
-                                       GFP_ATOMIC);
-               if (bio_clone)
-                       (void)rbd_do_op(rq, rbd_dev, snapc,
-                                       ofs, clone_size,
-                                       bio_clone, coll, cur_seg);
-               else
-                       rbd_coll_end_req_index(rq, coll, cur_seg,
-                                               (s32)-ENOMEM,
-                                               clone_size);
-               size -= clone_size;
-               ofs += clone_size;
+       osdc = &rbd_dev->rbd_client->client->osdc;
+       ret = rbd_obj_request_submit(osdc, obj_request);
+       if (ret)
+               goto out;
+       ret = rbd_obj_request_wait(obj_request);
+       if (ret)
+               goto out;
  
-               cur_seg++;
-       } while (size > 0);
-       kref_put(&coll->kref, rbd_coll_release);
+       ret = obj_request->result;
+       if (ret < 0)
+               goto out;
+       ret = 0;
+       ceph_copy_from_page_vector(pages, inbound, 0, obj_request->xferred);
+       if (version)
+               *version = obj_request->version;
+out:
+       if (obj_request)
+               rbd_obj_request_put(obj_request);
+       else
+               ceph_release_page_vector(pages, page_count);
  
-       return 0;
+       return ret;
  }
  
-/*
- * block device queue callback
- */
-static void rbd_rq_fn(struct request_queue *q)
+static void rbd_request_fn(struct request_queue *q)
+               __releases(q->queue_lock) __acquires(q->queue_lock)
  {
         struct rbd_device *rbd_dev = q->queuedata;
         bool read_only = rbd_dev->mapping.read_only;
         struct request *rq;
+       int result;
  
         while ((rq = blk_fetch_request(q))) {
-               struct ceph_snap_context *snapc = NULL;
-               unsigned int size = 0;
-               int result;
+               bool write_request = rq_data_dir(rq) == WRITE;
+               struct rbd_img_request *img_request;
+               u64 offset;
+               u64 length;
  
-               dout("fetched request\n");
+               /* Ignore any non-FS requests that filter through. */
  
-               /* Filter out block requests we don't understand */
+               if (rq->cmd_type != REQ_TYPE_FS) {
+                       dout("%s: non-fs request type %d\n", __func__,
+                               (int) rq->cmd_type);
+                       __blk_end_request_all(rq, 0);
+                       continue;
+               }
+
+               /* Ignore/skip any zero-length requests */
  
-               if ((rq->cmd_type != REQ_TYPE_FS)) {
+               offset = (u64) blk_rq_pos(rq) << SECTOR_SHIFT;
+               length = (u64) blk_rq_bytes(rq);
+
+               if (!length) {
+                       dout("%s: zero-length request\n", __func__);
                         __blk_end_request_all(rq, 0);
                         continue;
                 }
+
                 spin_unlock_irq(q->queue_lock);
  
-               /* Write requests need a reference to the snapshot context */
+               /* Disallow writes to a read-only device */
  
-               if (rq_data_dir(rq) == WRITE) {
+               if (write_request) {
                         result = -EROFS;
-                       if (read_only) /* Can't write to a read-only device */
-                               goto out_end_request;
+                       if (read_only)
+                               goto end_request;
+                       rbd_assert(rbd_dev->spec->snap_id == CEPH_NOSNAP);
+               }
  
-                       /*
-                        * Note that each osd request will take its
-                        * own reference to the snapshot context
-                        * supplied.  The reference we take here
-                        * just guarantees the one we provide stays
-                        * valid.
-                        */
-                       down_read(&rbd_dev->header_rwsem);
-                       snapc = ceph_get_snap_context(rbd_dev->header.snapc);
-                       up_read(&rbd_dev->header_rwsem);
-                       rbd_assert(snapc != NULL);
-               } else if (!atomic_read(&rbd_dev->exists)) {
-                       rbd_assert(rbd_dev->spec->snap_id != CEPH_NOSNAP);
+               /*
+                * Quit early if the mapped snapshot no longer
+                * exists.  It's still possible the snapshot will
+                * have disappeared by the time our request arrives
+                * at the osd, but there's no sense in sending it if
+                * we already know.
+                */
+               if (!test_bit(RBD_DEV_FLAG_EXISTS, &rbd_dev->flags)) {
                         dout("request for non-existent snapshot");
+                       rbd_assert(rbd_dev->spec->snap_id != CEPH_NOSNAP);
                         result = -ENXIO;
-                       goto out_end_request;
+                       goto end_request;
                 }
  
-               size = blk_rq_bytes(rq);
-               result = rbd_dev_do_request(rq, rbd_dev, snapc,
-                               blk_rq_pos(rq) * SECTOR_SIZE,
-                               size, rq->bio);
-out_end_request:
-               if (snapc)
-                       ceph_put_snap_context(snapc);
+               result = -EINVAL;
+               if (WARN_ON(offset && length > U64_MAX - offset + 1))
+                       goto end_request;       /* Shouldn't happen */
+
+               result = -ENOMEM;
+               img_request = rbd_img_request_create(rbd_dev, offset, length,
+                                                       write_request);
+               if (!img_request)
+                       goto end_request;
+
+               img_request->rq = rq;
+
+               result = rbd_img_request_fill_bio(img_request, rq->bio);
+               if (!result)
+                       result = rbd_img_request_submit(img_request);
+               if (result)
+                       rbd_img_request_put(img_request);
+end_request:
                 spin_lock_irq(q->queue_lock);
-               if (!size || result < 0)
+               if (result < 0) {
+                       rbd_warn(rbd_dev, "obj_request %s result %d\n",
+                               write_request ? "write" : "read", result);
                         __blk_end_request_all(rq, result);
+               }
         }
  }
  
@@ -1735,6 +2119,71 @@ static void rbd_free_disk(struct rbd_device *rbd_dev)
         put_disk(disk);
  }
  
+static int rbd_obj_read_sync(struct rbd_device *rbd_dev,
+                               const char *object_name,
+                               u64 offset, u64 length,
+                               char *buf, u64 *version)
+
+{
+       struct ceph_osd_req_op *op;
+       struct rbd_obj_request *obj_request;
+       struct ceph_osd_client *osdc;
+       struct page **pages = NULL;
+       u32 page_count;
+       size_t size;
+       int ret;
+
+       page_count = (u32) calc_pages_for(offset, length);
+       pages = ceph_alloc_page_vector(page_count, GFP_KERNEL);
+       if (IS_ERR(pages))
+               ret = PTR_ERR(pages);
+
+       ret = -ENOMEM;
+       obj_request = rbd_obj_request_create(object_name, offset, length,
+                                                       OBJ_REQUEST_PAGES);
+       if (!obj_request)
+               goto out;
+
+       obj_request->pages = pages;
+       obj_request->page_count = page_count;
+
+       op = rbd_osd_req_op_create(CEPH_OSD_OP_READ, offset, length);
+       if (!op)
+               goto out;
+       obj_request->osd_req = rbd_osd_req_create(rbd_dev, false,
+                                               obj_request, op);
+       rbd_osd_req_op_destroy(op);
+       if (!obj_request->osd_req)
+               goto out;
+
+       osdc = &rbd_dev->rbd_client->client->osdc;
+       ret = rbd_obj_request_submit(osdc, obj_request);
+       if (ret)
+               goto out;
+       ret = rbd_obj_request_wait(obj_request);
+       if (ret)
+               goto out;
+
+       ret = obj_request->result;
+       if (ret < 0)
+               goto out;
+
+       rbd_assert(obj_request->xferred <= (u64) SIZE_MAX);
+       size = (size_t) obj_request->xferred;
+       ceph_copy_from_page_vector(pages, buf, 0, size);
+       rbd_assert(size <= (size_t) INT_MAX);
+       ret = (int) size;
+       if (version)
+               *version = obj_request->version;
+out:
+       if (obj_request)
+               rbd_obj_request_put(obj_request);
+       else
+               ceph_release_page_vector(pages, page_count);
+
+       return ret;
+}
+
  /*
   * Read the complete header for the given rbd device.
   *
@@ -1773,10 +2222,9 @@ rbd_dev_v1_header_read(struct rbd_device *rbd_dev, u64 *version)
                 if (!ondisk)
                         return ERR_PTR(-ENOMEM);
  
-               ret = rbd_req_sync_read(rbd_dev, rbd_dev->header_name,
+               ret = rbd_obj_read_sync(rbd_dev, rbd_dev->header_name,
                                        0, size,
                                        (char *) ondisk, version);
-
                 if (ret < 0)
                         goto out_err;
                 if (WARN_ON((size_t) ret < size)) {
@@ -1924,8 +2372,7 @@ static int rbd_init_disk(struct rbd_device *rbd_dev)
         disk->fops = &rbd_bd_ops;
         disk->private_data = rbd_dev;
  
-       /* init rq */
-       q = blk_init_queue(rbd_rq_fn, &rbd_dev->lock);
+       q = blk_init_queue(rbd_request_fn, &rbd_dev->lock);
         if (!q)
                 goto out_disk;
  
@@ -2262,7 +2709,7 @@ static void rbd_spec_free(struct kref *kref)
         kfree(spec);
  }
  
-struct rbd_device *rbd_dev_create(struct rbd_client *rbdc,
+static struct rbd_device *rbd_dev_create(struct rbd_client *rbdc,
                                 struct rbd_spec *spec)
  {
         struct rbd_device *rbd_dev;
@@ -2272,7 +2719,7 @@ struct rbd_device *rbd_dev_create(struct rbd_client *rbdc,
                 return NULL;
  
         spin_lock_init(&rbd_dev->lock);
-       atomic_set(&rbd_dev->exists, 0);
+       rbd_dev->flags = 0;
         INIT_LIST_HEAD(&rbd_dev->node);
         INIT_LIST_HEAD(&rbd_dev->snaps);
         init_rwsem(&rbd_dev->header_rwsem);
@@ -2397,11 +2844,11 @@ static int _rbd_dev_v2_snap_size(struct rbd_device *rbd_dev, u64 snap_id,
                 __le64 size;
         } __attribute__ ((packed)) size_buf = { 0 };
  
-       ret = rbd_req_sync_exec(rbd_dev, rbd_dev->header_name,
+       ret = rbd_obj_method_sync(rbd_dev, rbd_dev->header_name,
                                 "rbd", "get_size",
                                 (char *) &snapid, sizeof (snapid),
                                 (char *) &size_buf, sizeof (size_buf), NULL);
-       dout("%s: rbd_req_sync_exec returned %d\n", __func__, ret);
+       dout("%s: rbd_obj_method_sync returned %d\n", __func__, ret);
         if (ret < 0)
                 return ret;
  
@@ -2432,14 +2879,13 @@ static int rbd_dev_v2_object_prefix(struct rbd_device *rbd_dev)
         if (!reply_buf)
                 return -ENOMEM;
  
-       ret = rbd_req_sync_exec(rbd_dev, rbd_dev->header_name,
+       ret = rbd_obj_method_sync(rbd_dev, rbd_dev->header_name,
                                 "rbd", "get_object_prefix",
                                 NULL, 0,
                                 reply_buf, RBD_OBJ_PREFIX_LEN_MAX, NULL);
-       dout("%s: rbd_req_sync_exec returned %d\n", __func__, ret);
+       dout("%s: rbd_obj_method_sync returned %d\n", __func__, ret);
         if (ret < 0)
                 goto out;
-       ret = 0;    /* rbd_req_sync_exec() can return positive */
  
         p = reply_buf;
         rbd_dev->header.object_prefix = ceph_extract_encoded_string(&p,
@@ -2470,12 +2916,12 @@ static int _rbd_dev_v2_snap_features(struct rbd_device *rbd_dev, u64 snap_id,
         u64 incompat;
         int ret;
  
-       ret = rbd_req_sync_exec(rbd_dev, rbd_dev->header_name,
+       ret = rbd_obj_method_sync(rbd_dev, rbd_dev->header_name,
                                 "rbd", "get_features",
                                 (char *) &snapid, sizeof (snapid),
                                 (char *) &features_buf, sizeof (features_buf),
                                 NULL);
-       dout("%s: rbd_req_sync_exec returned %d\n", __func__, ret);
+       dout("%s: rbd_obj_method_sync returned %d\n", __func__, ret);
         if (ret < 0)
                 return ret;
  
@@ -2526,11 +2972,11 @@ static int rbd_dev_v2_parent_info(struct rbd_device *rbd_dev)
         }
  
         snapid = cpu_to_le64(CEPH_NOSNAP);
-       ret = rbd_req_sync_exec(rbd_dev, rbd_dev->header_name,
+       ret = rbd_obj_method_sync(rbd_dev, rbd_dev->header_name,
                                 "rbd", "get_parent",
                                 (char *) &snapid, sizeof (snapid),
                                 (char *) reply_buf, size, NULL);
-       dout("%s: rbd_req_sync_exec returned %d\n", __func__, ret);
+       dout("%s: rbd_obj_method_sync returned %d\n", __func__, ret);
         if (ret < 0)
                 goto out_err;
  
@@ -2597,7 +3043,7 @@ static char *rbd_dev_image_name(struct rbd_device *rbd_dev)
         if (!reply_buf)
                 goto out;
  
-       ret = rbd_req_sync_exec(rbd_dev, RBD_DIRECTORY,
+       ret = rbd_obj_method_sync(rbd_dev, RBD_DIRECTORY,
                                 "rbd", "dir_get_name",
                                 image_id, image_id_size,
                                 (char *) reply_buf, size, NULL);
@@ -2703,11 +3149,11 @@ static int rbd_dev_v2_snap_context(struct rbd_device *rbd_dev, u64 *ver)
         if (!reply_buf)
                 return -ENOMEM;
  
-       ret = rbd_req_sync_exec(rbd_dev, rbd_dev->header_name,
+       ret = rbd_obj_method_sync(rbd_dev, rbd_dev->header_name,
                                 "rbd", "get_snapcontext",
                                 NULL, 0,
                                 reply_buf, size, ver);
-       dout("%s: rbd_req_sync_exec returned %d\n", __func__, ret);
+       dout("%s: rbd_obj_method_sync returned %d\n", __func__, ret);
         if (ret < 0)
                 goto out;
  
@@ -2772,11 +3218,11 @@ static char *rbd_dev_v2_snap_name(struct rbd_device *rbd_dev, u32 which)
                 return ERR_PTR(-ENOMEM);
  
         snap_id = cpu_to_le64(rbd_dev->header.snapc->snaps[which]);
-       ret = rbd_req_sync_exec(rbd_dev, rbd_dev->header_name,
+       ret = rbd_obj_method_sync(rbd_dev, rbd_dev->header_name,
                                 "rbd", "get_snapshot_name",
                                 (char *) &snap_id, sizeof (snap_id),
                                 reply_buf, size, NULL);
-       dout("%s: rbd_req_sync_exec returned %d\n", __func__, ret);
+       dout("%s: rbd_obj_method_sync returned %d\n", __func__, ret);
         if (ret < 0)
                 goto out;
  
@@ -2901,10 +3347,17 @@ static int rbd_dev_snaps_update(struct rbd_device *rbd_dev)
                 if (snap_id == CEPH_NOSNAP || (snap && snap->id > snap_id)) {
                         struct list_head *next = links->next;
  
-                       /* Existing snapshot not in the new snap context */
-
+                       /*
+                        * A previously-existing snapshot is not in
+                        * the new snap context.
+                        *
+                        * If the now missing snapshot is the one the
+                        * image is mapped to, clear its exists flag
+                        * so we can avoid sending any more requests
+                        * to it.
+                        */
                         if (rbd_dev->spec->snap_id == snap->id)
-                               atomic_set(&rbd_dev->exists, 0);
+                               clear_bit(RBD_DEV_FLAG_EXISTS, &rbd_dev->flags);
                         rbd_remove_snap_dev(snap);
                         dout("%ssnap id %llu has been removed\n",
                                 rbd_dev->spec->snap_id == snap->id ?
@@ -2978,7 +3431,7 @@ static int rbd_dev_snaps_register(struct rbd_device *rbd_dev)
         struct rbd_snap *snap;
         int ret = 0;
  
-       dout("%s called\n", __func__);
+       dout("%s:\n", __func__);
         if (WARN_ON(!device_is_registered(&rbd_dev->dev)))
                 return -EIO;
  
@@ -3019,22 +3472,6 @@ static void rbd_bus_del_dev(struct rbd_device *rbd_dev)
         device_unregister(&rbd_dev->dev);
  }
  
-static int rbd_init_watch_dev(struct rbd_device *rbd_dev)
-{
-       int ret, rc;
-
-       do {
-               ret = rbd_req_sync_watch(rbd_dev, 1);
-               if (ret == -ERANGE) {
-                       rc = rbd_dev_refresh(rbd_dev, NULL);
-                       if (rc < 0)
-                               return rc;
-               }
-       } while (ret == -ERANGE);
-
-       return ret;
-}
-
  static atomic64_t rbd_dev_id_max = ATOMIC64_INIT(0);
  
  /*
@@ -3380,14 +3817,13 @@ static int rbd_dev_image_id(struct rbd_device *rbd_dev)
                 goto out;
         }
  
-       ret = rbd_req_sync_exec(rbd_dev, object_name,
+       ret = rbd_obj_method_sync(rbd_dev, object_name,
                                 "rbd", "get_id",
                                 NULL, 0,
                                 response, RBD_IMAGE_ID_LEN_MAX, NULL);
-       dout("%s: rbd_req_sync_exec returned %d\n", __func__, ret);
+       dout("%s: rbd_obj_method_sync returned %d\n", __func__, ret);
         if (ret < 0)
                 goto out;
-       ret = 0;    /* rbd_req_sync_exec() can return positive */
  
         p = response;
         rbd_dev->spec->image_id = ceph_extract_encoded_string(&p,
@@ -3580,7 +4016,7 @@ static int rbd_dev_probe_finish(struct rbd_device *rbd_dev)
         if (ret)
                 goto err_out_bus;
  
-       ret = rbd_init_watch_dev(rbd_dev);
+       ret = rbd_dev_header_watch_sync(rbd_dev, 1);
         if (ret)
                 goto err_out_bus;
  
@@ -3736,14 +4172,8 @@ static void rbd_dev_release(struct device *dev)
  {
         struct rbd_device *rbd_dev = dev_to_rbd_dev(dev);
  
-       if (rbd_dev->watch_request) {
-               struct ceph_client *client = rbd_dev->rbd_client->client;
-
-               ceph_osdc_unregister_linger_request(&client->osdc,
-                                                   rbd_dev->watch_request);
-       }
         if (rbd_dev->watch_event)
-               rbd_req_sync_watch(rbd_dev, 0);
+               rbd_dev_header_watch_sync(rbd_dev, 0);
  
         /* clean up and free blkdev */
         rbd_free_disk(rbd_dev);
@@ -3787,10 +4217,14 @@ static ssize_t rbd_remove(struct bus_type *bus,
                 goto done;
         }
  
-       if (rbd_dev->open_count) {
+       spin_lock_irq(&rbd_dev->lock);
+       if (rbd_dev->open_count)
                 ret = -EBUSY;
+       else
+               set_bit(RBD_DEV_FLAG_REMOVING, &rbd_dev->flags);
+       spin_unlock_irq(&rbd_dev->lock);
+       if (ret < 0)
                 goto done;
-       }
  
         rbd_remove_all_snaps(rbd_dev);
         rbd_bus_del_dev(rbd_dev);
@@ -3826,10 +4260,15 @@ static void rbd_sysfs_cleanup(void)
         device_unregister(&rbd_root_dev);
  }
  
-int __init rbd_init(void)
+static int __init rbd_init(void)
  {
         int rc;
  
+       if (!libceph_compatible(NULL)) {
+               rbd_warn(NULL, "libceph incompatibility (quitting)");
+
+               return -EINVAL;
+       }
         rc = rbd_sysfs_init();
         if (rc)
                 return rc;
@@ -3837,7 +4276,7 @@ int __init rbd_init(void)
         return 0;
  }
  
-void __exit rbd_exit(void)
+static void __exit rbd_exit(void)
  {
         rbd_sysfs_cleanup();
  }