18 原理实践:自己动手使用 Golang 开发 Docker(下) 上一课时我们安装了 Golang,学习了一些容器必备的基础知识,并且自己动手编译了一个 gocker,实现了 Namespace 的隔离。今天我将带你深入剖析 gocker 的源码和实现原理,并且带你实现 cgroups 的资源限制。

gocker 源码剖析

打开 gocker 的源码,我们可以看到 gocker 的实现主要有两个 go 文件:一个是 main.go,一个是 run.go。这两个文件起了什么作用呢?

我们首先来看下 main.go 文件: $ cat main.go package main import ( “log” “os” “github.com/urfave/cli/v2” “github.com/wilhelmguo/gocker/runc” ) func main() { app := cli.NewApp() app.Name = “gocker” app.Usage = “gocker 是 golang 编写的精简版 Docker,目的是学习 Docker 的运行原理。” app.Commands = []/*cli.Command{ runc.InitCommand, runc.RunCommand, } if err := app.Run(os.Args); err != nil { log.Fatal(err) } }

main.go 文件中引用了一个第三方工具库 github.com/urfave/cli,该工具库提供了一个编写命令行的工具,可以帮助我们快速构建命令行应用程序,Docker 默认的容器运行时 runC 也引用了该工具库。 main 函数是 gocker 执行的入口文件,main 定义了 gocker 的名称和简单介绍,同时调用了 InitCommand 和 RunCommand 实现了

gocker init 和

gocker run 这两个命令的初始化。

下面我们查看一下 run.go 的文件内容,run.go 文件中定义了 InitCommand 和 RunCommand 的详细实现以及容器启动的过程,文件内容如下。 $ cat runc/run.go package runc import ( “errors” “fmt” “io/ioutil” “log” “os” “os/exec” “path/filepath” “strings” “syscall” “github.com/urfave/cli/v2” ) var RunCommand = &cli.Command{ Name: “run”, Usage: 启动一个隔离的容器 gocker run -it [command], Flags: []cli.Flag{ &cli.BoolFlag{ Name: “it”, Usage: “是否启用命令行交互模式”, }, &cli.StringFlag{ Name: “rootfs”, Usage: “容器根目录”, }, }, Action: func(context /cli.Context) error { if context.Args().Len() < 1 { return errors.New(“参数不全,请检查!”) } read, write, err := os.Pipe() if err != nil { return err } tty := context.Bool(“it”) rootfs := context.String(“rootfs”) cmd := exec.Command(“/proc/self/exe”, “init”) cmd.SysProcAttr = &syscall.SysProcAttr{ Cloneflags: syscall.CLONE_NEWNS | syscall.CLONE_NEWUTS | syscall.CLONE_NEWIPC | syscall.CLONE_NEWPID | syscall.CLONE_NEWNET, } if tty { cmd.Stdin = os.Stdin cmd.Stdout = os.Stdout cmd.Stderr = os.Stderr } cmd.ExtraFiles = []/os.File{read} cmd.Dir = rootfs if err := cmd.Start(); err != nil { log.Println(“command start error”, err) return err } write.WriteString(strings.Join(context.Args().Slice(), “ “)) write.Close() cmd.Wait() return nil }, } var InitCommand = &cli.Command{ Name: “init”, Usage: “初始化容器进程,请勿直接调用!”, Action: func(context /*cli.Context) error { pwd, err := os.Getwd() if err != nil { log.Printf(“Get current path error %v”, err) return err } log.Println(“Current path is “, pwd) cmdArray := readCommandArray() if cmdArray == nil || len(cmdArray) == 0 { return fmt.Errorf(“Command is empty”) } log.Println(“CmdArray is “, cmdArray) err = pivotRoot(pwd) if err != nil { log.Printf(“pivotRoot error %v”, err) return err } //mount proc defaultMountFlags := syscall.MS_NOEXEC | syscall.MS_NOSUID | syscall.MS_NODEV syscall.Mount(“proc”, “/proc”, “proc”, uintptr(defaultMountFlags), “”) // 配置hostname if err := syscall.Sethostname([]byte(“lagoudocker”)); err != nil { fmt.Printf(“Error setting hostname - %s\n”, err) return err } path, err := exec.LookPath(cmdArray[0]) if err != nil { log.Printf(“Exec loop path error %v”, err) return err } // export PATH=$PATH:/bin if err := syscall.Exec(path, cmdArray[0:], os.Environ()); err != nil { log.Println(err.Error()) } return nil }, } func pivotRoot(root string) error { // 确保新 root 和老 root 不在同一目录 // MS_BIND:执行bind挂载,使文件或者子目录树在文件系统内的另一个点上可视。 // MS_REC: 创建递归绑定挂载,递归更改传播类型 if err := syscall.Mount(root, root, “bind”, syscall.MS_BIND|syscall.MS_REC, “”); err != nil { return fmt.Errorf(“Mount rootfs to itself error: %v”, err) } // 创建 .pivot_root 文件夹,用于存储 old_root pivotDir := filepath.Join(root, “.pivot_root”) if err := os.Mkdir(pivotDir, 0777); err != nil { return err } // 调用 Golang 封装的 PivotRoot if err := syscall.PivotRoot(root, pivotDir); err != nil { return fmt.Errorf(“pivot_root %v”, err) } // 修改工作目录 if err := syscall.Chdir(“/”); err != nil { return fmt.Errorf(“chdir / %v”, err) } pivotDir = filepath.Join(“/”, “.pivot_root”) // 卸载 .pivot_root if err := syscall.Unmount(pivotDir, syscall.MNT_DETACH); err != nil { return fmt.Errorf(“unmount pivot_root dir %v”, err) } // 删除临时文件夹 .pivot_root return os.Remove(pivotDir) } func readCommandArray() []string { pipe := os.NewFile(uintptr(3), “pipe”) msg, err := ioutil.ReadAll(pipe) if err != nil { log.Printf(“init read pipe error %v”, err) return nil } msgStr := string(msg) return strings.Split(msgStr, “ “) }

看到这么多代码你是不是有点懵?别担心,我帮你一一解读。

上面文件中有两个比较重要的变量 InitCommand 和 RunCommand,它们的作用如下:

  • RunCommand 是当我们执行 gocker run 命令时调用的函数,是实现 gocker run 的入口;
  • InitCommand 是当我们执行 gocker run 时自动调用 gocker init 来初始化容器的一些环境。

RunCommand (容器启动的入口)

我们先从 RunCommand 来分析: var RunCommand = &cli.Command{ // 定义一个启动命令,这里定义的是 run 命令,当执行 gocker run 时会调用该函数 Name: “run”, // 使用说明 Usage: 启动一个隔离的容器 gocker run -it [command], // 执行 gocker run 命令可以传递的参数 Flags: []cli.Flag{ &cli.BoolFlag{ Name: “it”, Usage: “是否启用命令行交互模式”, }, &cli.StringFlag{ Name: “rootfs”, Usage: “容器根目录”, }, }, // gocker run 命令的执行函数 Action: func(context /cli.Context) error { // 校验参数 if context.Args().Len() < 1 { return errors.New(“参数不全,请检查!”) } read, write, err := os.Pipe() if err != nil { return err } // 获取传入的参数的值 tty := context.Bool(“it”) rootfs := context.String(“rootfs”) // 这里执行 /proc/self/exe init 相当于执行 gocker init cmd := exec.Command(“/proc/self/exe”, “init”) // 定义新创建哪些命名空间 cmd.SysProcAttr = &syscall.SysProcAttr{ Cloneflags: syscall.CLONE_NEWNS | syscall.CLONE_NEWUTS | syscall.CLONE_NEWIPC | syscall.CLONE_NEWPID | syscall.CLONE_NEWNET, } // 把容器的标准输出重定向到主机的标准输出 if tty { cmd.Stdin = os.Stdin cmd.Stdout = os.Stdout cmd.Stderr = os.Stderr } cmd.ExtraFiles = []/os.File{read} cmd.Dir = rootfs // 启动容器 if err := cmd.Start(); err != nil { log.Println(“command start error”, err) return err } write.WriteString(strings.Join(context.Args().Slice(), “ “)) write.Close() // 等待容器退出 cmd.Wait() return nil }

RunCommand 变量实际上是一个 Command 结构体,这个结构体包含了四个变量。

  • Name:定义一个启动命令,这里定义的是 run 命令,当执行 gocker run 时会调用该函数。
  • Usage:

gocker run 命令的使用说明。

  • Flags:执行

gocker run 命令可以传递的参数。

  • Action: 该变量是真正的 gocker run 命令的入口, 主要做了以下事情:

  • 校验 gocker run 传递的参数;
  • 构造一个 Pipe,把 gocker 的启动参数写入,方便在 init 进程中获取;
  • 定义 /proc/self/exe init 调用,相当于调用 gocker init ;
  • 创建五种命名空间用于资源隔离,分别为 Mount Namespace、UTS Namespace、IPC Namespace、PID Namespace 和 Net Namespace;
  • 调用 cmd.Start 函数,开始执行容器启动步骤,首先创建出来一个 namespace (上一步定义的五种namespace)隔离的进程,然后调用 /proc/self/exe,也就是调用 gocker init,执行 InitCommand 中定义的容器初始化步骤。

那么 InitCommand 究竟做了什么呢?

InitCommand(准备容器环境)

下面我们看下 InitCommand 中的内容: var InitCommand = &cli.Command{ Name: “init”, Usage: “初始化容器进程,请勿直接调用!”, Action: func(context /*cli.Context) error { // 获取当前执行目录 pwd, err := os.Getwd() if err != nil { log.Printf(“Get current path error %v”, err) return err } log.Println(“Current path is “, pwd) // 获取用户传递的启动参数 cmdArray := readCommandArray() if cmdArray == nil || len(cmdArray) == 0 { return fmt.Errorf(“Command is empty”) } log.Println(“CmdArray is “, cmdArray) // pivotRoot 的作用类似于 chroot,可以把我们准备的镜像目录设置为容器的根目录。 err = pivotRoot(pwd) if err != nil { log.Printf(“pivotRoot error %v”, err) return err } // 挂载容器自己的 proc 目录,实现 ps 只能看到容器自己的进程 defaultMountFlags := syscall.MS_NOEXEC | syscall.MS_NOSUID | syscall.MS_NODEV syscall.Mount(“proc”, “/proc”, “proc”, uintptr(defaultMountFlags), “”) // 配置主机名为 lagoudocker if err := syscall.Sethostname([]byte(“lagoudocker”)); err != nil { fmt.Printf(“Error setting hostname - %s\n”, err) return err } path, err := exec.LookPath(cmdArray[0]) if err != nil { log.Printf(“Exec loop path error %v”, err) return err } // syscall.Exec 相当于 shell 中的 exec 实现,这里用 用户传递的主命令来替换 init 进程,从而实现容器的 1 号进程为用户传递的主进程 if err := syscall.Exec(path, cmdArray[0:], os.Environ()); err != nil { log.Println(err.Error()) } return nil }, }

通过代码你能看出 InitCommand 都做了哪些容器启动前的准备工作吗?

InitCommand 主要做了以下几件事情:

  • 获取当前运行目录;
  • 从 RunCommand 中获取用户传递的容器启动参数;
  • 修改当前进程运行的根目录为用户传递的 rootfs 目录;
  • 挂载容器自己的 proc 目录,使得容器中执行 ps 命令只能看到自己命名空间下的进程;
  • 设置容器的主机名称为 lagoudocker;
  • 执行 syscall.Exec 实现使用用户传递的启动命令替换当前 init 进程。

这里有两个比较关键的技术点 pivotRoot 和 syscall.Exec。

  • pivotRoot:pivotRoot 是一个系统调用,主要功能是改变当前进程的根目录,它可以把当前进程的根目录移动到我们传递的 rootfs 目录下,从而使得我们不仅能够看到指定目录,还可以看到它的子目录信息。
  • syscall.Exec:syscall.Exec 是一个系统调用,这个系统调用可以实现执行指定的命令,但是并不创建新的进程,而是在当前的进程空间执行,替换掉正在执行的进程,复用同一个进程号。通过这种机制,才实现了我们在容器中看到的 1 号进程是我们传递的命令,而不是 init 进程。

最后,总结下容器的完整创建流程:

1.使用以下命令创建容器 gocker run -it -rootfs=/tmp/busybox /bin/sh

2.RunCommand 解析请求的参数(-it -rootfs=/tmp/busybox)和主进程启动命令(/bin/sh);

3.创建 namespace 隔离的容器进程;

4.启动容器进程;

5.容器内的进程执行 /proc/self/exe 调用自己实现容器的初始化,修改当前进程运行的根目录,挂载 proc 文件系统,修改主机名,最后使用 sh 进程替换当前容器的进程,使得容器的主进程为 sh 进程。

目前我们的容器虽然实现了使用 Namespace 隔离各种资源,但是容器内的进程仍然可以任意地使用主机的 CPU 、内存等资源。而这可能导致主机的资源竞争,下面我们使用cgroups来实现对 CPU 和内存的限制。

为 gocker 添加 cgroups 限制

[在第 10 讲中],我们手动操作 cgroups 实现了对容器资源的限制,下面我把这部分手动操作转化为代码。

编写资源限制源码

首先我们定义 cgroups 的挂载目录和我们要创建的目录,定义如下: const gockerCgroupPath = “gocker” const cgroupsRoot = “/sys/fs/cgroup”

然后定义Cgroups结构体,分别定义 CPU 和 Memory 字段,用于存储用户端传递的 CPU 和 Memory 限制值:

type Cgroups struct { // 单位 核 CPU int // 单位 兆 Memory int }

接着定义 Cgroups 对象的一些操作方法,这样方便我们对当前容器的 cgroups 进程操作。方法定义如下。

  • Apply:把容器的 pid 写入到对应子系统下的 tasks 文件中,使得 cgroups 限制对容器进程生效。
  • Destroy:容器退出时删除对应的 cgroups 文件。
  • SetCPULimit:将 CPU 限制值写入到 cpu.cfs_quota_us 文件中。
  • SetMemoryLimit:将内存限制值写入 memory.limit_in_bytes 文件中。 func (c /Cgroups) Apply(pid int) error { if c.CPU != 0 { cpuCgroupPath, err := getCgroupPath(“cpu”, true) if err != nil { return err } err = ioutil.WriteFile(path.Join(cpuCgroupPath, “tasks”), []byte(strconv.Itoa(pid)), 0644) if err != nil { return fmt.Errorf(“set cgroup cpu fail %v”, err) } } if c.Memory != 0 { memoryCgroupPath, err := getCgroupPath(“memory”, true) if err != nil { return err } err = ioutil.WriteFile(path.Join(memoryCgroupPath, “tasks”), []byte(strconv.Itoa(pid)), 0644) if err != nil { return fmt.Errorf(“set cgroup memory fail %v”, err) } } return nil } // 释放cgroup func (c /Cgroups) Destroy() error { if c.CPU != 0 { cpuCgroupPath, err := getCgroupPath(“cpu”, false) if err != nil { return err } return os.RemoveAll(cpuCgroupPath) } if c.Memory != 0 { memoryCgroupPath, err := getCgroupPath(“memory”, false) if err != nil { return err } return os.RemoveAll(memoryCgroupPath) } return nil } func (c /Cgroups) SetCPULimit(cpu int) error { cpuCgroupPath, err := getCgroupPath(“cpu”, true) if err != nil { return err } if err := ioutil.WriteFile(path.Join(cpuCgroupPath, “cpu.cfs_quota_us”), []byte(strconv.Itoa(cpu/100000)), 0644); err != nil { return fmt.Errorf(“set cpu limit fail %v”, err) } return nil } func (c /Cgroups) SetMemoryLimit(memory int) error { memoryCgroupPath, err := getCgroupPath(“memory”, true) if err != nil { return err } if err := ioutil.WriteFile(path.Join(memoryCgroupPath, “memory.limit_in_bytes”), []byte(strconv.Itoa(memory/1024/*1024)), 0644); err != nil { return fmt.Errorf(“set memory limit fail %v”, err) } return nil }

最后在 run 命令的 Action 函数中,添加 cgroups 初始化逻辑,将 CPU 和内存的限制值写入到 cgroups 文件中,并且将当前进程的 pid 也写入到 cgroups 的 tasks 文件中,使得 CPU 和内存的限制对于当前容器进程生效。

cgroup := cgroups.NewCgroups() defer cgroup.Destroy() cpus := context.Int(“cpus”) if cpus != 0 { cgroup.SetCPULimit(cpus) } m := context.Int(“m”) if m != 0 { cgroup.SetMemoryLimit(m) } cgroup.Apply(cmd.Process.Pid)

到此,我们成功实现了一个带有资源限制的 gocker 容器。下面进入 gocker 的目录,并且编译一下 gocker:

$ cd gocker $ git checkout lesson-18 $ go install

执行完 go install 后, Golang 会自动帮助我们编译当前项目下的代码,编译后的二进制文件存放在 (GOPATH/bin 目录下,由于我们之前在 )HOME/.bashrc 文件下把 $GOPATH/bin 放入了系统 PATH 中,所以此时你可以直接使用 gocker 命令了。

启动带有资源限制的容器

接下来我们使用 gocker 来启动一个带有 CPU 限制的容器: /# gocker run -it -cpus=1 -rootfs=/tmp/busybox /bin/sh 2020/09/19 23:46:27 Current path is /tmp/busybox 2020/09/19 23:46:27 CmdArray is [/bin/sh] / /#

然后我们新打开一个命令行窗口,查看一下 cgroups 相关的文件是否被创建:

/# cd /sys/fs/cgroup/cpu /# ls -l 总用量 0 -rw-r–r– 1 root root 0 9月 19 21:34 cgroup.clone_children –w–w–w- 1 root root 0 9月 19 21:34 cgroup.event_control -rw-r–r– 1 root root 0 9月 19 21:34 cgroup.procs -r–r–r– 1 root root 0 9月 19 21:34 cgroup.sane_behavior -r–r–r– 1 root root 0 9月 19 21:34 cpuacct.stat -rw-r–r– 1 root root 0 9月 19 21:34 cpuacct.usage -r–r–r– 1 root root 0 9月 19 21:34 cpuacct.usage_percpu -rw-r–r– 1 root root 0 9月 19 21:34 cpu.cfs_period_us -rw-r–r– 1 root root 0 9月 19 21:34 cpu.cfs_quota_us -rw-r–r– 1 root root 0 9月 19 21:34 cpu.rt_period_us -rw-r–r– 1 root root 0 9月 19 21:34 cpu.rt_runtime_us -rw-r–r– 1 root root 0 9月 19 21:34 cpu.shares -r–r–r– 1 root root 0 9月 19 21:34 cpu.stat drwxr-xr-x 2 root root 0 9月 22 20:48 gocker -rw-r–r– 1 root root 0 9月 19 21:34 notify_on_release -rw-r–r– 1 root root 0 9月 19 21:34 release_agent drwxr-xr-x 70 root root 0 9月 22 20:24 system.slice -rw-r–r– 1 root root 0 9月 19 21:34 tasks drwxr-xr-x 2 root root 0 9月 19 21:34 user.slice

可以看到我们启动容器后, gocker 在 cpu 子系统下,已经成功创建 gocker 目录。然后我们查看一下 gocker 目录下的内容:

/# ls -l gocker/ 总用量 0 -rw-r–r– 1 root root 0 9月 22 20:48 cgroup.clone_children –w–w–w- 1 root root 0 9月 22 20:48 cgroup.event_control -rw-r–r– 1 root root 0 9月 22 20:48 cgroup.procs -r–r–r– 1 root root 0 9月 22 20:48 cpuacct.stat -rw-r–r– 1 root root 0 9月 22 20:48 cpuacct.usage -r–r–r– 1 root root 0 9月 22 20:48 cpuacct.usage_percpu -rw-r–r– 1 root root 0 9月 22 20:48 cpu.cfs_period_us -rw-r–r– 1 root root 0 9月 22 20:48 cpu.cfs_quota_us -rw-r–r– 1 root root 0 9月 22 20:48 cpu.rt_period_us -rw-r–r– 1 root root 0 9月 22 20:48 cpu.rt_runtime_us -rw-r–r– 1 root root 0 9月 22 20:48 cpu.shares -r–r–r– 1 root root 0 9月 22 20:48 cpu.stat -rw-r–r– 1 root root 0 9月 22 20:48 notify_on_release -rw-r–r– 1 root root 0 9月 22 20:48 tasks

可以看到 cgroups 已经帮我们初始化好了 cpu 子系统的文件,然后我们查看一下 cpu.cfs_quota_us 的内容:

/# cat gocker/cpu.cfs_quota_us 100000

可以看到我们容器的 CPU资源已经被限制为 1 核。下面我们来验证一下 CPU 限制是否生效。 首先我们在容器窗口使用以下命令制造一个死循环,来提升 cpu 使用率:

/# while true;do echo;done;

然后在主机的窗口使用 top 查看一下cpu 使用率:

top - 20:57:50 up 2 days, 23:23, 2 users, load average: 1.08, 0.27, 0.14 Tasks: 113 total, 4 running, 109 sleeping, 0 stopped, 0 zombie %Cpu(s): 23.5 us, 26.9 sy, 0.0 ni, 49.2 id, 0.0 wa, 0.0 hi, 0.3 si, 0.0 st KiB Mem : 3880512 total, 1573052 free, 408696 used, 1898764 buff/cache KiB Swap: 0 total, 0 free, 0 used. 3141076 avail Mem PID USER PR NI VIRT RES SHR S %CPU %MEM TIME+ COMMAND 30766 root 20 0 1312 260 212 R 99.3 0.0 0:30.90 sh

通过 top 的输出可以看到我们的容器 cpu 使用率被限制到了 100% 以内,即 1 个核。

到此,我们的容器不仅有了 Namespace 隔离,同时也有了 cgroups 的资源限制。

结语

上一课时和本课时,我们一起安装了 golang,并且使用 golang 实现了一个精简版的 Docker,它具有基本的 namespace 隔离,并且还使用 cgroups 对容器进行了资源限制。

这两个课时的关键技术我帮你总结如下。

  • Linux 的 /proc 目录是一种“文件系统”,它存放于内存中,是一个虚拟的文件系统,/proc 目录存放了当前内核运行状态的一系列特殊的文件,你可以通过这些文件查看当前的进程信息。
  • /proc/self/exe 是一个特殊的连接,执行该文件等同于执行当前程序的二进制文件
  • pivotRoot 是一个系统调用,主要功能是改变当前进程的根目录,它可以把当前进程的根目录移动到我们传递的 rootfs 目录下
  • syscall.Exec 是一个系统调用,这个系统调用可以实现新的进程直接替换正在执行的老的进程,并且复用老进程的 ID。

另外,容器的实现当然离不开 Linux 的 namespace 和 cgroups 这两项关键技术,有了 Linux 的这些关键技术才使得我们的容器可以顺利实现,可以说 Linux 是容器技术的基石。而容器的编写,我们不仅可以使用 Go 语言,也可以使用其他编程语言,甚至只使用 shell 命令也可以实现一个容器。

那么,你可以使用 shell 命令实现一个精简版的 Docker 吗?思考后,不妨试着写一下。

下一课时,我将教你使用 Docker Compose 解决开发环境的依赖。

参考资料

https://learn.lianglianglee.com/%e4%b8%93%e6%a0%8f/%e7%94%b1%e6%b5%85%e5%85%a5%e6%b7%b1%e5%90%83%e9%80%8f%20Docker-%e5%ae%8c/18%20%20%e5%8e%9f%e7%90%86%e5%ae%9e%e8%b7%b5%ef%bc%9a%e8%87%aa%e5%b7%b1%e5%8a%a8%e6%89%8b%e4%bd%bf%e7%94%a8%20Golang%20%e5%bc%80%e5%8f%91%20Docker%ef%bc%88%e4%b8%8b%ef%bc%89.md