-
从零构建的Simple-Inference-Server:一款用于机器学习模型推理的服务器
资源介绍
简单推理服务器
介绍
用于机器学习模型推理的简单多线程 TCP/IP 服务器的实现。 具体来说,以问答(QA)服务为例。 服务器设计为具有线程安全队列,其中所有推理请求都被保留,多个推理引擎工作线程将获得推理请求并并发处理。
用法
构建 Docker 镜像
$ docker build -f docker/server_amd64.Dockerfile --no-cache --tag=qa-server:0.0.1 .
运行 Docker 容器
要为服务器运行 Docker 容器,我们必须使用 GPU 进行推理。
$ docker run -it --rm --gpus device=0 --network=host -v $(pwd):/mnt qa-server:0.0.1
要为客户端运行 Docker 容器,我们根本不需要 GPU。
$ docker run -it --
- 上一篇: 小米首页源码资源
- 下一篇: onnx-ml-demo:使用ONNX进行模型推理的演示