今天为大家带来一个实战项目。建议你一定要动手实践。
在往下看之前,你不妨思考下,用 Go 如何实现一个并发下载器。(我之前有推荐过一个类似的开源项目:[推荐三个Go实战开源项目]
对于服务器上的某个文件,我们要并发下载到本地,很容易想到,应该将文件分成多个部分,然后开多个 goroutine 并发地去下载,最后将这多个部分合并成一个文件,实现并发下载的目的。
现在的问题是,服务器上的一个文件,我们怎么做到分成多个呢?
这需要 HTTP 协议相关知识了。
HTTP 协议有一个响应头:Accept-Ranges,服务器通过该头来标识自身支持部分请求(partial requests),也叫范围请求。如果服务端支持部分请求,我们就可以实现并发下载。该头有两个可能的值:
Accept-Ranges: bytes
Accept-Ranges: none
所以,我们在并发下载之前,应该先发起一个 Head 请求,来确认服务端是否支持部分请求。比如:
resp, err := http.Head("https://studygolang.com/dl/golang/go1.16.5.src.tar.gz")
if err != nil {
return err
}
if resp.StatusCode == http.StatusOK && resp.Header.Get("Accept-Ranges") == "bytes" {
// 支持部分请求
}
确认了服务器支持部分请求,接下来就是如何进行部分请求。
这就用到 HTTP 的一个请求头部:Range。(详情参考:https://developer.mozilla.org/zh-CN/docs/Web/HTTP/Headers/Range)
Range 告知服务器返回文件的哪一部分。在一个 Range 头部中,可以一次性请求多个部分,服务器会以 multipart 文件的形式将其返回。如果服务器返回的是范围响应,需要使用 206 Partial Content 状态码。假如所请求的范围不合法,那么服务器会返回 416 Range Not Satisfiable 状态码,表示客户端错误。服务器允许忽略 Range 首部,从而返回整个文件,状态码用 200。
具体语法:
Range: <unit>=<range-start>-
Range: <unit>=<range-start>-<range-end>
Range: <unit>=<range-start>-<range-end>, <range-start>-<range-end>
Range: <unit>=<range-start>-<range-end>, <range-start>-<range-end>, <range-start>-<range-end>
<unit>
范围所采用的单位,通常是字节(bytes)。
<range-start>
一个整数,表示在特定单位下,范围的起始值。
<range-end>
一个整数,表示在特定单位下,范围的结束值。这个值是可选的,如果不存在,表示此范围一直延伸到文档结束。
例如:
Range: bytes=200-1000, 2000-6576, 19000-
掌握了以上知识点,最后要做的就是将下载下来的各个部分合并成一个文件。需要注意各个部分的顺序,比如根据顺序,按 1、2、3 等编号。
知道了原理不代表你真的就会了,我们应该实际动手实现一个,加深理解。
在本地某个目录下创建目录:downloader。
$ mkdir downloader
$ cd downloader
$ go mod init github.com/polaris1119/downloader
为了让工具更好用,我们应该支持命令行参数,而不是代码写死一个,比如要下载的 URL、并发数、输出的文件名等。关于命令行参数控制,除了使用标准库 flag,我比较喜欢 github.com/urfave/cli,最新版本 v2。
创建一个文件 main.go,内容如下:
package main
import (
"log"
"os"
"runtime"
"github.com/urfave/cli/v2"
)
func main() {
// 默认并发数
concurrencyN := runtime.NumCPU()
app := &cli.App{
Name: "downloader",
Usage: "File concurrency downloader",
Flags: []cli.Flag{
&cli.StringFlag{
Name: "url",
Aliases: []string{"u"},
Usage: "`URL` to download",
Required: true,
},
&cli.StringFlag{
Name: "output",
Aliases: []string{"o"},
Usage: "Output `filename`",
},
&cli.IntFlag{
Name: "concurrency",
Aliases: []string{"n"},
Value: concurrencyN,
Usage: "Concurrency `number`",
},
},
Action: func(c *cli.Context) error {
return nil
},
}
err := app.Run(os.Args)
if err != nil {
log.Fatal(err)
}
}
执行 go mod tidy,下载必要的包。然后执行:
$ go run main.go -h
NAME:
downloader - File concurrency downloader
USAGE:
downloader [global options] command [command options] [arguments...]
COMMANDS:
help, h Shows a list of commands or help for one command
GLOBAL OPTIONS:
--url URL, -u URL URL to download
--output filename, -o filename Output filename
--concurrency number, -n number Concurrency number (default: 8)
--help, -h show help (default: false)
关于 cli 这个库的使用,可以参阅官方文档,写的很详细,也有很多例子。
创建另外一个文件 downloader.go,定义一个结构体 Dowloader:
package main
type Downloader struct {
concurrency int
}
func NewDownloader(concurrency int) *Downloader {
return &Downloader{concurrency: concurrency}
}
为该结构体增加 Download 方法:
func (d *Downloader) Download(strURL, filename string) error {
if filename == "" {
filename = path.Base(strURL)
}
resp, err := http.Head(strURL)
if err != nil {
return err
}
if resp.StatusCode == http.StatusOK && resp.Header.Get("Accept-Ranges") == "bytes" {
return d.multiDownload(strURL, filename, int(resp.ContentLength))
}
return d.singleDownload(strURL, filename)
}
func (d *Downloader) multiDownload(strURL, filename string, contentLen int) error {
return nil
}
func (d *Downloader) singleDownload(strURL, filename string) error {
return nil
}
当支持部分请求时,文件总大小通过 Head 请求的响应中的 ContentLength 可以获得。有了文件总大小和并发数,就可以知道每个部分的大小了。
这部分第一个要点是如何发起部分请求:
req, err := http.NewRequest("GET", "https://apache.claz.org/zookeeper/zookeeper-3.7.0/apache-zookeeper-3.7.0-bin.tar.gz", nil)
if err != nil {
return err
}
rangeStart := 2000
rangeStop := 3000
req.Header.Set("Range", fmt.Sprintf("bytes=%d-%d", rangeStart, rangeStop))
res, err := http.DefaultClient.Do(req)
我们可以将其封装成一个方法:
func (d *Downloader) downloadPartial(strURL, filename string, rangeStart, rangeEnd, i int) {
if rangeStart >= rangeEnd {
return
}
req, err := http.NewRequest("GET", strURL, nil)
if err != nil {
log.Fatal(err)
}
req.Header.Set("Range", fmt.Sprintf("bytes=%d-%d", rangeStart, rangeEnd))
resp, err := http.DefaultClient.Do(req)
if err != nil {
log.Fatal(err)
}
defer resp.Body.Close()
flags := os.O_CREATE | os.O_WRONLY
partFile, err := os.OpenFile(d.getPartFilename(filename, i), flags, 0666)
if err != nil {
log.Fatal(err)
}
defer partFile.Close()
buf := make([]byte, 32*1024)
_, err = io.CopyBuffer(partFile, resp.Body, buf)
if err != nil {
if err == io.EOF {
return
}
log.Fatal(err)
}
}
// getPartDir 部分文件存放的目录
func (d *Downloader) getPartDir(filename string) string {
return strings.SplitN(filename, ".", 2)[0]
}
// getPartFilename 构造部分文件的名字
func (d *Downloader) getPartFilename(filename string, partNum int) string {
partDir := d.getPartDir(filename)
return fmt.Sprintf("%s/%s-%d", partDir, filename, partNum)
}
然后就是 multiDownload 方法中怎么分部分,这和并发请求多个 URL 很类似,使用 sync.WaitGroup 进行控制:
func (d *Downloader) multiDownload(strURL, filename string, contentLen int) error {
partSize := contentLen / d.concurrency
// 创建部分文件的存放目录
partDir := d.getPartDir(filename)
os.Mkdir(partDir, 0777)
defer os.RemoveAll(partDir)
var wg sync.WaitGroup
wg.Add(d.concurrency)
rangeStart := 0
for i := 0; i < d.concurrency; i++ {
// 并发请求
go func(i, rangeStart int) {
defer wg.Done()
rangeEnd := rangeStart + partSize
// 最后一部分,总长度不能超过 ContentLength
if i == d.concurrency-1 {
rangeEnd = contentLen
}
d.downloadPartial(strURL, filename, rangeStart, rangeEnd, i)
}(i, rangeStart)
rangeStart += partSize + 1
}
wg.Wait()
// 合并文件
d.merge(filename)
return nil
}
func (d *Downloader) merge(filename string) error {
return nil
}
因为把每部分单独保存为文件了,所以合并只需要按照顺序处理这些文件即可:
func (d *Downloader) merge(filename string) error {
destFile, err := os.OpenFile(filename, os.O_CREATE|os.O_WRONLY, 0666)
if err != nil {
return err
}
defer destFile.Close()
for i := 0; i < d.concurrency; i++ {
partFileName := d.getPartFilename(filename, i)
partFile, err := os.Open(partFileName)
if err != nil {
return err
}
io.Copy(destFile, partFile)
partFile.Close()
os.Remove(partFileName)
}
return nil
}
到这里,程序的核心部分已经完成。接下来该在 main.go 中的 Action 作如下处理:
Action: func(c *cli.Context) error {
strURL := c.String("url")
filename := c.String("output")
concurrency := c.Int("concurrency")
return NewDownloader(concurrency).Download(strURL, filename)
},
到这里可以运行测试下:
go run . --url https://apache.claz.org/zookeeper/zookeeper-3.7.0/apache-zookeeper-3.7.0-bin.tar.gz
不出意外的话文件会下载成功。
实现了基本功能,读者朋友们可以进一步做优化、完善。比如:
类似下面这样:
这个实现的完整代码我放在了 GitHub:https://github.com/polaris1119/downloader。
还有两点大家可以注意下:
最后,再提醒一次,记得自己动手实现一个哦。
本文由哈喽比特于2年以前收录,如有侵权请联系我们。
文章来源:https://mp.weixin.qq.com/s/Bfbrk72aWHEB99z3DG6Z1w
京东创始人刘强东和其妻子章泽天最近成为了互联网舆论关注的焦点。有关他们“移民美国”和在美国购买豪宅的传言在互联网上广泛传播。然而,京东官方通过微博发言人发布的消息澄清了这些传言,称这些言论纯属虚假信息和蓄意捏造。
日前,据博主“@超能数码君老周”爆料,国内三大运营商中国移动、中国电信和中国联通预计将集体采购百万台规模的华为Mate60系列手机。
据报道,荷兰半导体设备公司ASML正看到美国对华遏制政策的负面影响。阿斯麦(ASML)CEO彼得·温宁克在一档电视节目中分享了他对中国大陆问题以及该公司面临的出口管制和保护主义的看法。彼得曾在多个场合表达了他对出口管制以及中荷经济关系的担忧。
今年早些时候,抖音悄然上线了一款名为“青桃”的 App,Slogan 为“看见你的热爱”,根据应用介绍可知,“青桃”是一个属于年轻人的兴趣知识视频平台,由抖音官方出品的中长视频关联版本,整体风格有些类似B站。
日前,威马汽车首席数据官梅松林转发了一份“世界各国地区拥车率排行榜”,同时,他发文表示:中国汽车普及率低于非洲国家尼日利亚,每百户家庭仅17户有车。意大利世界排名第一,每十户中九户有车。
近日,一项新的研究发现,维生素 C 和 E 等抗氧化剂会激活一种机制,刺激癌症肿瘤中新血管的生长,帮助它们生长和扩散。
据媒体援引消息人士报道,苹果公司正在测试使用3D打印技术来生产其智能手表的钢质底盘。消息传出后,3D系统一度大涨超10%,不过截至周三收盘,该股涨幅回落至2%以内。
9月2日,坐拥千万粉丝的网红主播“秀才”账号被封禁,在社交媒体平台上引发热议。平台相关负责人表示,“秀才”账号违反平台相关规定,已封禁。据知情人士透露,秀才近期被举报存在违法行为,这可能是他被封禁的部分原因。据悉,“秀才”年龄39岁,是安徽省亳州市蒙城县人,抖音网红,粉丝数量超1200万。他曾被称为“中老年...
9月3日消息,亚马逊的一些股东,包括持有该公司股票的一家养老基金,日前对亚马逊、其创始人贝索斯和其董事会提起诉讼,指控他们在为 Project Kuiper 卫星星座项目购买发射服务时“违反了信义义务”。
据消息,为推广自家应用,苹果现推出了一个名为“Apps by Apple”的网站,展示了苹果为旗下产品(如 iPhone、iPad、Apple Watch、Mac 和 Apple TV)开发的各种应用程序。
特斯拉本周在美国大幅下调Model S和X售价,引发了该公司一些最坚定支持者的不满。知名特斯拉多头、未来基金(Future Fund)管理合伙人加里·布莱克发帖称,降价是一种“短期麻醉剂”,会让潜在客户等待进一步降价。
据外媒9月2日报道,荷兰半导体设备制造商阿斯麦称,尽管荷兰政府颁布的半导体设备出口管制新规9月正式生效,但该公司已获得在2023年底以前向中国运送受限制芯片制造机器的许可。
近日,根据美国证券交易委员会的文件显示,苹果卫星服务提供商 Globalstar 近期向马斯克旗下的 SpaceX 支付 6400 万美元(约 4.65 亿元人民币)。用于在 2023-2025 年期间,发射卫星,进一步扩展苹果 iPhone 系列的 SOS 卫星服务。
据报道,马斯克旗下社交平台𝕏(推特)日前调整了隐私政策,允许 𝕏 使用用户发布的信息来训练其人工智能(AI)模型。新的隐私政策将于 9 月 29 日生效。新政策规定,𝕏可能会使用所收集到的平台信息和公开可用的信息,来帮助训练 𝕏 的机器学习或人工智能模型。
9月2日,荣耀CEO赵明在采访中谈及华为手机回归时表示,替老同事们高兴,觉得手机行业,由于华为的回归,让竞争充满了更多的可能性和更多的魅力,对行业来说也是件好事。
《自然》30日发表的一篇论文报道了一个名为Swift的人工智能(AI)系统,该系统驾驶无人机的能力可在真实世界中一对一冠军赛里战胜人类对手。
近日,非营利组织纽约真菌学会(NYMS)发出警告,表示亚马逊为代表的电商平台上,充斥着各种AI生成的蘑菇觅食科普书籍,其中存在诸多错误。
社交媒体平台𝕏(原推特)新隐私政策提到:“在您同意的情况下,我们可能出于安全、安保和身份识别目的收集和使用您的生物识别信息。”
2023年德国柏林消费电子展上,各大企业都带来了最新的理念和产品,而高端化、本土化的中国产品正在不断吸引欧洲等国际市场的目光。
罗永浩日前在直播中吐槽苹果即将推出的 iPhone 新品,具体内容为:“以我对我‘子公司’的了解,我认为 iPhone 15 跟 iPhone 14 不会有什么区别的,除了序(列)号变了,这个‘不要脸’的东西,这个‘臭厨子’。