 
              ACM SIGCOMM ACM SIGMETRICS Offline ¡ ¡Downloading ¡ ¡in ¡ ¡China: ¡ ¡ A ¡ ¡Comparative ¡ ¡Study ¡ Tianyin ¡ ¡Xu Zhenhua ¡ ¡Li Christo ¡ ¡Wilson Yao ¡ ¡Liu Zhen ¡ ¡Lu Yinlong ¡ ¡Wang lizhenhua1983@gmail.com ¡ http://www.greenorbs.org/people/lzh/ ¡ Oct. ¡30, ¡2015 ¡ 1
Outline ¡ ¡ Background ¡ Problem ¡ System ¡ Workload ¡ Performance ¡ Optimization ¡ 2
Internet ¡Access ¡across ¡the ¡World ¡ Internet ¡Penetration ¡ Broadband : ¡> ¡25 ¡Mbps ¡of ¡ Not only Download ¡Bandwidth ¡ penetration, but also Broadband : ¡≈ ¡4–10 ¡Mbps, ¡ Unstable ¡and ¡Limited ¡ quality of 3 connections !
Pains ¡of ¡the ¡Developing ¡World ¡ Downloading large files requires high-quality network connections! ¡ ¡ Tolerant ¡Networking ¡ ? ¡ ¡ DTN ¡- ¡Delay ¡ ¡ 4
The ¡Case ¡of ¡Modern ¡China ¡ ü 46% of China’s population has come online Promises ¡ ü World-class companies like Tencent, Baidu, Alibaba, and Sina Weibo (Microblog) 5
The ¡Case ¡of ¡Modern ¡China ¡ n Over 72% of China’s Internet users have Challenges ¡ low-quality network connections Unstable/ ¡ Low ¡access ¡ unreliable ¡ bandwidth connec5on ISP ¡barrier ¡ Other ¡ (Poor ¡inter-‑connec5vity ¡ reasons between ¡ISPs) 6
“ Offline ¡Downloading ” ¡in ¡China ¡ 1. request Internet Proxy 2. pre- download 3. fetch User file request Time start pre-downloading An HTTP/FTP/ P2P link Data free flow to be offline finish pre-downloading start fetching finish fetching 7
Typical Implementation (1): Cloud-based ¡ 1. request Internet Proxy 2. pre- download 3. fetch User Caches PBs of files in a datacenter that is within or directly peered with the requesting user’s ISP Baidu Tencent Xunlei CloudDisk Xuanfeng 8
Typical Implementation (2): Smart AP-based ¡ 1. request Internet Proxy 2. pre- download 3. fetch User Caches data in an embedded or connected storage device, e.g., an SD card, a flash drive, or a disk drive Newifi HiWiFi MiWiFi 9
Great Success in Industry ¡ Tencent Xuanfeng HiWiFi > 1.5M shipments ü Over 30M users Xunlei MiWiFi > 2M shipments ü Over 80M users Baidu Newifi CloudDisk > 0.6M shipments ü Over 150M users 10
Problem ¡ 11
The ¡1st ¡Problem ¡ Is offline downloading really effective in most cases? 1. request Internet Proxy 2. pre- download 3. fetch User High success High rate? speed? 12
The ¡2nd ¡Problem ¡ Which offline downloading approach should be selected? Both ? 13
The ¡3rd ¡Problem ¡ When is offline downloading useless or even worse? 1. request Internet Proxy 2. pre- download 3. fetch User User-‑side ¡ Cloud-‑side ¡ Transfer ¡ File ¡ Hardware ¡& ¡ ¡ access ¡ service ¡ ISP ¡barrier protocol popularity filesystem bandwidth capability 14
General ¡Problem: ¡Selection ¡Dilemma ¡ Common ¡ ¡Downloading ¡ ¡or ¡ ¡ Offline ¡ ¡Downloading? ¡ ¡ Cloud-based ¡ ¡or ¡ ¡Smart ¡ ¡AP? ¡ ¡ And ¡ ¡which ¡ ¡smart ¡ ¡AP? ¡ ¡ Our ¡ ¡work ¡ ¡is ¡ ¡the ¡ ¡first ¡ ¡quantitative ¡ ¡and ¡ ¡ comparative ¡ ¡study ¡ ¡on ¡ ¡these ¡ ¡problems ¡ ¡ ¡ ¡ ¡ ¡ based ¡ ¡on ¡ ¡a ¡ ¡large-scale ¡ ¡dataset ¡ ¡from ¡ ¡Xuanfeng ¡ ¡cloud ¡ ¡and ¡ ¡ benchmark ¡ ¡experiments ¡ ¡of ¡ ¡popular ¡ ¡smart ¡ ¡APs. ¡ 15
System ¡ 16
Xuanfeng ¡Cloud ¡ Internet Pre-downloading servers requests files http://xf.qq.com 2-PB Storage Collaborative DB servers Cache Uploading servers http://lixian.qq.com/main.html ISPs Privileged Network Path 17
Smart ¡APs ¡ Shell Opkg applications ≈ $20 OpenWrt operating system NIC NIC ≈ $100 CPU RAM Internet (xDSL) (WiFi) SATA USB SD User Device Interface Interface Interface ≈ $20 18
Workload ¡ 19
Xuanfeng ¡Dataset ¡ q Complete running logs during a whole week in 2015, involving 4M tasks, 0.78M users & 0.56M unique files Pre-‑downloading ¡ User ¡Requests Fetching ¡Trace Trace • User ¡ID • Start ¡Ime • User ¡ID • IP ¡address • Finish ¡Ime • IP ¡address • Access ¡bandwidth • Acquired ¡file ¡size • Access ¡bandwidth • Request ¡Ime • Traffic ¡usage • Start ¡Ime • File ¡type • Cloud ¡cache ¡hit • Finish/pause ¡Ime • File ¡size • Avg. ¡speed • Acquired ¡file ¡size • Original ¡data ¡ • Peak ¡speed • Traffic ¡usage source • Success ¡or ¡failure • Avg. ¡speed • Transfer ¡protocol • Peak ¡speed 20
File ¡Type, ¡Size ¡& ¡Transfer ¡Protocol ¡ File ¡Type ¡ Transfer ¡Protocol ¡ 80 ¡ 10% ¡ 70 ¡ 15% ¡ [ 值 ] 60 ¡ 50 ¡ 40 ¡ 75% ¡ 30 ¡ 20 ¡ [ 值 ] 10 ¡ [ 值 ] 0 ¡ Video ¡ SoYware ¡ Other ¡ BitTorrent ¡ eMule ¡ HTTP/FTP ¡ Median: ¡115 ¡MB ¡ 25% files < 8 MB Average: ¡350 ¡MB ¡ Maximum: ¡4 ¡GB 21
File ¡Popularity ¡ SE ≈ Stretched Zipf ≈ Power law Exponential Matthew effect (for non-videos) + Fetch-at-most-once effect (for videos) 22
Smart ¡APs: ¡Benchmark ¡ Sampled workload from the Tencent ADSL Xuanfeng dataset Link HiWiFi Performance data Internet MiWiFi Storage server Newifi *Note: We assume that the smart AP based offline downloading systems have similar workload characteristics to Xuanfeng, since most end users are not familiar with the technical details and cannot differentiate these services. 23
Performance ¡ 24
Xuanfeng: ¡Pre-downloading ¡Speed ¡ ¡and ¡Fetching ¡Speed ¡ Median: 25 KBps Average: 69 KBps Median: 287 KBps Average: 504 KBps Owing to the privileged network path, Xuanfeng significantly improves users’ perceived downloading speeds by 7 – 11 times (fetching speed / pre-downloading speed) 25
Xuanfeng: ¡ Unsatisfactory ¡Fetching ¡Speed ¡ 1 28% of fetching speeds are below 125 KBps (= 1 Mbps , typical playback bitrate of HD videos) ☜ 9.6% 10.8% 1.5% 6.1% ISP barrier Low user-side Lack of cloud-side Unknown... access bandwidth upload bandwidth The cloud-based approach performs poorly once there is a bandwidth bottleneck in the privileged network path between the cloud and the user 26
Xuanfeng: ¡ Shortage ¡of ¡Cloud ¡Bandwidth ¡ ☜ 1.5% Lack of cloud-side upload bandwidth u 0.84% ¡of ¡highly ¡popular ¡files ¡ account ¡for ¡39% ¡of ¡all ¡downloads ¡ u 87% ¡of ¡requested ¡files ¡are ¡hosted ¡ in ¡peer-‑to-‑peer ¡(P2P) ¡data ¡swarms ¡ The cloud is threatened by running out of upload bandwidth 2 due to unnecessarily sending highly popular P2P files . As the user base continues to grow, the cloud will have to reject more (>1.5%) fetching requests. 27
Xuanfeng: ¡Pre-downloading ¡Failure ¡ 2-PB Collaborative Caching à à 8.7% Failure requests X files à 16.4% Failure à DB The cloud cache effectively avoids nearly half of pre- downloading failures High popularity ≈ Low failure ratio 28
Smart ¡APs: ¡ Pre-downloading ¡Failure ¡ 86% Insufficient seeds in a peer swarm Failure ¡ Xuanfeng ¡ Smart ¡ Ra5o Cloud APs 10% Poor HTTP/ 16.8% Overall ¡ 8.7% FTP connections Unpopular ¡ 42% 13% files 4% Unknown... u 36% of offline downloading requests are issued for unpopular files 3 Smart APs frequently fail during pre-downloading unpopular files 29
Smart ¡APs: ¡ Pre-downloading ¡Speed ¡ Speed Xuanfeng ¡Cloud Smart ¡APs < 25 ¡KBps 27 ¡KBps Median ¡ > 69 ¡KBps 64 ¡KBps Average A smart AP’s pre-downloading speed can be 4 restricted by its hardware and/or filesystem, since some types of storage devices and filesystems do not fit the pattern of frequent, small data writes during pre-downloading 30
Smart ¡APs: ¡ Pre-downloading ¡Speed ¡ NTFS is incompatible with the OpenWrt OS USB flash drive is unsuitable for frequent, small data writes 31
Performance ¡Summary ¡ Xuanfeng Cloud Smart APs Bottleneck 1: Unsatisfactory Merit 3: Stably high fetching speed fetching speed Bottleneck 2: Shortage of cloud Merit 4: No cloud infrastructure bandwidth Merit 1: Effective avoidance of pre- Bottleneck 3: Frequent failures downloading failures during pre-downloading Merit 2: No hardware cost at the Bottleneck 4: Hardware/filesystem user side restrictions on pre-downloading The two approaches are subject to distinct performance bottlenecks L L while also being complementary to 32 each other J J
Optimization ¡ 33
ODR ¡Middleware ¡ q Help users automatically select a proper (offline) downloading way Xuanfeng ODR 2. Query (Offline Downloading Redirector) DB 1. Request 3. Redirect Cloud Storage device User device Smart AP p Primary goal: minimizing the downloading time and failure ratio p Secondary goal: minimizing the upload bandwidth burden on the cloud 34
Recommend
More recommend