Modeling ¡Performance ¡and ¡Energy ¡ Efficiency ¡of ¡Applica5on ¡Codes ¡
Shirley ¡Moore ¡ University ¡of ¡Texas ¡at ¡El ¡Paso ¡ svmoore@utep.edu ¡ ¡
10/27/12 ¡ 1 ¡ 12th ¡UTEP/NMSU ¡Workshop ¡
Modeling Performance and Energy Efficiency of Applica5on - - PowerPoint PPT Presentation
Modeling Performance and Energy Efficiency of Applica5on Codes Shirley Moore University of Texas at El Paso svmoore@utep.edu 10/27/12 12th UTEP/NMSU
10/27/12 ¡ 1 ¡ 12th ¡UTEP/NMSU ¡Workshop ¡
10/27/12 ¡ 12th ¡UTEP/NMSU ¡Workshop ¡ 2 ¡
10/27/12 ¡ 12th ¡UTEP/NMSU ¡Workshop ¡ 3 ¡
10/27/12 ¡ 12th ¡UTEP/NMSU ¡Workshop ¡ 4 ¡
Given ¡execu5on ¡5me ¡t0 ¡at ¡CPU ¡frequency ¡f0 ¡and ¡a ¡target ¡CPU ¡ frequency ¡fnew, ¡the ¡execu5on ¡5me ¡tnew ¡is ¡given ¡by ¡
tnew ¡= ¡t0 ¡* ¡ ¡
5 ¡ f0 fnew f0 fnew 10/27/12 ¡ 12th ¡UTEP/NMSU ¡Workshop ¡
Counted_Stall_Cycles ¡= ¡Σ ¡Pi ¡* ¡Ni ¡ ¡
6 ¡ 10/27/12 ¡ 12th ¡UTEP/NMSU ¡Workshop ¡
10/27/12 ¡ 7 ¡ 12th ¡UTEP/NMSU ¡Workshop ¡
10/27/12 ¡ 8 ¡ 12th ¡UTEP/NMSU ¡Workshop ¡
Hardware ¡counter ¡informa5on ¡can ¡be ¡obtained ¡with: ¡
9 ¡ 10/27/12 ¡ 12th ¡UTEP/NMSU ¡Workshop ¡
10 ¡ 10/27/12 ¡ 12th ¡UTEP/NMSU ¡Workshop ¡
11 ¡ 10/27/12 ¡ 12th ¡UTEP/NMSU ¡Workshop ¡
12 ¡ 10/27/12 ¡ 12th ¡UTEP/NMSU ¡Workshop ¡
13 ¡ 10/27/12 ¡ 12th ¡UTEP/NMSU ¡Workshop ¡
14 ¡ 10/27/12 ¡ 12th ¡UTEP/NMSU ¡Workshop ¡
¡ ¡ ¡ ¡ ¡ ¡Branch ¡category: ¡
¡ ¡ ¡ ¡ ¡ ¡Data ¡memory ¡access ¡category: ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡(PAPI_L1_DCA ¡* ¡Data_L1_lat ¡+ ¡PAPI_L2_DCA ¡* ¡L2_lat ¡+ ¡PAPI_L2_DCM ¡* ¡L3_lat ¡+ ¡ L3_CACHE_MISSES:READ_BLOCK_EXCLUSIVE ¡+ ¡Mem_lat)/PAPI_TOT_INS ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡Instruc5on ¡memory ¡access ¡category: ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡(PAPI_L1_ICA ¡* ¡Instr_L1_lat ¡+ ¡PAPI_L2_ICA ¡* ¡L2_lat ¡+ ¡PAPI_L2_ICM ¡* ¡L3_lat ¡+ ¡ L3_CACHE_MISSES:READ_BLOCK_SHARED ¡* ¡Mem_lat)/PAPI_TOT_INS ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡Data ¡TLB ¡access ¡category: ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡(PAPI_TLB_DM ¡* ¡Data_TLB_lat)/PAPI_TOT_INS ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡Instruc5on ¡TLB ¡access ¡category: ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡(PAPI_TLB_IM ¡* ¡Instr_TLB_lat)/PAPI_TOT_INS ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡Floa5ng-‑point ¡instruc5on ¡category: ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡((PAPI_FML_INS ¡+ ¡PAPI_FAD_INS) ¡* ¡FP_add_sub_mul_lat ¡+ ¡(PAPI_FDV_INS ¡+ ¡PAPI_FSQ_INS) ¡* ¡ FP_div_sqrt_lat)/PAPI_TOT_INS ¡
15 ¡ 10/27/12 ¡ 12th ¡UTEP/NMSU ¡Workshop ¡
L1 ¡data ¡cache ¡hit ¡latency ¡ 3 ¡ L1 ¡instruc5on ¡cache ¡hit ¡latency ¡ 2 ¡ L2 ¡cache ¡hit ¡latency ¡ 17 ¡ L3 ¡cache ¡hit ¡latency ¡ 60 ¡ Memory ¡access ¡latency ¡ 540 ¡ Branch ¡latency ¡ 2 ¡ Branch ¡mispredic5on ¡latency ¡ 12 ¡ Floa5ng-‑point ¡add/sub/mul ¡latency ¡ 4 ¡ Floa5ng-‑point ¡div/sqrt ¡latency ¡ 38 ¡ Data ¡TLB ¡miss ¡latency ¡ 50 ¡ Instruc5on ¡TLB ¡miss ¡latency ¡ 50 ¡
16 ¡ 10/27/12 ¡ 12th ¡UTEP/NMSU ¡Workshop ¡
17 ¡ 10/27/12 ¡ 12th ¡UTEP/NMSU ¡Workshop ¡
10/27/12 ¡ 12th ¡UTEP/NMSU ¡Workshop ¡ 18 ¡
– Some ¡processors ¡already ¡implement ¡a ¡load ¡latency ¡counter. ¡ – But ¡we ¡only ¡want ¡to ¡count ¡load ¡latency ¡cycles ¡if ¡they ¡impact ¡ downstream ¡instruc5ons. ¡ – Count ¡cycles ¡while ¡instruc5ons ¡that ¡depend ¡on ¡load ¡instruc5on ¡ are ¡queued. ¡
10/27/12 ¡ 12th ¡UTEP/NMSU ¡Workshop ¡ 19 ¡
20 ¡
tnew t0 = ¡α0 ¡+ ¡α1* ¡HWC1 ¡+ ¡α2* ¡HWC2 ¡+ ¡. ¡. ¡. ¡
10/27/12 ¡ 12th ¡UTEP/NMSU ¡Workshop ¡
and different characteristics of Hybrid (MPI/OpenMP) Scientific Applications
– 1x1, 1x2, 1x3, 1x8, and 2x8
– 1x4, 1x5,…3x8, 4x8, 5x8, …..16x8
– Using PAPI and Perfmon Library
Analysis Method utilized to select combination of performance counters for each application
10/27/12 ¡ 21 ¡ 12th ¡UTEP/NMSU ¡Workshop ¡
1. Compute Spearman’s rank correlation for each application and performance component. 2. Eliminate counters with low correlation. 3. Compute regression model based upon performance counter event rates. 4. Eliminate performance counters will negligible regression coefficients. 5. Compute principal components of reduced performance counter event rates. 6. Use the performance counters with highest PCA vectors to build multivariate linear regression model.
10/27/12 ¡ 22 ¡ 12th ¡UTEP/NMSU ¡Workshop ¡
23 ¡ Lively, ¡Wu, ¡Taylor, ¡Moore, ¡Chang, ¡Su ¡and ¡Cameron, ¡Power-‑Aware ¡Predic5ve ¡Models ¡of ¡Hybrid ¡(MPI/OpenMP) ¡ ¡ Scien5fic ¡Applica5ons ¡on ¡Mul5core ¡Systems, ¡EnA-‑HPC2011, ¡Hamburg, ¡Germany, ¡Sept ¡2011. ¡ ¡ 10/27/12 ¡ 12th ¡UTEP/NMSU ¡Workshop ¡
24 ¡ 10/27/12 ¡ 12th ¡UTEP/NMSU ¡Workshop ¡
Kirk ¡Cameron, ¡Energy ¡and ¡Performance ¡Characteris5cs ¡of ¡Different ¡Parallel ¡ Implementa5ons ¡of ¡Scien5fic ¡Applica5ons ¡on ¡Mul5core ¡Systems, ¡Interna2onal ¡ Journal ¡of ¡High ¡Performance ¡Compu2ng ¡Applica2ons ¡(IJHPCA), ¡Volume ¡25 ¡Issue ¡3, ¡ August ¡2011, ¡pp. ¡342 ¡-‑ ¡350. ¡ ¡
Su ¡and ¡Kirk ¡Cameron, ¡Power-‑Aware ¡Predic5ve ¡Models ¡of ¡Hybrid ¡(MPI/OpenMP) ¡ Scien5fic ¡Applica5ons ¡on ¡Mul5core ¡Systems, ¡Interna2onal ¡Conference ¡on ¡Energy-‑ Aware ¡High ¡Performance ¡Compu2ng(EnA-‑HPC2011), ¡Hamburg, ¡Germany, ¡ September ¡7-‑9, ¡2011. ¡ ¡
and ¡Greg ¡Peterson. ¡Power ¡aware ¡compu5ng ¡on ¡GPUs. ¡Symposium ¡on ¡Applica2on ¡ Accelerators ¡in ¡High ¡Performance ¡Compu2ng ¡(SAAHPC ¡2012), ¡Argonne ¡Na5onal ¡ Laboratory, ¡July ¡10-‑11, ¡2012. ¡ ¡
Daniel ¡Terpstra, ¡and ¡Shirley ¡Moore. ¡ ¡Measuring ¡energy ¡and ¡power ¡with ¡PAPI. ¡ ¡ Interna2onal ¡Workshop ¡on ¡Power-‑Aware ¡Systems ¡and ¡Architectures ¡(PASA ¡2012), ¡ Pimsburgh, ¡PA, ¡September ¡10, ¡2012. ¡ ¡
June ¡2011. ¡
25 ¡ 10/27/12 ¡ 12th ¡UTEP/NMSU ¡Workshop ¡
26 ¡ 10/27/12 ¡ 12th ¡UTEP/NMSU ¡Workshop ¡
10/27/12 ¡ 12th ¡UTEP/NMSU ¡Workshop ¡ 27 ¡