FLOPS
Navn | Enhet | Verdi |
---|---|---|
kiloFLOPS | kFLOPS | 103 |
megaFLOPS | MFLOPS | 106 |
gigaFLOPS | GFLOPS | 109 |
teraFLOPS | TFLOPS | 1012 |
petaFLOPS | PFLOPS | 1015 |
exaFLOPS | EFLOPS | 1018 |
zettaFLOPS | ZFLOPS | 1021 |
yottaFLOPS | YFLOPS | 1024 |
I databehandling er floating point operations per second (FLOPS, flops eller flop/s) (norsk: flyttallsoperasjoner per sekund) en måleenhet for ytelse i datamaskiner, som er nyttig i vitenskapelige beregninger som krever flyttalls-beregninger. For slike tilfeller er det et mer nøyaktig mål enn instruksjoner per sekund.
Flyttalls-aritmetikk
[rediger | rediger kilde]Flyttalls-aritmetikk er nødvendig for svært store eller svært små reelle tall, eller beregninger som krever en stor dynamisk rekkevidde. Flyttalls-representasjon er likt som vitenskapelig notasjon, bortsett fra at alt er representert i totallsystemet i stedet for titallsystemet.
Beregningsorientert ytelse
[rediger | rediger kilde]FLOPS og MIPS er måleenheter for ytelse av en datamaskin. Flyttalls-operasjoner er vanligvis brukt i for eksempel vitenskapelig beregningsorientert forskning. Enheten MIPS måler ytelsen til å utføre heltalls-operasjoner hos datamaskinen. Eksempler på heltall-operasjoner inkluderer databevegelse (A til B) eller verditesting (Hvis A = B, og C).
FLOPS på et HPC-system kan beregnes ved hjelp av denne ligningen:[1]
.
Dette kan forenkles til det mest vanlige tilfellet: en datamaskin som har nøyaktig 1 CPU:
.
FLOPS kan bli målt i ulike grader av presisjon, for eksempel TOP500-listen over superdatamaskiner rangerer datamaskiner ved 64-biters (dobbelpresisjons flyttalls-format)- operasjoner per sekund, forkortet til FP64.[2] Lignende målinger er tilgjengelig for 32-bit (FP32) og 16-bit] (FP16) operasjoner.
FLOPS per syklus for forskjellige prosessorer
[rediger | rediger kilde]Mikroarkitektur | ISA | FP64 | FP32 | FP16 |
---|---|---|---|---|
Intel Atom (Bonnell, Saltwell, Silvermont and Goldmont) | SSE3 (64-bit) | 2 | 4 | 0 |
Intel Core (Merom, Penryn) Intel Nehalem (Nehalem, Westmere) |
SSE4 (128-bit) | 4 | 8 | 0 |
Intel Sandy Bridge (Sandy Bridge, Ivy Bridge) | AVX (256-bit) | 8 | 16 | 0 |
Intel Haswell (Haswell, Devil's Canyon, Broadwell) Intel Skylake (Skylake, Kaby Lake, Coffee Lake, Whiskey lake, Amber lake) |
AVX2 & FMA (256-bit) | 16 | 32 | 0 |
Intel Xeon Phi (Knights Corner) | SSE & FMA (256-bit) | 16 | 32 | 0 |
Intel Skylake-X Intel Xeon Phi (Knights Landing, Knights Mill) |
AVX-512 & FMA (512-bit) | 32 | 64 | 0 |
AMD Bobcat | AMD64 (64-bit) | 2 | 4 | 0 |
AMD Jaguar AMD Puma |
AVX (128-bit) | 4 | 8 | 0 |
AMD K10 | SSE4/4a (128-bit) | 4 | 8 | 0 |
AMD Bulldozer (Piledriver, Steamroller, Excavator) | AVX (128-bit) Bulldozer-Steamroller
AVX2 (128-bit) Excavator FMA3 (Bulldozer)[3] FMA3/4 (Piledriver-Excavator) |
4 | 8 | 0 |
AMD Zen (Ryzen 1000 series, Threadripper 1000 series, Epyc Naples) AMD Zen+[4][5] (Ryzen 2000 series, Threadripper 2000 series) |
AVX2 & FMA (128-bit, 256-bit decoding)[6] | 8 | 16 | 0 |
AMD Zen 2[7] (Ryzen 3000 series, Threadripper 3000 series, Epyc Rome) | AVX2 & FMA (256-bit) | 16 | 32 | 0 |
ARM Cortex-A7, A9, A15 | ARMv7 | 1 | 8 | 0 |
ARM Cortex-A32, A35, A53, A55, A72, A73, A75 | ARMv8 | 2 | 8 | 0 |
ARM Cortex-A57 | ARMv8 | 4 | 8 | 0 |
ARM Cortex-A76, A77 | ARMv8 | 8 | 16 | 0 |
Qualcomm Krait | ARMv8 | 1 | 8 | 0 |
Qualcomm Kryo (1xx - 3xx) | ARMv8 | 2 | 8 | 0 |
Qualcomm Kryo (4xx - 5xx) | ARMv8 | 8 | 16 | 0 |
Samsung Exynos M1 and M2 | ARMv8 | 2 | 8 | 0 |
Samsung Exynos M3 and M4 | ARMv8 | 3 | 12 | 0 |
IBM PowerPC A2 (Blue Gene/Q) | ? | 8 | 8 (as FP64) | 0 |
Hitachi SH-4[8] | SH-4 | 1 | 7 | 0 |
Nvidia Fermi (bare GeForce GTX 465–480, 560 Ti, 570-590) | PTX | 1/4 (låst av driver, 1 i maskinvare) | 2 | 0 |
Nvidia Fermi (bare Quadro 600-2000) | PTX | 1/8 | 2 | 0 |
Nvidia Fermi (bare Quadro 4000–7000, Tesla) | PTX | 1 | 2 | 0 |
Nvidia Kepler (GeForce (unntatt Titan og Titan Black), Quadro (unntatt K6000), Tesla K10) | PTX | 1/12 (for GK110: låst av driver, 2/3 i maskinvare) | 2 | 0 |
Nvidia Kepler (GeForce GTX Titan and Titan Black, Quadro K6000, Tesla (unntatt K10)) | PTX | 2/3 | 2 | 0 |
Nvidia Maxwell Nvidia Pascal (alle unntatt Quadro GP100 og Tesla P100) |
PTX | 1/16 | 2 | 1/32 |
Nvidia Pascal (bare Quadro GP100 og Tesla P100) | PTX | 1 | 2 | 4 |
Nvidia Volta[9] | PTX | 1 | 2 (FP32) + 2 (INT32) | 16 |
Nvidia Turing (bare GeForce 16XX) | PTX | 1/16 | 2 (FP32) + 2 (INT32) | 4 |
Nvidia Turing (alle unntatt GeForce 16XX) | PTX | 1/16 | 2 (FP32) + 2 (INT32) | 16 |
Nvidia Ampere[10][11] | PTX | 2 | 2 (FP32) + 2 (INT32) | 32 |
AMD GCN (bare Radeon Pro WX 2100-7100) | GCN | 1/8 | 2 | 2 |
AMD GCN (alle unntatt Radeon VII, Instinct MI50 og MI60, Radeon Pro WX 2100-7100) | GCN | 1/8 | 2 | 4 |
AMD GCN Vega 20 (bare Radeon VII) | GCN | 1/2 (låst av driver, 1 i maskinvare) | 2 | 4 |
AMD GCN Vega 20 (bare Radeon Instinct MI50 / MI60 og Radeon Pro VII) | GCN | 1 | 2 | 4 |
AMD RDNA[12][13] | RDNA | 1/8 | 2 | 4 |
Graphcore Colossus GC2[14][15][16] (verdier estimert) | ? | 0 | 18 | 72 |
Graphcore Colossus GC200 Mk2[17] (verdier estimert) | ? | 0 | 18 | 144 |
Se også
[rediger | rediger kilde]Referanser
[rediger | rediger kilde]- ^ «"Nodes, Sockets, Cores and FLOPS, Oh, My" by Dr. Mark R. Fernandez, Ph.D.». Arkivert fra originalen 13. februar 2019. Besøkt 22. august 2020.
- ^ «FREQUENTLY ASKED QUESTIONS». Besøkt 23. juni 2020.
- ^ «New instructions support for Bulldozer (FMA3) and Piledriver (FMA3+4 and CVT,BMI,TBM)» (PDF).
- ^ «Agner's CPU blog - Test results for AMD Ryzen».
- ^ Arkivert kopi (PDF). Arkivert fra originalen (PDF) 31. juli 2020. Besøkt 22. august 2020. page 7
- ^ «The microarchitecture of Intel and AMD CPUs» (PDF).
- ^ «AMD CEO Lisa Su’s COMPUTEX 2019 Keynote».
- ^ «SH-4 Next-Generation DSP Architecture for VoIP» (PDF). Hitachi. Besøkt 21. juni 2019.
- ^ «Inside Volta: The World’s Most Advanced Data Center GPU».
- ^ «NVIDIA Ampere Architecture In-Depth».
- ^ «NVIDIA A100».
- ^ «Alles zu Navi: Radeon RX 5700 XT ist RDNA mit GDDR6».
- ^ «AMD Radeon RX 5700 XT».
- ^ «6 threads per core imply that IPC is a multiple of 6, 1216 cores per chip».
- ^ «250 TFLOPs/s for two chips with FP16 mixed precision».
- ^ «Estimation via power consumption that FP32 is 1/4 of FP16 and that clock frequency is below 1.5GHz».
- ^ «Introducing Graphcore's Mk2 IPU systems».
- ^ «Floating-Point Operations Per Second (FLOPS)».