Hopp til innhold

FLOPS

Fra Wikipedia, den frie encyklopedi
Ytelse
Navn Enhet Verdi
kiloFLOPS kFLOPS 103
megaFLOPS MFLOPS 106
gigaFLOPS GFLOPS 109
teraFLOPS TFLOPS 1012
petaFLOPS PFLOPS 1015
exaFLOPS EFLOPS 1018
zettaFLOPS ZFLOPS 1021
yottaFLOPS YFLOPS 1024

I databehandling er floating point operations per second (FLOPS, flops eller flop/s) (norsk: flyttallsoperasjoner per sekund) en måleenhet for ytelse i datamaskiner, som er nyttig i vitenskapelige beregninger som krever flyttalls-beregninger. For slike tilfeller er det et mer nøyaktig mål enn instruksjoner per sekund.

Flyttalls-aritmetikk

[rediger | rediger kilde]

Flyttalls-aritmetikk er nødvendig for svært store eller svært små reelle tall, eller beregninger som krever en stor dynamisk rekkevidde. Flyttalls-representasjon er likt som vitenskapelig notasjon, bortsett fra at alt er representert i totallsystemet i stedet for titallsystemet.

Beregningsorientert ytelse

[rediger | rediger kilde]

FLOPS og MIPS er måleenheter for ytelse av en datamaskin. Flyttalls-operasjoner er vanligvis brukt i for eksempel vitenskapelig beregningsorientert forskning. Enheten MIPS måler ytelsen til å utføre heltalls-operasjoner hos datamaskinen. Eksempler på heltall-operasjoner inkluderer databevegelse (A til B) eller verditesting (Hvis A = B, og C).

FLOPS på et HPC-system kan beregnes ved hjelp av denne ligningen:[1]

.

Dette kan forenkles til det mest vanlige tilfellet: en datamaskin som har nøyaktig 1 CPU:

.

FLOPS kan bli målt i ulike grader av presisjon, for eksempel TOP500-listen over superdatamaskiner rangerer datamaskiner ved 64-biters (dobbelpresisjons flyttalls-format)- operasjoner per sekund, forkortet til FP64.[2] Lignende målinger er tilgjengelig for 32-bit (FP32) og 16-bit] (FP16) operasjoner.

FLOPS per syklus for forskjellige prosessorer

[rediger | rediger kilde]
Mikroarkitektur ISA FP64 FP32 FP16
Intel Atom (Bonnell, Saltwell, Silvermont and Goldmont) SSE3 (64-bit) 2 4 0
Intel Core (Merom, Penryn)
Intel Nehalem (Nehalem, Westmere)
SSE4 (128-bit) 4 8 0
Intel Sandy Bridge (Sandy Bridge, Ivy Bridge) AVX (256-bit) 8 16 0
Intel Haswell (Haswell, Devil's Canyon, Broadwell)
Intel Skylake (Skylake, Kaby Lake, Coffee Lake, Whiskey lake, Amber lake)
AVX2 & FMA (256-bit) 16 32 0
Intel Xeon Phi (Knights Corner) SSE & FMA (256-bit) 16 32 0
Intel Skylake-X
Intel Xeon Phi (Knights Landing, Knights Mill)
AVX-512 & FMA (512-bit) 32 64 0
AMD Bobcat AMD64 (64-bit) 2 4 0
AMD Jaguar
AMD Puma
AVX (128-bit) 4 8 0
AMD K10 SSE4/4a (128-bit) 4 8 0
AMD Bulldozer (Piledriver, Steamroller, Excavator) AVX (128-bit) Bulldozer-Steamroller

AVX2 (128-bit) Excavator

FMA3 (Bulldozer)[3]

FMA3/4 (Piledriver-Excavator)

4 8 0
AMD Zen (Ryzen 1000 series, Threadripper 1000 series, Epyc Naples)
AMD Zen+[4][5] (Ryzen 2000 series, Threadripper 2000 series)
AVX2 & FMA (128-bit, 256-bit decoding)[6] 8 16 0
AMD Zen 2[7] (Ryzen 3000 series, Threadripper 3000 series, Epyc Rome) AVX2 & FMA (256-bit) 16 32 0
ARM Cortex-A7, A9, A15 ARMv7 1 8 0
ARM Cortex-A32, A35, A53, A55, A72, A73, A75 ARMv8 2 8 0
ARM Cortex-A57 ARMv8 4 8 0
ARM Cortex-A76, A77 ARMv8 8 16 0
Qualcomm Krait ARMv8 1 8 0
Qualcomm Kryo (1xx - 3xx) ARMv8 2 8 0
Qualcomm Kryo (4xx - 5xx) ARMv8 8 16 0
Samsung Exynos M1 and M2 ARMv8 2 8 0
Samsung Exynos M3 and M4 ARMv8 3 12 0
IBM PowerPC A2 (Blue Gene/Q) ? 8 8 (as FP64) 0
Hitachi SH-4[8] SH-4 1 7 0
Nvidia Fermi (bare GeForce GTX 465–480, 560 Ti, 570-590) PTX 1/4 (låst av driver, 1 i maskinvare) 2 0
Nvidia Fermi (bare Quadro 600-2000) PTX 1/8 2 0
Nvidia Fermi (bare Quadro 4000–7000, Tesla) PTX 1 2 0
Nvidia Kepler (GeForce (unntatt Titan og Titan Black), Quadro (unntatt K6000), Tesla K10) PTX 1/12 (for GK110: låst av driver, 2/3 i maskinvare) 2 0
Nvidia Kepler (GeForce GTX Titan and Titan Black, Quadro K6000, Tesla (unntatt K10)) PTX 2/3 2 0
Nvidia Maxwell
Nvidia Pascal (alle unntatt Quadro GP100 og Tesla P100)
PTX 1/16 2 1/32
Nvidia Pascal (bare Quadro GP100 og Tesla P100) PTX 1 2 4
Nvidia Volta[9] PTX 1 2 (FP32) + 2 (INT32) 16
Nvidia Turing (bare GeForce 16XX) PTX 1/16 2 (FP32) + 2 (INT32) 4
Nvidia Turing (alle unntatt GeForce 16XX) PTX 1/16 2 (FP32) + 2 (INT32) 16
Nvidia Ampere[10][11] PTX 2 2 (FP32) + 2 (INT32) 32
AMD GCN (bare Radeon Pro WX 2100-7100) GCN 1/8 2 2
AMD GCN (alle unntatt Radeon VII, Instinct MI50 og MI60, Radeon Pro WX 2100-7100) GCN 1/8 2 4
AMD GCN Vega 20 (bare Radeon VII) GCN 1/2 (låst av driver, 1 i maskinvare) 2 4
AMD GCN Vega 20 (bare Radeon Instinct MI50 / MI60 og Radeon Pro VII) GCN 1 2 4
AMD RDNA[12][13] RDNA 1/8 2 4
Graphcore Colossus GC2[14][15][16] (verdier estimert) ? 0 18 72
Graphcore Colossus GC200 Mk2[17] (verdier estimert) ? 0 18 144

[18]

Referanser

[rediger | rediger kilde]