Skip to content

FeaturesΒΆ

Compatibility MatrixΒΆ

The tables below show mutually exclusive features and the support on some hardware.

The symbols used have the following meanings:

  • βœ… = Full compatibility
  • 🟠 = Partial compatibility
  • ❌ = No compatibility
  • ❔ = Unknown or TBD

Note

Check the ❌ or 🟠 with links to see tracking issue for unsupported feature/hardware combination.

Feature x FeatureΒΆ

Feature CP APC LoRA SD CUDA graph pooling enc-dec logP prmpt logP async output multi-step mm best-of beam-search prompt-embeds
CP βœ…
APC βœ… βœ…
LoRA βœ… βœ… βœ…
SD βœ… βœ… ❌ βœ…
CUDA graph βœ… βœ… βœ… βœ… βœ…
pooling 🟠* 🟠* βœ… ❌ βœ… βœ…
enc-dec ❌ ❌ ❌ ❌ βœ… βœ… βœ…
logP βœ… βœ… βœ… βœ… βœ… ❌ βœ… βœ…
prmpt logP βœ… βœ… βœ… βœ… βœ… ❌ βœ… βœ… βœ…
async output βœ… βœ… βœ… ❌ βœ… ❌ ❌ βœ… βœ… βœ…
multi-step ❌ βœ… ❌ ❌ βœ… ❌ ❌ βœ… βœ… βœ… βœ…
mm βœ… βœ… 🟠^ ❔ βœ… βœ… βœ… βœ… βœ… βœ… ❔ βœ…
best-of βœ… βœ… βœ… ❌ βœ… ❌ βœ… βœ… βœ… ❔ ❌ βœ… βœ…
beam-search βœ… βœ… βœ… ❌ βœ… ❌ βœ… βœ… βœ… ❔ ❌ ❔ βœ… βœ…
prompt-embeds βœ… ❌ βœ… ❌ βœ… ❌ ❌ βœ… ❌ ❔ ❔ ❌ ❔ ❔ βœ…

* Chunked prefill and prefix caching are only applicable to last-token pooling.
^ LoRA is only applicable to the language backbone of multimodal models.

Feature x HardwareΒΆ

Feature Volta Turing Ampere Ada Hopper CPU AMD TPU
CP ❌ βœ… βœ… βœ… βœ… βœ… βœ… βœ…
APC ❌ βœ… βœ… βœ… βœ… βœ… βœ… βœ…
LoRA βœ… βœ… βœ… βœ… βœ… βœ… βœ… βœ…
SD βœ… βœ… βœ… βœ… βœ… βœ… βœ… ❌
CUDA graph βœ… βœ… βœ… βœ… βœ… ❌ βœ… ❌
pooling βœ… βœ… βœ… βœ… βœ… βœ… βœ… ❌
enc-dec βœ… βœ… βœ… βœ… βœ… βœ… ❌ ❌
mm βœ… βœ… βœ… βœ… βœ… βœ… βœ… ❌
logP βœ… βœ… βœ… βœ… βœ… βœ… βœ… ❌
prmpt logP βœ… βœ… βœ… βœ… βœ… βœ… βœ… ❌
async output βœ… βœ… βœ… βœ… βœ… ❌ ❌ ❌
multi-step βœ… βœ… βœ… βœ… βœ… ❌ βœ… ❌
best-of βœ… βœ… βœ… βœ… βœ… βœ… βœ… ❌
beam-search βœ… βœ… βœ… βœ… βœ… βœ… βœ… ❌
prompt-embeds βœ… βœ… βœ… βœ… βœ… βœ… ? ❌