vllm.entrypoints.openai.serving_engine ¶

AnyRequest `module-attribute` ¶

AnyRequest = Union[
    CompletionLikeRequest,
    ChatLikeRequest,
    SpeechToTextRequest,
    ResponsesRequest,
    IOProcessorRequest,
]

AnyResponse `module-attribute` ¶

AnyResponse = Union[
    CompletionResponse,
    ChatCompletionResponse,
    EmbeddingResponse,
    TranscriptionResponse,
    TokenizeResponse,
    PoolingResponse,
    ClassificationResponse,
    ScoreResponse,
]

ChatLikeRequest `module-attribute` ¶

ChatLikeRequest = Union[
    ChatCompletionRequest,
    EmbeddingChatRequest,
    TokenizeChatRequest,
]

ClassificationServeContext `module-attribute` ¶

ClassificationServeContext = ServeContext[
    ClassificationRequest
]

CompletionLikeRequest `module-attribute` ¶

CompletionLikeRequest = Union[
    CompletionRequest,
    DetokenizeRequest,
    EmbeddingCompletionRequest,
    RerankRequest,
    ClassificationRequest,
    ScoreRequest,
    TokenizeCompletionRequest,
]

RequestPrompt `module-attribute` ¶

RequestPrompt = Union[
    list[int], str, TextTokensPrompt, EmbedsPrompt
]

RequestT `module-attribute` ¶

RequestT = TypeVar('RequestT', bound=AnyRequest)

SpeechToTextRequest `module-attribute` ¶

SpeechToTextRequest = Union[
    TranscriptionRequest, TranslationRequest
]

logger `module-attribute` ¶

logger = init_logger(__name__)

EmbeddingServeContext ¶

Bases: ServeContext[EmbeddingRequest]

Source code in vllm/entrypoints/openai/serving_engine.py

class EmbeddingServeContext(ServeContext[EmbeddingRequest]):
    chat_template: Optional[str] = None
    chat_template_content_format: ChatTemplateContentFormatOption

chat_template `class-attribute` `instance-attribute` ¶

chat_template: Optional[str] = None

chat_template_content_format `instance-attribute` ¶

chat_template_content_format: (
    ChatTemplateContentFormatOption
)

EmbedsPrompt ¶

Bases: TypedDict

Source code in vllm/entrypoints/openai/serving_engine.py

class EmbedsPrompt(TypedDict):
    prompt_embeds: torch.Tensor

prompt_embeds `instance-attribute` ¶

prompt_embeds: Tensor

OpenAIServing ¶

Source code in vllm/entrypoints/openai/serving_engine.py

class OpenAIServing:
    request_id_prefix: ClassVar[str] = """
    A short string prepended to every request’s ID (e.g. "embd", "classify")
    so you can easily tell “this ID came from Embedding vs Classification.”
    """

    def __init__(
        self,
        engine_client: EngineClient,
        model_config: ModelConfig,
        models: OpenAIServingModels,
        *,
        request_logger: Optional[RequestLogger],
        return_tokens_as_token_ids: bool = False,
        enable_force_include_usage: bool = False,
        log_error_stack: bool = False,
    ):
        super().__init__()

        self.engine_client = engine_client
        self.model_config = model_config
        self.max_model_len = model_config.max_model_len

        self.models = models

        self.request_logger = request_logger
        self.return_tokens_as_token_ids = return_tokens_as_token_ids
        self.enable_force_include_usage = enable_force_include_usage

        self._tokenizer_executor = ThreadPoolExecutor(max_workers=1)

        self._async_tokenizer_pool: dict[AnyTokenizer,
                                         AsyncMicrobatchTokenizer] = {}
        self.log_error_stack = log_error_stack

    def _get_renderer(self, tokenizer: Optional[AnyTokenizer]) -> BaseRenderer:
        """
        Get a Renderer instance with the provided tokenizer.
        Uses shared async tokenizer pool for efficiency.
        """
        return CompletionRenderer(
            model_config=self.model_config,
            tokenizer=tokenizer,
            async_tokenizer_pool=self._async_tokenizer_pool)

    def _build_render_config(
        self,
        request: Any,
    ) -> RenderConfig:
        """
        Build and return a `RenderConfig` for an endpoint.

        Used by the renderer to control how prompts are prepared
        (e.g., tokenization and length handling). Endpoints should
        implement this with logic appropriate to their request type.
        """
        raise NotImplementedError

    def _get_async_tokenizer(self, tokenizer) -> AsyncMicrobatchTokenizer:
        """
        Return (and cache) an `AsyncMicrobatchTokenizer` bound to the
        given tokenizer.
        """
        async_tokenizer = self._async_tokenizer_pool.get(tokenizer)
        if async_tokenizer is None:
            async_tokenizer = AsyncMicrobatchTokenizer(tokenizer)
            self._async_tokenizer_pool[tokenizer] = async_tokenizer
        return async_tokenizer

    async def _preprocess(
        self,
        ctx: ServeContext,
    ) -> Optional[ErrorResponse]:
        """
        Default preprocessing hook. Subclasses may override
        to prepare `ctx` (classification, embedding, etc.).
        """
        return None

    def _build_response(
        self,
        ctx: ServeContext,
    ) -> Union[AnyResponse, ErrorResponse]:
        """
        Default response builder. Subclass may override this method
        to return the appropriate response object.
        """
        return self.create_error_response("unimplemented endpoint")

    async def handle(
        self,
        ctx: ServeContext,
    ) -> Union[AnyResponse, ErrorResponse]:
        generation: AsyncGenerator[Union[AnyResponse, ErrorResponse], None]
        generation = self._pipeline(ctx)

        async for response in generation:
            return response

        return self.create_error_response("No response yielded from pipeline")

    async def _pipeline(
        self,
        ctx: ServeContext,
    ) -> AsyncGenerator[Union[AnyResponse, ErrorResponse], None]:
        """Execute the request processing pipeline yielding responses."""
        if error := await self._check_model(ctx.request):
            yield error
        if error := self._validate_request(ctx):
            yield error

        preprocess_ret = await self._preprocess(ctx)
        if isinstance(preprocess_ret, ErrorResponse):
            yield preprocess_ret

        generators_ret = await self._prepare_generators(ctx)
        if isinstance(generators_ret, ErrorResponse):
            yield generators_ret

        collect_ret = await self._collect_batch(ctx)
        if isinstance(collect_ret, ErrorResponse):
            yield collect_ret

        yield self._build_response(ctx)

    def _validate_request(self, ctx: ServeContext) -> Optional[ErrorResponse]:
        truncate_prompt_tokens = getattr(ctx.request, "truncate_prompt_tokens",
                                         None)

        if (truncate_prompt_tokens is not None
                and truncate_prompt_tokens > self.max_model_len):
            return self.create_error_response(
                "truncate_prompt_tokens value is "
                "greater than max_model_len."
                " Please, select a smaller truncation size.")
        return None

    def _create_pooling_params(
        self,
        ctx: ServeContext,
    ) -> Union[PoolingParams, ErrorResponse]:
        if not hasattr(ctx.request, "to_pooling_params"):
            return self.create_error_response(
                "Request type does not support pooling parameters")

        return ctx.request.to_pooling_params()

    async def _prepare_generators(
        self,
        ctx: ServeContext,
    ) -> Optional[ErrorResponse]:
        """Schedule the request and get the result generator."""
        generators: list[AsyncGenerator[Union[RequestOutput,
                                              PoolingRequestOutput],
                                        None]] = []

        try:
            trace_headers = (None if ctx.raw_request is None else await
                             self._get_trace_headers(ctx.raw_request.headers))

            pooling_params = self._create_pooling_params(ctx)
            if isinstance(pooling_params, ErrorResponse):
                return pooling_params

            if ctx.engine_prompts is None:
                return self.create_error_response(
                    "Engine prompts not available")

            for i, engine_prompt in enumerate(ctx.engine_prompts):
                request_id_item = f"{ctx.request_id}-{i}"

                self._log_inputs(
                    request_id_item,
                    engine_prompt,
                    params=pooling_params,
                    lora_request=ctx.lora_request,
                )

                generator = self.engine_client.encode(
                    engine_prompt,
                    pooling_params,
                    request_id_item,
                    lora_request=ctx.lora_request,
                    trace_headers=trace_headers,
                    priority=getattr(ctx.request, "priority", 0),
                )

                generators.append(generator)

            ctx.result_generator = merge_async_iterators(*generators)

            return None

        except Exception as e:
            # TODO: Use a vllm-specific Validation Error
            return self.create_error_response(str(e))

    async def _collect_batch(
        self,
        ctx: ServeContext,
    ) -> Optional[ErrorResponse]:
        """Collect batch results from the result generator."""
        try:
            if ctx.engine_prompts is None:
                return self.create_error_response(
                    "Engine prompts not available")

            num_prompts = len(ctx.engine_prompts)
            final_res_batch: list[Optional[Union[RequestOutput,
                                                 PoolingRequestOutput]]]
            final_res_batch = [None] * num_prompts

            if ctx.result_generator is None:
                return self.create_error_response(
                    "Result generator not available")

            async for i, res in ctx.result_generator:
                final_res_batch[i] = res

            if None in final_res_batch:
                return self.create_error_response(
                    "Failed to generate results for all prompts")

            ctx.final_res_batch = [
                res for res in final_res_batch if res is not None
            ]

            return None

        except Exception as e:
            return self.create_error_response(str(e))

    def create_error_response(
        self,
        message: str,
        err_type: str = "BadRequestError",
        status_code: HTTPStatus = HTTPStatus.BAD_REQUEST,
    ) -> ErrorResponse:
        if self.log_error_stack:
            exc_type, _, _ = sys.exc_info()
            if exc_type is not None:
                traceback.print_exc()
            else:
                traceback.print_stack()
        return ErrorResponse(error=ErrorInfo(
            message=message, type=err_type, code=status_code.value))

    def create_streaming_error_response(
        self,
        message: str,
        err_type: str = "BadRequestError",
        status_code: HTTPStatus = HTTPStatus.BAD_REQUEST,
    ) -> str:
        json_str = json.dumps(
            self.create_error_response(message=message,
                                       err_type=err_type,
                                       status_code=status_code).model_dump())
        return json_str

    async def _check_model(
        self,
        request: AnyRequest,
    ) -> Optional[ErrorResponse]:
        error_response = None

        if self._is_model_supported(request.model):
            return None
        if request.model in self.models.lora_requests:
            return None
        if (envs.VLLM_ALLOW_RUNTIME_LORA_UPDATING and request.model and
            (load_result := await self.models.resolve_lora(request.model))):
            if isinstance(load_result, LoRARequest):
                return None
            if (isinstance(load_result, ErrorResponse) and
                    load_result.error.code == HTTPStatus.BAD_REQUEST.value):
                error_response = load_result

        return error_response or self.create_error_response(
            message=f"The model `{request.model}` does not exist.",
            err_type="NotFoundError",
            status_code=HTTPStatus.NOT_FOUND,
        )

    def _get_active_default_mm_loras(
            self, request: AnyRequest) -> Optional[LoRARequest]:
        """Determine if there are any active default multimodal loras."""
        # TODO: Currently this is only enabled for chat completions
        # to be better aligned with only being enabled for .generate
        # when run offline. It would be nice to support additional
        # tasks types in the future.
        message_types = self._get_message_types(request)
        default_mm_loras = set()

        for lora in self.models.lora_requests.values():
            # Best effort match for default multimodal lora adapters;
            # There is probably a better way to do this, but currently
            # this matches against the set of 'types' in any content lists
            # up until '_', e.g., to match audio_url -> audio
            if lora.lora_name in message_types:
                default_mm_loras.add(lora)

        # Currently only support default modality specific loras if
        # we have exactly one lora matched on the request.
        if len(default_mm_loras) == 1:
            return default_mm_loras.pop()
        return None

    def _maybe_get_adapters(
        self,
        request: AnyRequest,
        supports_default_mm_loras: bool = False,
    ) -> Optional[LoRARequest]:
        if request.model in self.models.lora_requests:
            return self.models.lora_requests[request.model]

        # Currently only support default modality specific loras
        # if we have exactly one lora matched on the request.
        if supports_default_mm_loras:
            default_mm_lora = self._get_active_default_mm_loras(request)
            if default_mm_lora is not None:
                return default_mm_lora

        if self._is_model_supported(request.model):
            return None

        # if _check_model has been called earlier, this will be unreachable
        raise ValueError(f"The model `{request.model}` does not exist.")

    def _get_message_types(self, request: AnyRequest) -> set[str]:
        """Retrieve the set of types from message content dicts up
        until `_`; we use this to match potential multimodal data
        with default per modality loras.
        """
        message_types: set[str] = set()

        if not hasattr(request, "messages"):
            return message_types

        for message in request.messages:
            if (isinstance(message, dict) and "content" in message
                    and isinstance(message["content"], list)):
                for content_dict in message["content"]:
                    if "type" in content_dict:
                        message_types.add(content_dict["type"].split("_")[0])
        return message_types

    async def _normalize_prompt_text_to_input(
        self,
        request: AnyRequest,
        prompt: str,
        tokenizer: AnyTokenizer,
        add_special_tokens: bool,
    ) -> TextTokensPrompt:
        async_tokenizer = self._get_async_tokenizer(tokenizer)

        if (self.model_config.encoder_config is not None
                and self.model_config.encoder_config.get(
                    "do_lower_case", False)):
            prompt = prompt.lower()

        truncate_prompt_tokens = getattr(request, "truncate_prompt_tokens",
                                         None)

        if truncate_prompt_tokens is None:
            encoded = await async_tokenizer(
                prompt, add_special_tokens=add_special_tokens)
        elif truncate_prompt_tokens < 0:
            # Negative means we cap at the model's max length
            encoded = await async_tokenizer(
                prompt,
                add_special_tokens=add_special_tokens,
                truncation=True,
                max_length=self.max_model_len,
            )
        else:
            encoded = await async_tokenizer(
                prompt,
                add_special_tokens=add_special_tokens,
                truncation=True,
                max_length=truncate_prompt_tokens,
            )

        input_ids = encoded.input_ids
        input_text = prompt

        return self._validate_input(request, input_ids, input_text)

    async def _normalize_prompt_tokens_to_input(
        self,
        request: AnyRequest,
        prompt_ids: list[int],
        tokenizer: Optional[AnyTokenizer],
    ) -> TextTokensPrompt:
        truncate_prompt_tokens = getattr(request, "truncate_prompt_tokens",
                                         None)

        if truncate_prompt_tokens is None:
            input_ids = prompt_ids
        elif truncate_prompt_tokens < 0:
            input_ids = prompt_ids[-self.max_model_len:]
        else:
            input_ids = prompt_ids[-truncate_prompt_tokens:]

        if tokenizer is None:
            input_text = ""
        else:
            async_tokenizer = self._get_async_tokenizer(tokenizer)
            input_text = await async_tokenizer.decode(input_ids)

        return self._validate_input(request, input_ids, input_text)

    def _validate_input(
        self,
        request: AnyRequest,
        input_ids: list[int],
        input_text: str,
    ) -> TextTokensPrompt:
        token_num = len(input_ids)

        # Note: EmbeddingRequest, ClassificationRequest,
        # and ScoreRequest doesn't have max_tokens
        if isinstance(
                request,
            (
                EmbeddingChatRequest,
                EmbeddingCompletionRequest,
                ScoreRequest,
                RerankRequest,
                ClassificationRequest,
            ),
        ):
            # Note: input length can be up to the entire model context length
            # since these requests don't generate tokens.
            if token_num > self.max_model_len:
                operations: dict[type[AnyRequest], str] = {
                    ScoreRequest: "score",
                    ClassificationRequest: "classification",
                }
                operation = operations.get(type(request),
                                           "embedding generation")
                raise ValueError(
                    f"This model's maximum context length is "
                    f"{self.max_model_len} tokens. However, you requested "
                    f"{token_num} tokens in the input for {operation}. "
                    f"Please reduce the length of the input.")
            return TextTokensPrompt(prompt=input_text,
                                    prompt_token_ids=input_ids)

        # Note: TokenizeRequest and DetokenizeRequest doesn't have max_tokens
        # and does not require model context length validation
        if isinstance(
                request,
            (TokenizeCompletionRequest, TokenizeChatRequest,
             DetokenizeRequest),
        ):
            return TextTokensPrompt(prompt=input_text,
                                    prompt_token_ids=input_ids)

        # chat completion endpoint supports max_completion_tokens
        if isinstance(request, ChatCompletionRequest):
            # TODO(#9845): remove max_tokens when field dropped from OpenAI API
            max_tokens = request.max_completion_tokens or request.max_tokens
        else:
            max_tokens = getattr(request, "max_tokens", None)

        # Note: input length can be up to model context length - 1 for
        # completion-like requests.
        if token_num >= self.max_model_len:
            raise ValueError(
                f"This model's maximum context length is "
                f"{self.max_model_len} tokens. However, your request has "
                f"{token_num} input tokens. Please reduce the length of "
                "the input messages.")

        if (max_tokens is not None
                and token_num + max_tokens > self.max_model_len):
            raise ValueError(
                "'max_tokens' or 'max_completion_tokens' is too large: "
                f"{max_tokens}. This model's maximum context length is "
                f"{self.max_model_len} tokens and your request has "
                f"{token_num} input tokens ({max_tokens} > {self.max_model_len}"
                f" - {token_num}).")

        return TextTokensPrompt(prompt=input_text, prompt_token_ids=input_ids)

    async def _tokenize_prompt_input_async(
        self,
        request: AnyRequest,
        tokenizer: AnyTokenizer,
        prompt_input: Union[str, list[int]],
        add_special_tokens: bool = True,
    ) -> TextTokensPrompt:
        """
        A simpler implementation that tokenizes a single prompt input.
        """
        async for result in self._tokenize_prompt_inputs_async(
                request,
                tokenizer,
            [prompt_input],
                add_special_tokens=add_special_tokens,
        ):
            return result
        raise ValueError("No results yielded from tokenization")

    async def _tokenize_prompt_inputs_async(
        self,
        request: AnyRequest,
        tokenizer: AnyTokenizer,
        prompt_inputs: Iterable[Union[str, list[int]]],
        add_special_tokens: bool = True,
    ) -> AsyncGenerator[TextTokensPrompt, None]:
        """
        A simpler implementation that tokenizes multiple prompt inputs.
        """
        for prompt in prompt_inputs:
            if isinstance(prompt, str):
                yield await self._normalize_prompt_text_to_input(
                    request,
                    prompt=prompt,
                    tokenizer=tokenizer,
                    add_special_tokens=add_special_tokens,
                )
            else:
                yield await self._normalize_prompt_tokens_to_input(
                    request,
                    prompt_ids=prompt,
                    tokenizer=tokenizer,
                )

    async def _preprocess_chat(
        self,
        request: Union[ChatLikeRequest, ResponsesRequest],
        tokenizer: AnyTokenizer,
        messages: list[ChatCompletionMessageParam],
        chat_template: Optional[str],
        chat_template_content_format: ChatTemplateContentFormatOption,
        add_generation_prompt: bool = True,
        continue_final_message: bool = False,
        tool_dicts: Optional[list[dict[str, Any]]] = None,
        documents: Optional[list[dict[str, str]]] = None,
        chat_template_kwargs: Optional[dict[str, Any]] = None,
        tool_parser: Optional[Callable[[AnyTokenizer], ToolParser]] = None,
        add_special_tokens: bool = False,
    ) -> tuple[
            list[ConversationMessage],
            Sequence[RequestPrompt],
            list[EngineTokensPrompt],
    ]:
        model_config = self.model_config

        resolved_content_format = resolve_chat_template_content_format(
            chat_template,
            tool_dicts,
            chat_template_content_format,
            tokenizer,
            model_config=model_config,
        )
        conversation, mm_data_future, mm_uuids = parse_chat_messages_futures(
            messages,
            model_config,
            tokenizer,
            content_format=resolved_content_format,
        )

        _chat_template_kwargs: dict[str, Any] = dict(
            chat_template=chat_template,
            add_generation_prompt=add_generation_prompt,
            continue_final_message=continue_final_message,
            tools=tool_dicts,
            documents=documents,
        )
        _chat_template_kwargs.update(chat_template_kwargs or {})

        request_prompt: Union[str, list[int]]

        if tokenizer is None:
            request_prompt = "placeholder"
        elif isinstance(tokenizer, MistralTokenizer):
            request_prompt = apply_mistral_chat_template(
                tokenizer,
                messages=messages,
                **_chat_template_kwargs,
            )
        else:
            request_prompt = apply_hf_chat_template(
                tokenizer=tokenizer,
                conversation=conversation,
                model_config=model_config,
                **_chat_template_kwargs,
            )

        mm_data = await mm_data_future

        # tool parsing is done only if a tool_parser has been set and if
        # tool_choice is not "none" (if tool_choice is "none" but a tool_parser
        # is set, we want to prevent parsing a tool_call hallucinated by the LLM
        should_parse_tools = tool_parser is not None and (hasattr(
            request, "tool_choice") and request.tool_choice != "none")

        if should_parse_tools:
            if not isinstance(request, ChatCompletionRequest):
                msg = "Tool usage is only supported for Chat Completions API"
                raise NotImplementedError(msg)

            request = tool_parser(tokenizer).adjust_request(  # type: ignore
                request=request)

        if tokenizer is None:
            assert isinstance(request_prompt, str), (
                "Prompt has to be a string",
                "when the tokenizer is not initialised",
            )
            prompt_inputs = TextTokensPrompt(prompt=request_prompt,
                                             prompt_token_ids=[1])
        elif isinstance(request_prompt, str):
            prompt_inputs = await self._tokenize_prompt_input_async(
                request,
                tokenizer,
                request_prompt,
                add_special_tokens=add_special_tokens,
            )
        else:
            # For MistralTokenizer
            assert is_list_of(request_prompt, int), (
                "Prompt has to be either a string or a list of token ids")
            prompt_inputs = TextTokensPrompt(
                prompt=tokenizer.decode(request_prompt),
                prompt_token_ids=request_prompt,
            )

        engine_prompt = EngineTokensPrompt(
            prompt_token_ids=prompt_inputs["prompt_token_ids"])
        if mm_data is not None:
            engine_prompt["multi_modal_data"] = mm_data

        if mm_uuids is not None:
            engine_prompt["multi_modal_uuids"] = mm_uuids

        if request.mm_processor_kwargs is not None:
            engine_prompt["mm_processor_kwargs"] = request.mm_processor_kwargs

        if hasattr(request, "cache_salt") and request.cache_salt is not None:
            engine_prompt["cache_salt"] = request.cache_salt

        return conversation, [request_prompt], [engine_prompt]

    async def _generate_with_builtin_tools(
        self,
        request_id: str,
        request_prompt: RequestPrompt,
        engine_prompt: EngineTokensPrompt,
        sampling_params: SamplingParams,
        context: ConversationContext,
        lora_request: Optional[LoRARequest] = None,
        priority: int = 0,
        **kwargs,
    ):
        orig_priority = priority
        while True:
            self._log_inputs(
                request_id,
                request_prompt,
                params=sampling_params,
                lora_request=lora_request,
            )
            generator = self.engine_client.generate(
                engine_prompt,
                sampling_params,
                request_id,
                lora_request=lora_request,
                priority=priority,
                **kwargs,
            )
            async for res in generator:
                context.append_output(res)
                # NOTE(woosuk): The stop condition is handled by the engine.
                yield context

            if not context.need_builtin_tool_call():
                # The model did not ask for a tool call, so we're done.
                break

            # Call the tool and update the context with the result.
            tool_output = await context.call_tool()
            context.append_output(tool_output)

            # TODO: uncomment this and enable tool output streaming
            # yield context

            # Create inputs for the next turn.
            # Render the next prompt token ids.
            prompt_token_ids = context.render_for_completion()
            engine_prompt = EngineTokensPrompt(
                prompt_token_ids=prompt_token_ids)
            request_prompt = prompt_token_ids
            # Update the sampling params.
            sampling_params.max_tokens = self.max_model_len - len(
                prompt_token_ids)
            # OPTIMIZATION
            priority = orig_priority - 1

    def _log_inputs(
        self,
        request_id: str,
        inputs: Union[RequestPrompt, PromptType],
        params: Optional[Union[SamplingParams, PoolingParams,
                               BeamSearchParams]],
        lora_request: Optional[LoRARequest],
    ) -> None:
        if self.request_logger is None:
            return
        prompt, prompt_token_ids, prompt_embeds = None, None, None
        if isinstance(inputs, str):
            prompt = inputs
        elif isinstance(inputs, list):
            prompt_token_ids = inputs
        else:
            prompt = getattr(inputs, 'prompt', None)
            prompt_token_ids = getattr(inputs, 'prompt_token_ids', None)

        self.request_logger.log_inputs(
            request_id,
            prompt,
            prompt_token_ids,
            prompt_embeds,
            params=params,
            lora_request=lora_request,
        )

    async def _get_trace_headers(
        self,
        headers: Headers,
    ) -> Optional[Mapping[str, str]]:
        is_tracing_enabled = await self.engine_client.is_tracing_enabled()

        if is_tracing_enabled:
            return extract_trace_headers(headers)

        if contains_trace_headers(headers):
            log_tracing_disabled_warning()

        return None

    @staticmethod
    def _base_request_id(raw_request: Optional[Request],
                         default: Optional[str] = None) -> Optional[str]:
        """Pulls the request id to use from a header, if provided"""
        default = default or random_uuid()
        if raw_request is None:
            return default

        return raw_request.headers.get("X-Request-Id", default)

    @staticmethod
    def _get_decoded_token(
        logprob: Logprob,
        token_id: int,
        tokenizer: AnyTokenizer,
        return_as_token_id: bool = False,
    ) -> str:
        if return_as_token_id:
            return f"token_id:{token_id}"

        if logprob.decoded_token is not None:
            return logprob.decoded_token
        return tokenizer.decode(token_id)

    def _is_model_supported(self, model_name: Optional[str]) -> bool:
        if not model_name:
            return True
        return self.models.is_base_model(model_name)

_async_tokenizer_pool `instance-attribute` ¶

_async_tokenizer_pool: dict[
    AnyTokenizer, AsyncMicrobatchTokenizer
] = {}

_tokenizer_executor `instance-attribute` ¶

_tokenizer_executor = ThreadPoolExecutor(max_workers=1)

enable_force_include_usage `instance-attribute` ¶

enable_force_include_usage = enable_force_include_usage

engine_client `instance-attribute` ¶

engine_client = engine_client

log_error_stack `instance-attribute` ¶

log_error_stack = log_error_stack

max_model_len `instance-attribute` ¶

max_model_len = max_model_len

model_config `instance-attribute` ¶

model_config = model_config

models `instance-attribute` ¶

models = models

request_id_prefix `class-attribute` ¶

request_id_prefix: str = '\n    A short string prepended to every request’s ID (e.g. "embd", "classify")\n    so you can easily tell “this ID came from Embedding vs Classification.”\n    '

request_logger `instance-attribute` ¶

request_logger = request_logger

return_tokens_as_token_ids `instance-attribute` ¶

return_tokens_as_token_ids = return_tokens_as_token_ids

init ¶

__init__(
    engine_client: EngineClient,
    model_config: ModelConfig,
    models: OpenAIServingModels,
    *,
    request_logger: Optional[RequestLogger],
    return_tokens_as_token_ids: bool = False,
    enable_force_include_usage: bool = False,
    log_error_stack: bool = False,
)

Source code in vllm/entrypoints/openai/serving_engine.py

def __init__(
    self,
    engine_client: EngineClient,
    model_config: ModelConfig,
    models: OpenAIServingModels,
    *,
    request_logger: Optional[RequestLogger],
    return_tokens_as_token_ids: bool = False,
    enable_force_include_usage: bool = False,
    log_error_stack: bool = False,
):
    super().__init__()

    self.engine_client = engine_client
    self.model_config = model_config
    self.max_model_len = model_config.max_model_len

    self.models = models

    self.request_logger = request_logger
    self.return_tokens_as_token_ids = return_tokens_as_token_ids
    self.enable_force_include_usage = enable_force_include_usage

    self._tokenizer_executor = ThreadPoolExecutor(max_workers=1)

    self._async_tokenizer_pool: dict[AnyTokenizer,
                                     AsyncMicrobatchTokenizer] = {}
    self.log_error_stack = log_error_stack

_base_request_id `staticmethod` ¶

_base_request_id(
    raw_request: Optional[Request],
    default: Optional[str] = None,
) -> Optional[str]

Pulls the request id to use from a header, if provided

Source code in vllm/entrypoints/openai/serving_engine.py

@staticmethod
def _base_request_id(raw_request: Optional[Request],
                     default: Optional[str] = None) -> Optional[str]:
    """Pulls the request id to use from a header, if provided"""
    default = default or random_uuid()
    if raw_request is None:
        return default

    return raw_request.headers.get("X-Request-Id", default)

_build_render_config ¶

_build_render_config(request: Any) -> RenderConfig

Build and return a RenderConfig for an endpoint.

Used by the renderer to control how prompts are prepared (e.g., tokenization and length handling). Endpoints should implement this with logic appropriate to their request type.

Source code in vllm/entrypoints/openai/serving_engine.py

def _build_render_config(
    self,
    request: Any,
) -> RenderConfig:
    """
    Build and return a `RenderConfig` for an endpoint.

    Used by the renderer to control how prompts are prepared
    (e.g., tokenization and length handling). Endpoints should
    implement this with logic appropriate to their request type.
    """
    raise NotImplementedError

_build_response ¶

_build_response(
    ctx: ServeContext,
) -> Union[AnyResponse, ErrorResponse]

Default response builder. Subclass may override this method to return the appropriate response object.

Source code in vllm/entrypoints/openai/serving_engine.py

def _build_response(
    self,
    ctx: ServeContext,
) -> Union[AnyResponse, ErrorResponse]:
    """
    Default response builder. Subclass may override this method
    to return the appropriate response object.
    """
    return self.create_error_response("unimplemented endpoint")

_check_model `async` ¶

_check_model(
    request: AnyRequest,
) -> Optional[ErrorResponse]

Source code in vllm/entrypoints/openai/serving_engine.py

async def _check_model(
    self,
    request: AnyRequest,
) -> Optional[ErrorResponse]:
    error_response = None

    if self._is_model_supported(request.model):
        return None
    if request.model in self.models.lora_requests:
        return None
    if (envs.VLLM_ALLOW_RUNTIME_LORA_UPDATING and request.model and
        (load_result := await self.models.resolve_lora(request.model))):
        if isinstance(load_result, LoRARequest):
            return None
        if (isinstance(load_result, ErrorResponse) and
                load_result.error.code == HTTPStatus.BAD_REQUEST.value):
            error_response = load_result

    return error_response or self.create_error_response(
        message=f"The model `{request.model}` does not exist.",
        err_type="NotFoundError",
        status_code=HTTPStatus.NOT_FOUND,
    )

_collect_batch `async` ¶

_collect_batch(
    ctx: ServeContext,
) -> Optional[ErrorResponse]

Collect batch results from the result generator.

Source code in vllm/entrypoints/openai/serving_engine.py

async def _collect_batch(
    self,
    ctx: ServeContext,
) -> Optional[ErrorResponse]:
    """Collect batch results from the result generator."""
    try:
        if ctx.engine_prompts is None:
            return self.create_error_response(
                "Engine prompts not available")

        num_prompts = len(ctx.engine_prompts)
        final_res_batch: list[Optional[Union[RequestOutput,
                                             PoolingRequestOutput]]]
        final_res_batch = [None] * num_prompts

        if ctx.result_generator is None:
            return self.create_error_response(
                "Result generator not available")

        async for i, res in ctx.result_generator:
            final_res_batch[i] = res

        if None in final_res_batch:
            return self.create_error_response(
                "Failed to generate results for all prompts")

        ctx.final_res_batch = [
            res for res in final_res_batch if res is not None
        ]

        return None

    except Exception as e:
        return self.create_error_response(str(e))

_create_pooling_params ¶

_create_pooling_params(
    ctx: ServeContext,
) -> Union[PoolingParams, ErrorResponse]

Source code in vllm/entrypoints/openai/serving_engine.py

def _create_pooling_params(
    self,
    ctx: ServeContext,
) -> Union[PoolingParams, ErrorResponse]:
    if not hasattr(ctx.request, "to_pooling_params"):
        return self.create_error_response(
            "Request type does not support pooling parameters")

    return ctx.request.to_pooling_params()

_generate_with_builtin_tools `async` ¶

_generate_with_builtin_tools(
    request_id: str,
    request_prompt: RequestPrompt,
    engine_prompt: TokensPrompt,
    sampling_params: SamplingParams,
    context: ConversationContext,
    lora_request: Optional[LoRARequest] = None,
    priority: int = 0,
    **kwargs,
)

Source code in vllm/entrypoints/openai/serving_engine.py

async def _generate_with_builtin_tools(
    self,
    request_id: str,
    request_prompt: RequestPrompt,
    engine_prompt: EngineTokensPrompt,
    sampling_params: SamplingParams,
    context: ConversationContext,
    lora_request: Optional[LoRARequest] = None,
    priority: int = 0,
    **kwargs,
):
    orig_priority = priority
    while True:
        self._log_inputs(
            request_id,
            request_prompt,
            params=sampling_params,
            lora_request=lora_request,
        )
        generator = self.engine_client.generate(
            engine_prompt,
            sampling_params,
            request_id,
            lora_request=lora_request,
            priority=priority,
            **kwargs,
        )
        async for res in generator:
            context.append_output(res)
            # NOTE(woosuk): The stop condition is handled by the engine.
            yield context

        if not context.need_builtin_tool_call():
            # The model did not ask for a tool call, so we're done.
            break

        # Call the tool and update the context with the result.
        tool_output = await context.call_tool()
        context.append_output(tool_output)

        # TODO: uncomment this and enable tool output streaming
        # yield context

        # Create inputs for the next turn.
        # Render the next prompt token ids.
        prompt_token_ids = context.render_for_completion()
        engine_prompt = EngineTokensPrompt(
            prompt_token_ids=prompt_token_ids)
        request_prompt = prompt_token_ids
        # Update the sampling params.
        sampling_params.max_tokens = self.max_model_len - len(
            prompt_token_ids)
        # OPTIMIZATION
        priority = orig_priority - 1

_get_active_default_mm_loras ¶

_get_active_default_mm_loras(
    request: AnyRequest,
) -> Optional[LoRARequest]

Determine if there are any active default multimodal loras.

Source code in vllm/entrypoints/openai/serving_engine.py

def _get_active_default_mm_loras(
        self, request: AnyRequest) -> Optional[LoRARequest]:
    """Determine if there are any active default multimodal loras."""
    # TODO: Currently this is only enabled for chat completions
    # to be better aligned with only being enabled for .generate
    # when run offline. It would be nice to support additional
    # tasks types in the future.
    message_types = self._get_message_types(request)
    default_mm_loras = set()

    for lora in self.models.lora_requests.values():
        # Best effort match for default multimodal lora adapters;
        # There is probably a better way to do this, but currently
        # this matches against the set of 'types' in any content lists
        # up until '_', e.g., to match audio_url -> audio
        if lora.lora_name in message_types:
            default_mm_loras.add(lora)

    # Currently only support default modality specific loras if
    # we have exactly one lora matched on the request.
    if len(default_mm_loras) == 1:
        return default_mm_loras.pop()
    return None

_get_async_tokenizer ¶

_get_async_tokenizer(tokenizer) -> AsyncMicrobatchTokenizer

Return (and cache) an AsyncMicrobatchTokenizer bound to the given tokenizer.

Source code in vllm/entrypoints/openai/serving_engine.py

def _get_async_tokenizer(self, tokenizer) -> AsyncMicrobatchTokenizer:
    """
    Return (and cache) an `AsyncMicrobatchTokenizer` bound to the
    given tokenizer.
    """
    async_tokenizer = self._async_tokenizer_pool.get(tokenizer)
    if async_tokenizer is None:
        async_tokenizer = AsyncMicrobatchTokenizer(tokenizer)
        self._async_tokenizer_pool[tokenizer] = async_tokenizer
    return async_tokenizer

_get_decoded_token `staticmethod` ¶

_get_decoded_token(
    logprob: Logprob,
    token_id: int,
    tokenizer: AnyTokenizer,
    return_as_token_id: bool = False,
) -> str

Source code in vllm/entrypoints/openai/serving_engine.py

@staticmethod
def _get_decoded_token(
    logprob: Logprob,
    token_id: int,
    tokenizer: AnyTokenizer,
    return_as_token_id: bool = False,
) -> str:
    if return_as_token_id:
        return f"token_id:{token_id}"

    if logprob.decoded_token is not None:
        return logprob.decoded_token
    return tokenizer.decode(token_id)

_get_message_types ¶

_get_message_types(request: AnyRequest) -> set[str]

Retrieve the set of types from message content dicts up until _; we use this to match potential multimodal data with default per modality loras.

Source code in vllm/entrypoints/openai/serving_engine.py

def _get_message_types(self, request: AnyRequest) -> set[str]:
    """Retrieve the set of types from message content dicts up
    until `_`; we use this to match potential multimodal data
    with default per modality loras.
    """
    message_types: set[str] = set()

    if not hasattr(request, "messages"):
        return message_types

    for message in request.messages:
        if (isinstance(message, dict) and "content" in message
                and isinstance(message["content"], list)):
            for content_dict in message["content"]:
                if "type" in content_dict:
                    message_types.add(content_dict["type"].split("_")[0])
    return message_types

_get_renderer ¶

_get_renderer(
    tokenizer: Optional[AnyTokenizer],
) -> BaseRenderer

Get a Renderer instance with the provided tokenizer. Uses shared async tokenizer pool for efficiency.

Source code in vllm/entrypoints/openai/serving_engine.py

def _get_renderer(self, tokenizer: Optional[AnyTokenizer]) -> BaseRenderer:
    """
    Get a Renderer instance with the provided tokenizer.
    Uses shared async tokenizer pool for efficiency.
    """
    return CompletionRenderer(
        model_config=self.model_config,
        tokenizer=tokenizer,
        async_tokenizer_pool=self._async_tokenizer_pool)

_get_trace_headers `async` ¶

_get_trace_headers(
    headers: Headers,
) -> Optional[Mapping[str, str]]

Source code in vllm/entrypoints/openai/serving_engine.py

async def _get_trace_headers(
    self,
    headers: Headers,
) -> Optional[Mapping[str, str]]:
    is_tracing_enabled = await self.engine_client.is_tracing_enabled()

    if is_tracing_enabled:
        return extract_trace_headers(headers)

    if contains_trace_headers(headers):
        log_tracing_disabled_warning()

    return None

_is_model_supported ¶

_is_model_supported(model_name: Optional[str]) -> bool

Source code in vllm/entrypoints/openai/serving_engine.py

def _is_model_supported(self, model_name: Optional[str]) -> bool:
    if not model_name:
        return True
    return self.models.is_base_model(model_name)

_log_inputs ¶

_log_inputs(
    request_id: str,
    inputs: Union[RequestPrompt, PromptType],
    params: Optional[
        Union[
            SamplingParams, PoolingParams, BeamSearchParams
        ]
    ],
    lora_request: Optional[LoRARequest],
) -> None

Source code in vllm/entrypoints/openai/serving_engine.py

def _log_inputs(
    self,
    request_id: str,
    inputs: Union[RequestPrompt, PromptType],
    params: Optional[Union[SamplingParams, PoolingParams,
                           BeamSearchParams]],
    lora_request: Optional[LoRARequest],
) -> None:
    if self.request_logger is None:
        return
    prompt, prompt_token_ids, prompt_embeds = None, None, None
    if isinstance(inputs, str):
        prompt = inputs
    elif isinstance(inputs, list):
        prompt_token_ids = inputs
    else:
        prompt = getattr(inputs, 'prompt', None)
        prompt_token_ids = getattr(inputs, 'prompt_token_ids', None)

    self.request_logger.log_inputs(
        request_id,
        prompt,
        prompt_token_ids,
        prompt_embeds,
        params=params,
        lora_request=lora_request,
    )

_maybe_get_adapters ¶

_maybe_get_adapters(
    request: AnyRequest,
    supports_default_mm_loras: bool = False,
) -> Optional[LoRARequest]

Source code in vllm/entrypoints/openai/serving_engine.py

def _maybe_get_adapters(
    self,
    request: AnyRequest,
    supports_default_mm_loras: bool = False,
) -> Optional[LoRARequest]:
    if request.model in self.models.lora_requests:
        return self.models.lora_requests[request.model]

    # Currently only support default modality specific loras
    # if we have exactly one lora matched on the request.
    if supports_default_mm_loras:
        default_mm_lora = self._get_active_default_mm_loras(request)
        if default_mm_lora is not None:
            return default_mm_lora

    if self._is_model_supported(request.model):
        return None

    # if _check_model has been called earlier, this will be unreachable
    raise ValueError(f"The model `{request.model}` does not exist.")

_normalize_prompt_text_to_input `async` ¶

_normalize_prompt_text_to_input(
    request: AnyRequest,
    prompt: str,
    tokenizer: AnyTokenizer,
    add_special_tokens: bool,
) -> TextTokensPrompt

Source code in vllm/entrypoints/openai/serving_engine.py

async def _normalize_prompt_text_to_input(
    self,
    request: AnyRequest,
    prompt: str,
    tokenizer: AnyTokenizer,
    add_special_tokens: bool,
) -> TextTokensPrompt:
    async_tokenizer = self._get_async_tokenizer(tokenizer)

    if (self.model_config.encoder_config is not None
            and self.model_config.encoder_config.get(
                "do_lower_case", False)):
        prompt = prompt.lower()

    truncate_prompt_tokens = getattr(request, "truncate_prompt_tokens",
                                     None)

    if truncate_prompt_tokens is None:
        encoded = await async_tokenizer(
            prompt, add_special_tokens=add_special_tokens)
    elif truncate_prompt_tokens < 0:
        # Negative means we cap at the model's max length
        encoded = await async_tokenizer(
            prompt,
            add_special_tokens=add_special_tokens,
            truncation=True,
            max_length=self.max_model_len,
        )
    else:
        encoded = await async_tokenizer(
            prompt,
            add_special_tokens=add_special_tokens,
            truncation=True,
            max_length=truncate_prompt_tokens,
        )

    input_ids = encoded.input_ids
    input_text = prompt

    return self._validate_input(request, input_ids, input_text)

_normalize_prompt_tokens_to_input `async` ¶

_normalize_prompt_tokens_to_input(
    request: AnyRequest,
    prompt_ids: list[int],
    tokenizer: Optional[AnyTokenizer],
) -> TextTokensPrompt

Source code in vllm/entrypoints/openai/serving_engine.py

async def _normalize_prompt_tokens_to_input(
    self,
    request: AnyRequest,
    prompt_ids: list[int],
    tokenizer: Optional[AnyTokenizer],
) -> TextTokensPrompt:
    truncate_prompt_tokens = getattr(request, "truncate_prompt_tokens",
                                     None)

    if truncate_prompt_tokens is None:
        input_ids = prompt_ids
    elif truncate_prompt_tokens < 0:
        input_ids = prompt_ids[-self.max_model_len:]
    else:
        input_ids = prompt_ids[-truncate_prompt_tokens:]

    if tokenizer is None:
        input_text = ""
    else:
        async_tokenizer = self._get_async_tokenizer(tokenizer)
        input_text = await async_tokenizer.decode(input_ids)

    return self._validate_input(request, input_ids, input_text)

_pipeline `async` ¶

_pipeline(
    ctx: ServeContext,
) -> AsyncGenerator[
    Union[AnyResponse, ErrorResponse], None
]

Execute the request processing pipeline yielding responses.

Source code in vllm/entrypoints/openai/serving_engine.py

async def _pipeline(
    self,
    ctx: ServeContext,
) -> AsyncGenerator[Union[AnyResponse, ErrorResponse], None]:
    """Execute the request processing pipeline yielding responses."""
    if error := await self._check_model(ctx.request):
        yield error
    if error := self._validate_request(ctx):
        yield error

    preprocess_ret = await self._preprocess(ctx)
    if isinstance(preprocess_ret, ErrorResponse):
        yield preprocess_ret

    generators_ret = await self._prepare_generators(ctx)
    if isinstance(generators_ret, ErrorResponse):
        yield generators_ret

    collect_ret = await self._collect_batch(ctx)
    if isinstance(collect_ret, ErrorResponse):
        yield collect_ret

    yield self._build_response(ctx)

_prepare_generators `async` ¶

_prepare_generators(
    ctx: ServeContext,
) -> Optional[ErrorResponse]

Schedule the request and get the result generator.

Source code in vllm/entrypoints/openai/serving_engine.py

async def _prepare_generators(
    self,
    ctx: ServeContext,
) -> Optional[ErrorResponse]:
    """Schedule the request and get the result generator."""
    generators: list[AsyncGenerator[Union[RequestOutput,
                                          PoolingRequestOutput],
                                    None]] = []

    try:
        trace_headers = (None if ctx.raw_request is None else await
                         self._get_trace_headers(ctx.raw_request.headers))

        pooling_params = self._create_pooling_params(ctx)
        if isinstance(pooling_params, ErrorResponse):
            return pooling_params

        if ctx.engine_prompts is None:
            return self.create_error_response(
                "Engine prompts not available")

        for i, engine_prompt in enumerate(ctx.engine_prompts):
            request_id_item = f"{ctx.request_id}-{i}"

            self._log_inputs(
                request_id_item,
                engine_prompt,
                params=pooling_params,
                lora_request=ctx.lora_request,
            )

            generator = self.engine_client.encode(
                engine_prompt,
                pooling_params,
                request_id_item,
                lora_request=ctx.lora_request,
                trace_headers=trace_headers,
                priority=getattr(ctx.request, "priority", 0),
            )

            generators.append(generator)

        ctx.result_generator = merge_async_iterators(*generators)

        return None

    except Exception as e:
        # TODO: Use a vllm-specific Validation Error
        return self.create_error_response(str(e))

_preprocess `async` ¶

_preprocess(ctx: ServeContext) -> Optional[ErrorResponse]

Default preprocessing hook. Subclasses may override to prepare ctx (classification, embedding, etc.).

Source code in vllm/entrypoints/openai/serving_engine.py

async def _preprocess(
    self,
    ctx: ServeContext,
) -> Optional[ErrorResponse]:
    """
    Default preprocessing hook. Subclasses may override
    to prepare `ctx` (classification, embedding, etc.).
    """
    return None

_preprocess_chat `async` ¶

_preprocess_chat(
    request: Union[ChatLikeRequest, ResponsesRequest],
    tokenizer: AnyTokenizer,
    messages: list[ChatCompletionMessageParam],
    chat_template: Optional[str],
    chat_template_content_format: ChatTemplateContentFormatOption,
    add_generation_prompt: bool = True,
    continue_final_message: bool = False,
    tool_dicts: Optional[list[dict[str, Any]]] = None,
    documents: Optional[list[dict[str, str]]] = None,
    chat_template_kwargs: Optional[dict[str, Any]] = None,
    tool_parser: Optional[
        Callable[[AnyTokenizer], ToolParser]
    ] = None,
    add_special_tokens: bool = False,
) -> tuple[
    list[ConversationMessage],
    Sequence[RequestPrompt],
    list[TokensPrompt],
]

Source code in vllm/entrypoints/openai/serving_engine.py

async def _preprocess_chat(
    self,
    request: Union[ChatLikeRequest, ResponsesRequest],
    tokenizer: AnyTokenizer,
    messages: list[ChatCompletionMessageParam],
    chat_template: Optional[str],
    chat_template_content_format: ChatTemplateContentFormatOption,
    add_generation_prompt: bool = True,
    continue_final_message: bool = False,
    tool_dicts: Optional[list[dict[str, Any]]] = None,
    documents: Optional[list[dict[str, str]]] = None,
    chat_template_kwargs: Optional[dict[str, Any]] = None,
    tool_parser: Optional[Callable[[AnyTokenizer], ToolParser]] = None,
    add_special_tokens: bool = False,
) -> tuple[
        list[ConversationMessage],
        Sequence[RequestPrompt],
        list[EngineTokensPrompt],
]:
    model_config = self.model_config

    resolved_content_format = resolve_chat_template_content_format(
        chat_template,
        tool_dicts,
        chat_template_content_format,
        tokenizer,
        model_config=model_config,
    )
    conversation, mm_data_future, mm_uuids = parse_chat_messages_futures(
        messages,
        model_config,
        tokenizer,
        content_format=resolved_content_format,
    )

    _chat_template_kwargs: dict[str, Any] = dict(
        chat_template=chat_template,
        add_generation_prompt=add_generation_prompt,
        continue_final_message=continue_final_message,
        tools=tool_dicts,
        documents=documents,
    )
    _chat_template_kwargs.update(chat_template_kwargs or {})

    request_prompt: Union[str, list[int]]

    if tokenizer is None:
        request_prompt = "placeholder"
    elif isinstance(tokenizer, MistralTokenizer):
        request_prompt = apply_mistral_chat_template(
            tokenizer,
            messages=messages,
            **_chat_template_kwargs,
        )
    else:
        request_prompt = apply_hf_chat_template(
            tokenizer=tokenizer,
            conversation=conversation,
            model_config=model_config,
            **_chat_template_kwargs,
        )

    mm_data = await mm_data_future

    # tool parsing is done only if a tool_parser has been set and if
    # tool_choice is not "none" (if tool_choice is "none" but a tool_parser
    # is set, we want to prevent parsing a tool_call hallucinated by the LLM
    should_parse_tools = tool_parser is not None and (hasattr(
        request, "tool_choice") and request.tool_choice != "none")

    if should_parse_tools:
        if not isinstance(request, ChatCompletionRequest):
            msg = "Tool usage is only supported for Chat Completions API"
            raise NotImplementedError(msg)

        request = tool_parser(tokenizer).adjust_request(  # type: ignore
            request=request)

    if tokenizer is None:
        assert isinstance(request_prompt, str), (
            "Prompt has to be a string",
            "when the tokenizer is not initialised",
        )
        prompt_inputs = TextTokensPrompt(prompt=request_prompt,
                                         prompt_token_ids=[1])
    elif isinstance(request_prompt, str):
        prompt_inputs = await self._tokenize_prompt_input_async(
            request,
            tokenizer,
            request_prompt,
            add_special_tokens=add_special_tokens,
        )
    else:
        # For MistralTokenizer
        assert is_list_of(request_prompt, int), (
            "Prompt has to be either a string or a list of token ids")
        prompt_inputs = TextTokensPrompt(
            prompt=tokenizer.decode(request_prompt),
            prompt_token_ids=request_prompt,
        )

    engine_prompt = EngineTokensPrompt(
        prompt_token_ids=prompt_inputs["prompt_token_ids"])
    if mm_data is not None:
        engine_prompt["multi_modal_data"] = mm_data

    if mm_uuids is not None:
        engine_prompt["multi_modal_uuids"] = mm_uuids

    if request.mm_processor_kwargs is not None:
        engine_prompt["mm_processor_kwargs"] = request.mm_processor_kwargs

    if hasattr(request, "cache_salt") and request.cache_salt is not None:
        engine_prompt["cache_salt"] = request.cache_salt

    return conversation, [request_prompt], [engine_prompt]

_tokenize_prompt_input_async `async` ¶

_tokenize_prompt_input_async(
    request: AnyRequest,
    tokenizer: AnyTokenizer,
    prompt_input: Union[str, list[int]],
    add_special_tokens: bool = True,
) -> TextTokensPrompt

A simpler implementation that tokenizes a single prompt input.

Source code in vllm/entrypoints/openai/serving_engine.py

async def _tokenize_prompt_input_async(
    self,
    request: AnyRequest,
    tokenizer: AnyTokenizer,
    prompt_input: Union[str, list[int]],
    add_special_tokens: bool = True,
) -> TextTokensPrompt:
    """
    A simpler implementation that tokenizes a single prompt input.
    """
    async for result in self._tokenize_prompt_inputs_async(
            request,
            tokenizer,
        [prompt_input],
            add_special_tokens=add_special_tokens,
    ):
        return result
    raise ValueError("No results yielded from tokenization")

_tokenize_prompt_inputs_async `async` ¶

_tokenize_prompt_inputs_async(
    request: AnyRequest,
    tokenizer: AnyTokenizer,
    prompt_inputs: Iterable[Union[str, list[int]]],
    add_special_tokens: bool = True,
) -> AsyncGenerator[TextTokensPrompt, None]

A simpler implementation that tokenizes multiple prompt inputs.

Source code in vllm/entrypoints/openai/serving_engine.py

async def _tokenize_prompt_inputs_async(
    self,
    request: AnyRequest,
    tokenizer: AnyTokenizer,
    prompt_inputs: Iterable[Union[str, list[int]]],
    add_special_tokens: bool = True,
) -> AsyncGenerator[TextTokensPrompt, None]:
    """
    A simpler implementation that tokenizes multiple prompt inputs.
    """
    for prompt in prompt_inputs:
        if isinstance(prompt, str):
            yield await self._normalize_prompt_text_to_input(
                request,
                prompt=prompt,
                tokenizer=tokenizer,
                add_special_tokens=add_special_tokens,
            )
        else:
            yield await self._normalize_prompt_tokens_to_input(
                request,
                prompt_ids=prompt,
                tokenizer=tokenizer,
            )

_validate_input ¶

_validate_input(
    request: AnyRequest,
    input_ids: list[int],
    input_text: str,
) -> TextTokensPrompt

Source code in vllm/entrypoints/openai/serving_engine.py

def _validate_input(
    self,
    request: AnyRequest,
    input_ids: list[int],
    input_text: str,
) -> TextTokensPrompt:
    token_num = len(input_ids)

    # Note: EmbeddingRequest, ClassificationRequest,
    # and ScoreRequest doesn't have max_tokens
    if isinstance(
            request,
        (
            EmbeddingChatRequest,
            EmbeddingCompletionRequest,
            ScoreRequest,
            RerankRequest,
            ClassificationRequest,
        ),
    ):
        # Note: input length can be up to the entire model context length
        # since these requests don't generate tokens.
        if token_num > self.max_model_len:
            operations: dict[type[AnyRequest], str] = {
                ScoreRequest: "score",
                ClassificationRequest: "classification",
            }
            operation = operations.get(type(request),
                                       "embedding generation")
            raise ValueError(
                f"This model's maximum context length is "
                f"{self.max_model_len} tokens. However, you requested "
                f"{token_num} tokens in the input for {operation}. "
                f"Please reduce the length of the input.")
        return TextTokensPrompt(prompt=input_text,
                                prompt_token_ids=input_ids)

    # Note: TokenizeRequest and DetokenizeRequest doesn't have max_tokens
    # and does not require model context length validation
    if isinstance(
            request,
        (TokenizeCompletionRequest, TokenizeChatRequest,
         DetokenizeRequest),
    ):
        return TextTokensPrompt(prompt=input_text,
                                prompt_token_ids=input_ids)

    # chat completion endpoint supports max_completion_tokens
    if isinstance(request, ChatCompletionRequest):
        # TODO(#9845): remove max_tokens when field dropped from OpenAI API
        max_tokens = request.max_completion_tokens or request.max_tokens
    else:
        max_tokens = getattr(request, "max_tokens", None)

    # Note: input length can be up to model context length - 1 for
    # completion-like requests.
    if token_num >= self.max_model_len:
        raise ValueError(
            f"This model's maximum context length is "
            f"{self.max_model_len} tokens. However, your request has "
            f"{token_num} input tokens. Please reduce the length of "
            "the input messages.")

    if (max_tokens is not None
            and token_num + max_tokens > self.max_model_len):
        raise ValueError(
            "'max_tokens' or 'max_completion_tokens' is too large: "
            f"{max_tokens}. This model's maximum context length is "
            f"{self.max_model_len} tokens and your request has "
            f"{token_num} input tokens ({max_tokens} > {self.max_model_len}"
            f" - {token_num}).")

    return TextTokensPrompt(prompt=input_text, prompt_token_ids=input_ids)

_validate_request ¶

_validate_request(
    ctx: ServeContext,
) -> Optional[ErrorResponse]

Source code in vllm/entrypoints/openai/serving_engine.py

def _validate_request(self, ctx: ServeContext) -> Optional[ErrorResponse]:
    truncate_prompt_tokens = getattr(ctx.request, "truncate_prompt_tokens",
                                     None)

    if (truncate_prompt_tokens is not None
            and truncate_prompt_tokens > self.max_model_len):
        return self.create_error_response(
            "truncate_prompt_tokens value is "
            "greater than max_model_len."
            " Please, select a smaller truncation size.")
    return None

create_error_response ¶

create_error_response(
    message: str,
    err_type: str = "BadRequestError",
    status_code: HTTPStatus = BAD_REQUEST,
) -> ErrorResponse

Source code in vllm/entrypoints/openai/serving_engine.py

def create_error_response(
    self,
    message: str,
    err_type: str = "BadRequestError",
    status_code: HTTPStatus = HTTPStatus.BAD_REQUEST,
) -> ErrorResponse:
    if self.log_error_stack:
        exc_type, _, _ = sys.exc_info()
        if exc_type is not None:
            traceback.print_exc()
        else:
            traceback.print_stack()
    return ErrorResponse(error=ErrorInfo(
        message=message, type=err_type, code=status_code.value))

create_streaming_error_response ¶

create_streaming_error_response(
    message: str,
    err_type: str = "BadRequestError",
    status_code: HTTPStatus = BAD_REQUEST,
) -> str

Source code in vllm/entrypoints/openai/serving_engine.py

def create_streaming_error_response(
    self,
    message: str,
    err_type: str = "BadRequestError",
    status_code: HTTPStatus = HTTPStatus.BAD_REQUEST,
) -> str:
    json_str = json.dumps(
        self.create_error_response(message=message,
                                   err_type=err_type,
                                   status_code=status_code).model_dump())
    return json_str

handle `async` ¶

handle(
    ctx: ServeContext,
) -> Union[AnyResponse, ErrorResponse]

Source code in vllm/entrypoints/openai/serving_engine.py

async def handle(
    self,
    ctx: ServeContext,
) -> Union[AnyResponse, ErrorResponse]:
    generation: AsyncGenerator[Union[AnyResponse, ErrorResponse], None]
    generation = self._pipeline(ctx)

    async for response in generation:
        return response

    return self.create_error_response("No response yielded from pipeline")

RequestProcessingMixin ¶

Bases: BaseModel

Mixin for request processing, handling prompt preparation and engine input.

Source code in vllm/entrypoints/openai/serving_engine.py

class RequestProcessingMixin(BaseModel):
    """
    Mixin for request processing,
    handling prompt preparation and engine input.
    """

    request_prompts: Optional[Sequence[RequestPrompt]] = []
    engine_prompts: Optional[list[EngineTokensPrompt]] = []

    model_config = ConfigDict(arbitrary_types_allowed=True)

engine_prompts `class-attribute` `instance-attribute` ¶

engine_prompts: Optional[list[TokensPrompt]] = []

model_config `class-attribute` `instance-attribute` ¶

model_config = ConfigDict(arbitrary_types_allowed=True)

request_prompts `class-attribute` `instance-attribute` ¶

request_prompts: Optional[Sequence[RequestPrompt]] = []

ResponseGenerationMixin ¶

Bases: BaseModel

Mixin for response generation, managing result generators and final batch results.

Source code in vllm/entrypoints/openai/serving_engine.py

class ResponseGenerationMixin(BaseModel):
    """
    Mixin for response generation,
    managing result generators and final batch results.
    """

    result_generator: Optional[AsyncGenerator[tuple[int, Union[
        RequestOutput, PoolingRequestOutput]], None]] = None
    final_res_batch: list[Union[RequestOutput, PoolingRequestOutput]] = Field(
        default_factory=list)

    model_config = ConfigDict(arbitrary_types_allowed=True)

final_res_batch `class-attribute` `instance-attribute` ¶

final_res_batch: list[
    Union[RequestOutput, PoolingRequestOutput]
] = Field(default_factory=list)

model_config `class-attribute` `instance-attribute` ¶

model_config = ConfigDict(arbitrary_types_allowed=True)

result_generator `class-attribute` `instance-attribute` ¶

result_generator: Optional[
    AsyncGenerator[
        tuple[
            int, Union[RequestOutput, PoolingRequestOutput]
        ],
        None,
    ]
] = None

ServeContext ¶

Bases: RequestProcessingMixin, ResponseGenerationMixin, BaseModel, Generic[RequestT]

Source code in vllm/entrypoints/openai/serving_engine.py

class ServeContext(
        RequestProcessingMixin,
        ResponseGenerationMixin,
        BaseModel,
        Generic[RequestT],
):
    # Shared across all requests
    request: RequestT
    raw_request: Optional[Request] = None
    model_name: str
    request_id: str
    created_time: int = Field(default_factory=lambda: int(time.time()))
    lora_request: Optional[LoRARequest] = None

    # Shared across most requests
    tokenizer: Optional[AnyTokenizer] = None

    # `protected_namespaces` resolves Pydantic v2's warning
    # on conflict with protected namespace "model_"
    model_config = ConfigDict(
        protected_namespaces=(),
        arbitrary_types_allowed=True,
    )

created_time `class-attribute` `instance-attribute` ¶

created_time: int = Field(
    default_factory=lambda: int(time())
)

lora_request `class-attribute` `instance-attribute` ¶

lora_request: Optional[LoRARequest] = None

model_config `class-attribute` `instance-attribute` ¶

model_config = ConfigDict(
    protected_namespaces=(), arbitrary_types_allowed=True
)

model_name `instance-attribute` ¶

model_name: str

raw_request `class-attribute` `instance-attribute` ¶

raw_request: Optional[Request] = None

request `instance-attribute` ¶

request: RequestT

request_id `instance-attribute` ¶

request_id: str

tokenizer `class-attribute` `instance-attribute` ¶

tokenizer: Optional[AnyTokenizer] = None

TextTokensPrompt ¶

Bases: TypedDict

Source code in vllm/entrypoints/openai/serving_engine.py

class TextTokensPrompt(TypedDict):
    prompt: str
    prompt_token_ids: list[int]

prompt `instance-attribute` ¶

prompt: str

prompt_token_ids `instance-attribute` ¶

prompt_token_ids: list[int]

clamp_prompt_logprobs ¶

clamp_prompt_logprobs(
    prompt_logprobs: Union[PromptLogprobs, None],
) -> Union[PromptLogprobs, None]

Source code in vllm/entrypoints/openai/serving_engine.py

def clamp_prompt_logprobs(
    prompt_logprobs: Union[PromptLogprobs,
                           None], ) -> Union[PromptLogprobs, None]:
    if prompt_logprobs is None:
        return prompt_logprobs

    for logprob_dict in prompt_logprobs:
        if logprob_dict is None:
            continue
        for logprob_values in logprob_dict.values():
            if logprob_values.logprob == float("-inf"):
                logprob_values.logprob = -9999.0
    return prompt_logprobs

is_embeds_prompt ¶

is_embeds_prompt(
    prompt: RequestPrompt,
) -> TypeIs[EmbedsPrompt]

Source code in vllm/entrypoints/openai/serving_engine.py

def is_embeds_prompt(prompt: RequestPrompt) -> TypeIs[EmbedsPrompt]:
    return (isinstance(prompt, dict) and "prompt_token_ids" not in prompt
            and "prompt_embeds" in prompt)

is_text_tokens_prompt ¶

is_text_tokens_prompt(
    prompt: RequestPrompt,
) -> TypeIs[TextTokensPrompt]

Source code in vllm/entrypoints/openai/serving_engine.py

def is_text_tokens_prompt(prompt: RequestPrompt) -> TypeIs[TextTokensPrompt]:
    return (isinstance(prompt, dict) and "prompt_token_ids" in prompt
            and "prompt_embeds" not in prompt)

vllm.entrypoints.openai.serving_engine ¶

AnyRequest module-attribute ¶

AnyResponse module-attribute ¶

ChatLikeRequest module-attribute ¶

ClassificationServeContext module-attribute ¶

CompletionLikeRequest module-attribute ¶

RequestPrompt module-attribute ¶

RequestT module-attribute ¶

SpeechToTextRequest module-attribute ¶

logger module-attribute ¶

EmbeddingServeContext ¶

chat_template class-attribute instance-attribute ¶

chat_template_content_format instance-attribute ¶

EmbedsPrompt ¶

prompt_embeds instance-attribute ¶

OpenAIServing ¶

_async_tokenizer_pool instance-attribute ¶

_tokenizer_executor instance-attribute ¶

enable_force_include_usage instance-attribute ¶

engine_client instance-attribute ¶

log_error_stack instance-attribute ¶

max_model_len instance-attribute ¶

model_config instance-attribute ¶

models instance-attribute ¶

request_id_prefix class-attribute ¶

request_logger instance-attribute ¶

return_tokens_as_token_ids instance-attribute ¶

__init__ ¶

_base_request_id staticmethod ¶

_build_render_config ¶

_build_response ¶

_check_model async ¶

_collect_batch async ¶

_create_pooling_params ¶

_generate_with_builtin_tools async ¶

_get_active_default_mm_loras ¶

_get_async_tokenizer ¶

_get_decoded_token staticmethod ¶

_get_message_types ¶

_get_renderer ¶

_get_trace_headers async ¶

_is_model_supported ¶

_log_inputs ¶

_maybe_get_adapters ¶

_normalize_prompt_text_to_input async ¶

_normalize_prompt_tokens_to_input async ¶

_pipeline async ¶

_prepare_generators async ¶

_preprocess async ¶

_preprocess_chat async ¶

_tokenize_prompt_input_async async ¶

_tokenize_prompt_inputs_async async ¶

_validate_input ¶

_validate_request ¶

create_error_response ¶

create_streaming_error_response ¶

handle async ¶

RequestProcessingMixin ¶

engine_prompts class-attribute instance-attribute ¶

model_config class-attribute instance-attribute ¶

request_prompts class-attribute instance-attribute ¶

ResponseGenerationMixin ¶

final_res_batch class-attribute instance-attribute ¶

model_config class-attribute instance-attribute ¶

result_generator class-attribute instance-attribute ¶

ServeContext ¶

created_time class-attribute instance-attribute ¶

lora_request class-attribute instance-attribute ¶

model_config class-attribute instance-attribute ¶

model_name instance-attribute ¶

raw_request class-attribute instance-attribute ¶

request instance-attribute ¶

request_id instance-attribute ¶

tokenizer class-attribute instance-attribute ¶

TextTokensPrompt ¶

prompt instance-attribute ¶

prompt_token_ids instance-attribute ¶

clamp_prompt_logprobs ¶

is_embeds_prompt ¶

is_text_tokens_prompt ¶

AnyRequest `module-attribute` ¶

AnyResponse `module-attribute` ¶

ChatLikeRequest `module-attribute` ¶

ClassificationServeContext `module-attribute` ¶

CompletionLikeRequest `module-attribute` ¶

RequestPrompt `module-attribute` ¶

RequestT `module-attribute` ¶

SpeechToTextRequest `module-attribute` ¶

logger `module-attribute` ¶

chat_template `class-attribute` `instance-attribute` ¶

chat_template_content_format `instance-attribute` ¶

prompt_embeds `instance-attribute` ¶

_async_tokenizer_pool `instance-attribute` ¶

_tokenizer_executor `instance-attribute` ¶

enable_force_include_usage `instance-attribute` ¶

engine_client `instance-attribute` ¶

log_error_stack `instance-attribute` ¶

max_model_len `instance-attribute` ¶

model_config `instance-attribute` ¶

models `instance-attribute` ¶

request_id_prefix `class-attribute` ¶

request_logger `instance-attribute` ¶

return_tokens_as_token_ids `instance-attribute` ¶

init ¶

_base_request_id `staticmethod` ¶

_check_model `async` ¶

_collect_batch `async` ¶

_generate_with_builtin_tools `async` ¶

_get_decoded_token `staticmethod` ¶

_get_trace_headers `async` ¶

_normalize_prompt_text_to_input `async` ¶

_normalize_prompt_tokens_to_input `async` ¶

_pipeline `async` ¶

_prepare_generators `async` ¶

_preprocess `async` ¶

_preprocess_chat `async` ¶

_tokenize_prompt_input_async `async` ¶

_tokenize_prompt_inputs_async `async` ¶

handle `async` ¶

engine_prompts `class-attribute` `instance-attribute` ¶

model_config `class-attribute` `instance-attribute` ¶

request_prompts `class-attribute` `instance-attribute` ¶

final_res_batch `class-attribute` `instance-attribute` ¶

model_config `class-attribute` `instance-attribute` ¶

result_generator `class-attribute` `instance-attribute` ¶

created_time `class-attribute` `instance-attribute` ¶

lora_request `class-attribute` `instance-attribute` ¶

model_config `class-attribute` `instance-attribute` ¶

model_name `instance-attribute` ¶

raw_request `class-attribute` `instance-attribute` ¶

request `instance-attribute` ¶

request_id `instance-attribute` ¶

tokenizer `class-attribute` `instance-attribute` ¶

prompt `instance-attribute` ¶

prompt_token_ids `instance-attribute` ¶