Executar modelos ONNX usando o OnNX Runtime incluído no Windows ML

O ONNX Runtime fornecido com o Windows ML permite que os aplicativos executem inferência em modelos ONNX localmente.

Se você estiver usando modelos de IA generativos, como LLMs (Modelos de Linguagem Grande) e conversão de fala em texto, consulte Executar LLMs e outros modelos generativos.

Criar uma sessão de inferência

As APIs são as mesmas que ao usar o ONNX Runtime diretamente. Por exemplo, para criar uma sessão de inferência:

// Create inference session using compiled model
using InferenceSession session = new(compiledModelPath, sessionOptions);

// Create inference session using compiled model
Ort::Session session(env, compiledModelPath.c_str(), sessionOptions);

import onnxruntime as ort
# Create inference session using compiled model
session = ort.InferenceSession(output_model_path, sess_options=options)

Sugerimos ler os documentos do ONNX Runtime para obter mais informações sobre como usar as APIs do ONNX Runtime no Windows ML. O código de inferência do modelo será diferente para cada modelo.

Comportamento de processamento de threads

Por padrão, o ONNX Runtime no Windows ML desabilita a rotação de threads, o que normalmente resulta em uma melhor duração da bateria.

Você pode habilitar a rotação de thread definindo as entradas de configuração de sessão "session.intra_op.allow_spinning" e "session.inter_op.allow_spinning" para "1". Recomendamos testar seu aplicativo com e sem thread girando para determinar quais configurações produzem o melhor desempenho e duração da bateria para seu modelo, caso de uso e clientes.

// Create session options and enable thread spinning
var sessionOptions = new SessionOptions();
sessionOptions.AddSessionConfigEntry("session.intra_op.allow_spinning", "1");
sessionOptions.AddSessionConfigEntry("session.inter_op.allow_spinning", "1");

// Create inference session using our session options
using InferenceSession session = new(modelPath, sessionOptions);

// Create session options and enable thread spinning
Ort::SessionOptions sessionOptions;
sessionOptions.AddSessionConfigEntry("session.intra_op.allow_spinning", "1");
sessionOptions.AddSessionConfigEntry("session.inter_op.allow_spinning", "1");

// Create inference session using our session options
Ort::Session session(env, modelPath.c_str(), sessionOptions);

import onnxruntime as ort

# Create session options and enable thread spinning
options = ort.SessionOptions()
options.AddConfigEntry("session.intra_op.allow_spinning", "1")
options.AddConfigEntry("session.inter_op.allow_spinning", "1")

# Create inference session using our session options
session = ort.InferenceSession(model_path, sess_options=options)

Compilar modelos

Antes de usar um modelo ONNX em uma sessão de inferência, ele geralmente deve ser compilado em uma representação otimizada que pode ser executada com eficiência no hardware subjacente do dispositivo.

A partir do ONNX Runtime 1.22, há novas APIs que encapsulam melhor as etapas de compilação. Mais detalhes estão disponíveis na documentação de compilação do ONNX Runtime (consulte OrtCompileApi struct).

// Prepare compilation options
OrtModelCompilationOptions compileOptions = new(sessionOptions);
compileOptions.SetInputModelPath(modelPath);
compileOptions.SetOutputModelPath(compiledModelPath);

// Compile the model
compileOptions.CompileModel();

const OrtCompileApi* compileApi = ortApi.GetCompileApi();

// Prepare compilation options
OrtModelCompilationOptions* compileOptions = nullptr;
OrtStatus* status = compileApi->CreateModelCompilationOptionsFromSessionOptions(env, sessionOptions, &compileOptions);
status = compileApi->ModelCompilationOptions_SetInputModelPath(compileOptions, modelPath.c_str());
status = compileApi->ModelCompilationOptions_SetOutputModelPath(compileOptions, compiledModelPath.c_str());

// Compile the model
status = compileApi->CompileModel(env, compileOptions);

// Clean up
compileApi->ReleaseModelCompilationOptions(compileOptions);

input_model_path = "path_to_your_model.onnx"
output_model_path = "path_to_your_compiled_model.onnx"

model_compiler = ort.ModelCompiler(
    options,
    input_model_path,
    embed_compiled_data_into_model=True,
    external_initializers_file_path=None,
)
model_compiler.compile_to_file(output_model_path)
if not os.path.exists(output_model_path):
    # For some EP, there might not be a compilation output.
    # In that case, use the original model directly.
    output_model_path = input_model_path

Note

A compilação pode levar vários minutos para ser concluída. Para que qualquer interface do usuário permaneça responsiva, considere fazer isso como uma operação em segundo plano em seu aplicativo.

Dica

Para obter um desempenho ideal, compile seus modelos uma vez e reutilize a versão compilada. Armazene modelos compilados na pasta de dados local do aplicativo para execuções subsequentes. Note que as atualizações para os EPs ou tempo de execução podem exigir recompilação.

Consulte também

Comentários

Esta página foi útil?

Last updated on 2026-02-14