model.h Source File

model.h Source File#

SDK qb Runtime Library: model.h Source File
SDK qb Runtime Library v1.0
MCS001-
// Copyright ⓒ 2019- Mobilint Inc. All rights reserved.
 
#ifndef QBRUNTIME_MODEL_H_
#define QBRUNTIME_MODEL_H_
 
#include <cstdint>
#ifndef _MSC_VER
#include <experimental/propagate_const>
#endif
#include <memory>
#include <string>
#include <vector>
 
#include "qbruntime/export.h"
#include "qbruntime/future.h"
#include "qbruntime/model_variant_handle.h"
#include "qbruntime/ndarray.h"
#include "qbruntime/status_code.h"
#include "qbruntime/type.h"
 
namespace mobilint {
 
class Accelerator;
class ModelImpl;
class QBRUNTIME_EXPORT Model {
public:
    static std::unique_ptr<Model> create(const std::string& mxq_path, StatusCode& sc);
    static std::unique_ptr<Model> create(const std::string& mxq_path,
                                         const ModelConfig& config, StatusCode& sc);
 
    Model(const Model& other) = delete;
    Model(Model&& other) noexcept;
    Model& operator=(const Model& rhs) = delete;
    Model& operator=(Model&& rhs) noexcept;
    ~Model();
    StatusCode launch(Accelerator& acc);
    StatusCode dispose();
    CoreMode getCoreMode() const;
    bool isTarget(CoreId core_id) const;
    std::vector<CoreId> getTargetCores() const;
    StatusCode infer(const std::vector<NDArray<float>>& input,
                     std::vector<NDArray<float>>& output);
    std::vector<NDArray<float>> infer(const std::vector<NDArray<float>>& input,
                                      StatusCode& sc);
    StatusCode infer(const std::vector<float*>& input,
                     std::vector<std::vector<float>>& output);
    std::vector<std::vector<float>> infer(const std::vector<float*>& input,
                                          StatusCode& sc);
    StatusCode infer(const std::vector<float*>& input,
                     std::vector<std::vector<float>>& output,
                     const std::vector<std::vector<int64_t>>& shape);
    std::vector<std::vector<float>> infer(const std::vector<float*>& input,
                                          const std::vector<std::vector<int64_t>>& shape,
                                          StatusCode& sc);
    StatusCode infer(const std::vector<NDArray<float>>& input,
                     std::vector<NDArray<float>>& output, uint32_t cache_size);
    std::vector<NDArray<float>> infer(const std::vector<NDArray<float>>& input,
                                      uint32_t cache_size, StatusCode& sc);
    StatusCode infer(const std::vector<float*>& input,
                     std::vector<std::vector<float>>& output,
                     const std::vector<std::vector<int64_t>>& shape, uint32_t cache_size);
    std::vector<std::vector<float>> infer(const std::vector<float*>& input,
                                          const std::vector<std::vector<int64_t>>& shape,
                                          uint32_t cache_size, StatusCode& sc);
    StatusCode inferCHW(const std::vector<NDArray<float>>& input,
                        std::vector<NDArray<float>>& output);
    std::vector<NDArray<float>> inferCHW(const std::vector<NDArray<float>>& input,
                                         StatusCode& sc);
    StatusCode inferCHW(const std::vector<float*>& input,
                        std::vector<std::vector<float>>& output);
    std::vector<std::vector<float>> inferCHW(const std::vector<float*>& input,
                                             StatusCode& sc);
    StatusCode inferCHW(const std::vector<float*>& input,
                        std::vector<std::vector<float>>& output,
                        const std::vector<std::vector<int64_t>>& shape);
    std::vector<std::vector<float>> inferCHW(
        const std::vector<float*>& input, const std::vector<std::vector<int64_t>>& shape,
        StatusCode& sc);
    StatusCode inferCHW(const std::vector<NDArray<float>>& input,
                        std::vector<NDArray<float>>& output, uint32_t cache_size);
    std::vector<NDArray<float>> inferCHW(const std::vector<NDArray<float>>& input,
                                         uint32_t cache_size, StatusCode& sc);
    StatusCode inferCHW(const std::vector<float*>& input,
                        std::vector<std::vector<float>>& output,
                        const std::vector<std::vector<int64_t>>& shape,
                        uint32_t cache_size);
    std::vector<std::vector<float>> inferCHW(
        const std::vector<float*>& input, const std::vector<std::vector<int64_t>>& shape,
        uint32_t cache_size, StatusCode& sc);
 
    StatusCode infer(const std::vector<NDArray<uint8_t>>& input,
                     std::vector<NDArray<float>>& output);
    std::vector<NDArray<float>> infer(const std::vector<NDArray<uint8_t>>& input,
                                      StatusCode& sc);
    StatusCode infer(const std::vector<uint8_t*>& input,
                     std::vector<std::vector<float>>& output);
    std::vector<std::vector<float>> infer(const std::vector<uint8_t*>& input,
                                          StatusCode& sc);
    StatusCode infer(const std::vector<uint8_t*>& input,
                     std::vector<std::vector<float>>& output,
                     const std::vector<std::vector<int64_t>>& shape);
    std::vector<std::vector<float>> infer(const std::vector<uint8_t*>& input,
                                          const std::vector<std::vector<int64_t>>& shape,
                                          StatusCode& sc);
 
    StatusCode infer(const std::vector<NDArray<uint8_t>>& input,
                     std::vector<NDArray<float>>& output, uint32_t cache_size);
    std::vector<NDArray<float>> infer(const std::vector<NDArray<uint8_t>>& input,
                                      uint32_t cache_size, StatusCode& sc);
    StatusCode infer(const std::vector<uint8_t*>& input,
                     std::vector<std::vector<float>>& output,
                     const std::vector<std::vector<int64_t>>& shape, uint32_t cache_size);
    std::vector<std::vector<float>> infer(const std::vector<uint8_t*>& input,
                                          const std::vector<std::vector<int64_t>>& shape,
                                          uint32_t cache_size, StatusCode& sc);
    StatusCode inferCHW(const std::vector<NDArray<uint8_t>>& input,
                        std::vector<NDArray<float>>& output);
    std::vector<NDArray<float>> inferCHW(const std::vector<NDArray<uint8_t>>& input,
                                         StatusCode& sc);
    StatusCode inferCHW(const std::vector<uint8_t*>& input,
                        std::vector<std::vector<float>>& output);
    std::vector<std::vector<float>> inferCHW(const std::vector<uint8_t*>& input,
                                             StatusCode& sc);
    StatusCode inferCHW(const std::vector<uint8_t*>& input,
                        std::vector<std::vector<float>>& output,
                        const std::vector<std::vector<int64_t>>& shape);
    std::vector<std::vector<float>> inferCHW(
        const std::vector<uint8_t*>& input,
        const std::vector<std::vector<int64_t>>& shape, StatusCode& sc);
 
    StatusCode inferCHW(const std::vector<NDArray<uint8_t>>& input,
                        std::vector<NDArray<float>>& output, uint32_t cache_size);
    std::vector<NDArray<float>> inferCHW(const std::vector<NDArray<uint8_t>>& input,
                                         uint32_t cache_size, StatusCode& sc);
    StatusCode inferCHW(const std::vector<uint8_t*>& input,
                        std::vector<std::vector<float>>& output,
                        const std::vector<std::vector<int64_t>>& shape,
                        uint32_t cache_size);
    std::vector<std::vector<float>> inferCHW(
        const std::vector<uint8_t*>& input,
        const std::vector<std::vector<int64_t>>& shape, uint32_t cache_size,
        StatusCode& sc);
 
    StatusCode infer(const std::vector<NDArray<int8_t>>& input,
                     std::vector<NDArray<int8_t>>& output);
    std::vector<NDArray<int8_t>> infer(const std::vector<NDArray<int8_t>>& input,
                                       StatusCode& sc);
    StatusCode infer(const std::vector<int8_t*>& input,
                     std::vector<std::vector<int8_t>>& output);
    std::vector<std::vector<int8_t>> infer(const std::vector<int8_t*>& input,
                                           StatusCode& sc);
    StatusCode infer(const std::vector<int8_t*>& input,
                     std::vector<std::vector<int8_t>>& output,
                     const std::vector<std::vector<int64_t>>& shape);
    std::vector<std::vector<int8_t>> infer(const std::vector<int8_t*>& input,
                                           const std::vector<std::vector<int64_t>>& shape,
                                           StatusCode& sc);
 
    StatusCode infer(const std::vector<NDArray<int8_t>>& input,
                     std::vector<NDArray<int8_t>>& output, uint32_t cache_size);
    std::vector<NDArray<int8_t>> infer(const std::vector<NDArray<int8_t>>& input,
                                       uint32_t cache_size, StatusCode& sc);
    StatusCode infer(const std::vector<int8_t*>& input,
                     std::vector<std::vector<int8_t>>& output,
                     const std::vector<std::vector<int64_t>>& shape, uint32_t cache_size);
    std::vector<std::vector<int8_t>> infer(const std::vector<int8_t*>& input,
                                           const std::vector<std::vector<int64_t>>& shape,
                                           uint32_t cache_size, StatusCode& sc);
    StatusCode inferCHW(const std::vector<NDArray<int8_t>>& input,
                        std::vector<NDArray<int8_t>>& output);
    std::vector<NDArray<int8_t>> inferCHW(const std::vector<NDArray<int8_t>>& input,
                                          StatusCode& sc);
    StatusCode inferCHW(const std::vector<int8_t*>& input,
                        std::vector<std::vector<int8_t>>& output);
    std::vector<std::vector<int8_t>> inferCHW(const std::vector<int8_t*>& input,
                                              StatusCode& sc);
    StatusCode inferCHW(const std::vector<int8_t*>& input,
                        std::vector<std::vector<int8_t>>& output,
                        const std::vector<std::vector<int64_t>>& shape);
    std::vector<std::vector<int8_t>> inferCHW(
        const std::vector<int8_t*>& input, const std::vector<std::vector<int64_t>>& shape,
        StatusCode& sc);
 
    StatusCode inferCHW(const std::vector<NDArray<int8_t>>& input,
                        std::vector<NDArray<int8_t>>& output, uint32_t cache_size);
    std::vector<NDArray<int8_t>> inferCHW(const std::vector<NDArray<int8_t>>& input,
                                          uint32_t cache_size, StatusCode& sc);
    StatusCode inferCHW(const std::vector<int8_t*>& input,
                        std::vector<std::vector<int8_t>>& output,
                        const std::vector<std::vector<int64_t>>& shape,
                        uint32_t cache_size);
    std::vector<std::vector<int8_t>> inferCHW(
        const std::vector<int8_t*>& input, const std::vector<std::vector<int64_t>>& shape,
        uint32_t cache_size, StatusCode& sc);
    std::vector<NDArray<float>> inferToFloat(const std::vector<NDArray<int8_t>>& input,
                                             StatusCode& sc);
    std::vector<std::vector<float>> inferToFloat(const std::vector<int8_t*>& input,
                                                 StatusCode& sc);
    std::vector<std::vector<float>> inferToFloat(
        const std::vector<int8_t*>& input, const std::vector<std::vector<int64_t>>& shape,
        StatusCode& sc);
 
    std::vector<NDArray<float>> inferToFloat(const std::vector<NDArray<int8_t>>& input,
                                             uint32_t cache_size, StatusCode& sc);
    std::vector<std::vector<float>> inferToFloat(
        const std::vector<int8_t*>& input, const std::vector<std::vector<int64_t>>& shape,
        uint32_t cache_size, StatusCode& sc);
    std::vector<NDArray<float>> inferCHWToFloat(const std::vector<NDArray<int8_t>>& input,
                                                StatusCode& sc);
    std::vector<std::vector<float>> inferCHWToFloat(const std::vector<int8_t*>& input,
                                                    StatusCode& sc);
    std::vector<std::vector<float>> inferCHWToFloat(
        const std::vector<int8_t*>& input, const std::vector<std::vector<int64_t>>& shape,
        StatusCode& sc);
 
    std::vector<NDArray<float>> inferCHWToFloat(const std::vector<NDArray<int8_t>>& input,
                                                uint32_t cache_size, StatusCode& sc);
    std::vector<std::vector<float>> inferCHWToFloat(
        const std::vector<int8_t*>& input, const std::vector<std::vector<int64_t>>& shape,
        uint32_t cache_size, StatusCode& sc);
    StatusCode inferBuffer(const std::vector<Buffer>& input, std::vector<Buffer>& output,
                           const std::vector<std::vector<int64_t>>& shape = {},
                           uint32_t cache_size = 0);
    StatusCode inferBuffer(const std::vector<std::vector<Buffer>>& input,
                           std::vector<std::vector<Buffer>>& output,
                           const std::vector<std::vector<int64_t>>& shape = {},
                           uint32_t cache_size = 0);
    StatusCode inferBufferToFloat(const std::vector<Buffer>& input,
                                  std::vector<NDArray<float>>& output,
                                  const std::vector<std::vector<int64_t>>& shape = {},
                                  uint32_t cache_size = 0);
    StatusCode inferBufferToFloat(const std::vector<std::vector<Buffer>>& input,
                                  std::vector<NDArray<float>>& output,
                                  const std::vector<std::vector<int64_t>>& shape = {},
                                  uint32_t cache_size = 0);
    StatusCode inferBufferToFloat(const std::vector<Buffer>& input,
                                  std::vector<std::vector<float>>& output,
                                  const std::vector<std::vector<int64_t>>& shape = {},
                                  uint32_t cache_size = 0);
    StatusCode inferBufferToFloat(const std::vector<std::vector<Buffer>>& input,
                                  std::vector<std::vector<float>>& output,
                                  const std::vector<std::vector<int64_t>>& shape = {},
                                  uint32_t cache_size = 0);
    StatusCode inferSpeedrun(int variant_idx = 0);
    Future<float> inferAsync(const std::vector<NDArray<float>>& input, StatusCode& sc);
    Future<float> inferAsyncCHW(const std::vector<NDArray<float>>& input, StatusCode& sc);
    Future<int8_t> inferAsync(const std::vector<NDArray<int8_t>>& input, StatusCode& sc);
    Future<int8_t> inferAsyncCHW(const std::vector<NDArray<int8_t>>& input,
                                 StatusCode& sc);
    Future<float> inferAsyncToFloat(const std::vector<NDArray<int8_t>>& input,
                                    StatusCode& sc);
    Future<float> inferAsyncCHWToFloat(const std::vector<NDArray<int8_t>>& input,
                                       StatusCode& sc);
    Future<float> inferAsync(const std::vector<NDArray<uint8_t>>& input, StatusCode& sc);
    Future<float> inferAsyncCHW(const std::vector<NDArray<uint8_t>>& input,
                                StatusCode& sc);
 
    // Acquire buffer
    std::vector<Buffer> acquireInputBuffer(
        const std::vector<std::vector<int>>& seqlens = {}) const;
    std::vector<Buffer> acquireOutputBuffer(
        const std::vector<std::vector<int>>& seqlens = {}) const;
    std::vector<std::vector<Buffer>> acquireInputBuffers(
        const int batch_size, const std::vector<std::vector<int>>& seqlens = {}) const;
    std::vector<std::vector<Buffer>> acquireOutputBuffers(
        const int batch_size, const std::vector<std::vector<int>>& seqlens = {}) const;
 
    // Deallocate acquired Input/Output buffer
    StatusCode releaseBuffer(std::vector<Buffer>& buffer) const;
    StatusCode releaseBuffers(std::vector<std::vector<Buffer>>& buffers) const;
 
    // Reposition single batch
    StatusCode repositionInputs(const std::vector<float*>& input,
                                std::vector<Buffer>& input_buf,
                                const std::vector<std::vector<int>>& seqlens = {}) const;
    StatusCode repositionOutputs(const std::vector<Buffer>& output_buf,
                                 std::vector<float*>& output,
                                 const std::vector<std::vector<int>>& seqlens = {}) const;
    StatusCode repositionOutputs(const std::vector<Buffer>& output_buf,
                                 std::vector<std::vector<float>>& output,
                                 const std::vector<std::vector<int>>& seqlens = {}) const;
    StatusCode repositionInputs(const std::vector<uint8_t*>& input,
                                std::vector<Buffer>& input_buf,
                                const std::vector<std::vector<int>>& seqlens = {}) const;
 
    // Reposition multiple batches
    StatusCode repositionInputs(const std::vector<float*>& input,
                                std::vector<std::vector<Buffer>>& input_buf,
                                const std::vector<std::vector<int>>& seqlens = {}) const;
    StatusCode repositionOutputs(const std::vector<std::vector<Buffer>>& output_buf,
                                 std::vector<float*>& output,
                                 const std::vector<std::vector<int>>& seqlens = {}) const;
    StatusCode repositionOutputs(const std::vector<std::vector<Buffer>>& output_buf,
                                 std::vector<std::vector<float>>& output,
                                 const std::vector<std::vector<int>>& seqlens = {}) const;
    StatusCode repositionInputs(const std::vector<uint8_t*>& input,
                                std::vector<std::vector<Buffer>>& input_buf,
                                const std::vector<std::vector<int>>& seqlens = {}) const;
    int getNumModelVariants() const;
    std::unique_ptr<ModelVariantHandle> getModelVariantHandle(int variant_idx,
                                                              StatusCode& sc) const;
    const std::vector<std::vector<int64_t>>& getModelInputShape() const;
    const std::vector<std::vector<int64_t>>& getModelOutputShape() const;
    const std::vector<BufferInfo>& getInputBufferInfo() const;
    const std::vector<BufferInfo>& getOutputBufferInfo() const;
    std::vector<Scale> getInputScale() const;
    std::vector<Scale> getOutputScale() const;
    uint32_t getIdentifier() const;
    std::string getModelPath() const;
    std::vector<CacheInfo> getCacheInfos() const;
    StatusCode dumpCacheMemory(std::vector<std::vector<int8_t>>& bufs);
    std::vector<std::vector<int8_t>> dumpCacheMemory(StatusCode& sc);
    StatusCode dumpCacheMemory(const std::string& cache_dir);
    StatusCode loadCacheMemory(const std::vector<std::vector<int8_t>>& bufs);
    StatusCode loadCacheMemory(const std::string& cache_dir);
    int filterCacheTail(int cache_size, int tail_size, const std::vector<bool>& mask,
                        StatusCode& sc);
    int moveCacheTail(int num_head, int num_tail, int cache_size, StatusCode& sc);
    StatusCode infer(const std::vector<float*>& input,
                     std::vector<std::vector<float>>& output, int batch_size);
    std::vector<std::vector<float>> infer(const std::vector<float*>& input,
                                          int batch_size, StatusCode& sc);
    uint64_t getLatencyConsumed(const int npu_op_idx) const;
    uint64_t getLatencyFinished(const int npu_op_idx) const;
 
private:
    Model();
 
#ifndef _MSC_VER
    std::experimental::propagate_const<std::unique_ptr<ModelImpl>> mImpl;
#else
    std::unique_ptr<ModelImpl> mImpl;
#endif
 
    friend class Accelerator;
};
 
}  // namespace mobilint
 
#endif