FZGPUModules/quantizer_8h_source.html

#pragma once


#include "stage/stage.h"

#include "fzm_format.h"

#include "fused/lorenzo_quant/lorenzo_quant.h"  // for ErrorBoundMode

#include <cuda_runtime.h>

#include <array>

#include <cmath>

#include <cstdint>

#include <cstring>

#include <limits>


namespace fz {


struct QuantizerConfig {

    float    abs_error_bound;

    float    user_error_bound;

    float    value_base;

    uint32_t quant_radius;

    uint32_t num_elements;

    uint32_t outlier_count;

    DataType input_type;

    DataType code_type;

    uint8_t  eb_mode;

    uint8_t  zigzag_codes;

    float    outlier_threshold;

    uint8_t  inplace_outliers;

    uint8_t  _pad[3];


    QuantizerConfig()

        : abs_error_bound(0.0f), user_error_bound(0.0f), value_base(0.0f),

          quant_radius(0), num_elements(0), outlier_count(0),

          input_type(DataType::FLOAT32), code_type(DataType::UINT16),

          eb_mode(0), zigzag_codes(0),

          outlier_threshold(std::numeric_limits<float>::infinity()),

          inplace_outliers(0), _pad{} {}

};


static_assert(sizeof(QuantizerConfig) <= FZM_STAGE_CONFIG_SIZE,

              "QuantizerConfig must fit in FZM_STAGE_CONFIG_SIZE");


template<typename TInput = float, typename TCode = uint16_t>


class QuantizerStage : public Stage {

public:


    struct Config {

        float  error_bound           = 1e-4f;

        int    quant_radius          = 32768;

        float  outlier_capacity      = 0.05f;

        ErrorBoundMode eb_mode       = ErrorBoundMode::ABS;

        float precomputed_value_base = 0.0f;

        bool  zigzag_codes           = false;

        float outlier_threshold      = std::numeric_limits<float>::infinity();

        bool  inplace_outliers       = false;


        Config() = default;

        Config(TInput eb, ErrorBoundMode mode = ErrorBoundMode::ABS,

               int radius = 32768, float outlier_cap = 0.05f)

            : error_bound(static_cast<float>(eb)), quant_radius(radius),

              outlier_capacity(outlier_cap), eb_mode(mode) {}

    };


    explicit QuantizerStage(const Config& config = Config());


    void execute(

        cudaStream_t stream,

        MemoryPool* pool,

        const std::vector<void*>& inputs,

        const std::vector<void*>& outputs,

        const std::vector<size_t>& sizes

    ) override;


    void postStreamSync(cudaStream_t stream) override;


    std::string getName() const override { return "Quantizer"; }


    size_t getNumInputs() const override {

        if (!is_inverse_) return 1;

        return isInplaceMode() ? 1 : 4;

    }

    size_t getNumOutputs() const override {

        if (is_inverse_) return 1;

        return isInplaceMode() ? 1 : 4;

    }


    std::vector<std::string> getOutputNames() const override {

        if (is_inverse_) return {"reconstructed"};

        if (isInplaceMode()) return {"codes"};

        return {"codes", "outlier_vals", "outlier_idxs", "outlier_count"};

    }


    std::vector<size_t> estimateOutputSizes(

        const std::vector<size_t>& input_sizes

    ) const override;


    std::unordered_map<std::string, size_t> getActualOutputSizesByName() const override {

        auto names = getOutputNames();

        std::unordered_map<std::string, size_t> result;

        for (size_t i = 0; i < names.size() && i < actual_output_sizes_.size(); i++)

            result[names[i]] = actual_output_sizes_[i];

        return result;

    }


    size_t getActualOutputSize(int index) const override {

        return (index >= 0 && index < static_cast<int>(actual_output_sizes_.size()))

            ? actual_output_sizes_[index] : 0;

    }


    void setInverse(bool inverse) override { is_inverse_ = inverse; }

    bool isInverse() const override        { return is_inverse_; }


    uint16_t getStageTypeId() const override {

        return static_cast<uint16_t>(StageType::QUANTIZER);

    }


    uint8_t getOutputDataType(size_t output_index) const override {

        if (is_inverse_) return static_cast<uint8_t>(getInputDataType());

        if (isInplaceMode()) return static_cast<uint8_t>(getCodeDataType()); // only codes

        switch (output_index) {

            case 0: return static_cast<uint8_t>(getCodeDataType());

            case 1: return static_cast<uint8_t>(getInputDataType());

            case 2: return static_cast<uint8_t>(DataType::UINT32);

            case 3: return static_cast<uint8_t>(DataType::UINT32);

            default: return static_cast<uint8_t>(DataType::UINT8);

        }

    }


    uint8_t getInputDataType(size_t /*input_index*/) const override {

        return static_cast<uint8_t>(getInputDataType());

    }


    size_t serializeHeader(size_t output_index, uint8_t* buf, size_t max_size) const override;

    size_t getMaxHeaderSize(size_t) const override { return sizeof(QuantizerConfig); }

    void deserializeHeader(const uint8_t* buf, size_t size) override;


    void saveState() override {

        saved_config_ = config_;

        saved_num_elements_ = num_elements_;

        saved_actual_outlier_count_ = actual_outlier_count_;

        saved_computed_abs_eb_ = computed_abs_eb_;

        saved_computed_value_base_ = computed_value_base_;

        saved_actual_output_sizes_ = actual_output_sizes_;

    }


    void restoreState() override {

        config_ = saved_config_;

        num_elements_ = saved_num_elements_;

        actual_outlier_count_ = saved_actual_outlier_count_;

        computed_abs_eb_ = saved_computed_abs_eb_;

        computed_value_base_ = saved_computed_value_base_;

        actual_output_sizes_ = saved_actual_output_sizes_;

    }


    void setErrorBound(TInput eb)            { config_.error_bound = static_cast<float>(eb); }

    void setQuantRadius(int r)               { config_.quant_radius = r; }

    void setOutlierCapacity(float c)         { config_.outlier_capacity = c; }

    void setErrorBoundMode(ErrorBoundMode m) { config_.eb_mode = m; }

    void setValueBase(float vb)              { config_.precomputed_value_base = vb; }

    void setZigzagCodes(bool enable)         { config_.zigzag_codes = enable; }

    void setOutlierThreshold(float t)        { config_.outlier_threshold = t; }

    void setInplaceOutliers(bool enable)     { config_.inplace_outliers = enable; }


    TInput         getErrorBound()        const { return static_cast<TInput>(config_.error_bound); }

    int            getQuantRadius()       const { return config_.quant_radius; }

    ErrorBoundMode getErrorBoundMode()    const { return config_.eb_mode; }

    float          getValueBase()         const { return config_.precomputed_value_base; }

    float          getOutlierCapacity()   const { return config_.outlier_capacity; }

    bool           getZigzagCodes()       const { return config_.zigzag_codes; }

    float          getOutlierThreshold()  const { return config_.outlier_threshold; }

    bool           getInplaceOutliers()   const { return config_.inplace_outliers; }


private:

    Config config_;

    Config saved_config_;

    std::vector<size_t> actual_output_sizes_;

    std::vector<size_t> saved_actual_output_sizes_;

    size_t   num_elements_        = 0;

    size_t   saved_num_elements_  = 0;

    uint32_t actual_outlier_count_= 0;

    uint32_t saved_actual_outlier_count_ = 0;

    bool     is_inverse_          = false;

    TInput   computed_abs_eb_     = static_cast<TInput>(1e-4);

    TInput   saved_computed_abs_eb_ = static_cast<TInput>(1e-4);

    float    computed_value_base_ = 0.0f;

    float    saved_computed_value_base_ = 0.0f;

    const void* d_outlier_count_ptr_ = nullptr;


    bool isInplaceMode() const {

        return config_.inplace_outliers

            && config_.eb_mode != ErrorBoundMode::REL;

    }


    DataType getInputDataType() const {

        if (std::is_same<TInput, float>::value)  return DataType::FLOAT32;

        if (std::is_same<TInput, double>::value) return DataType::FLOAT64;

        return DataType::FLOAT32;

    }

    DataType getCodeDataType() const {

        if (std::is_same<TCode, uint8_t>::value)  return DataType::UINT8;

        if (std::is_same<TCode, uint16_t>::value) return DataType::UINT16;

        if (std::is_same<TCode, uint32_t>::value) return DataType::UINT32;

        return DataType::UINT16;

    }

    size_t getMaxOutlierCount(size_t n) const {

        return static_cast<size_t>(std::ceil(n * config_.outlier_capacity));

    }

};


extern template class QuantizerStage<float,  uint16_t>;

extern template class QuantizerStage<float,  uint32_t>;

extern template class QuantizerStage<double, uint16_t>;

extern template class QuantizerStage<double, uint32_t>;


} // namespace fz

fz::MemoryPool
Definition mempool.h:82

fz::QuantizerStage
Definition quantizer.h:97

fz::QuantizerStage::saveState
void saveState() override
Definition quantizer.h:196

fz::QuantizerStage::getInputDataType
uint8_t getInputDataType(size_t) const override
Definition quantizer.h:188

fz::QuantizerStage::getOutputDataType
uint8_t getOutputDataType(size_t output_index) const override
Definition quantizer.h:176

fz::QuantizerStage::setInplaceOutliers
void setInplaceOutliers(bool enable)
ABS/NOA: encode outliers in-place (raw float bits in codes array; no scatter buffers).
Definition quantizer.h:223

fz::QuantizerStage::getOutputNames
std::vector< std::string > getOutputNames() const override
Definition quantizer.h:147

fz::QuantizerStage::setInverse
void setInverse(bool inverse) override
Definition quantizer.h:169

fz::QuantizerStage::postStreamSync
void postStreamSync(cudaStream_t stream) override

fz::QuantizerStage::deserializeHeader
void deserializeHeader(const uint8_t *buf, size_t size) override

fz::QuantizerStage::setOutlierThreshold
void setOutlierThreshold(float t)
ABS/NOA: |x| >= threshold → lossless outlier regardless of bin (LC reference parameter).
Definition quantizer.h:221

fz::QuantizerStage::execute
void execute(cudaStream_t stream, MemoryPool *pool, const std::vector< void * > &inputs, const std::vector< void * > &outputs, const std::vector< size_t > &sizes) override

fz::QuantizerStage::getName
std::string getName() const override
Definition quantizer.h:136

fz::QuantizerStage::serializeHeader
size_t serializeHeader(size_t output_index, uint8_t *buf, size_t max_size) const override

fz::QuantizerStage::getStageTypeId
uint16_t getStageTypeId() const override
Definition quantizer.h:172

fz::QuantizerStage::getActualOutputSizesByName
std::unordered_map< std::string, size_t > getActualOutputSizesByName() const override
Definition quantizer.h:157

fz::QuantizerStage::estimateOutputSizes
std::vector< size_t > estimateOutputSizes(const std::vector< size_t > &input_sizes) const override

fz::QuantizerStage::getMaxHeaderSize
size_t getMaxHeaderSize(size_t) const override
Definition quantizer.h:193

fz::QuantizerStage::getActualOutputSize
size_t getActualOutputSize(int index) const override
Definition quantizer.h:164

fz::Stage
Definition stage.h:30

fzm_format.h
FZM binary file format definitions — structs, enums, and helpers.

lorenzo_quant.h
Fused Lorenzo predictor and quantizer stage.

fz
Definition fzm_format.h:25

fz::ErrorBoundMode
ErrorBoundMode
Definition lorenzo_quant.h:30

fz::ErrorBoundMode::ABS
@ ABS
Absolute error bound.

fz::ErrorBoundMode::REL
@ REL
Global-approximate point-wise relative bound.

fz::FZM_STAGE_CONFIG_SIZE
constexpr size_t FZM_STAGE_CONFIG_SIZE
Per-stage serialized config slot (bytes)
Definition fzm_format.h:65

fz::DataType
DataType
Element data type identifiers used in buffer and stage descriptors.
Definition fzm_format.h:104

stage.h
Base class interface for all compression stages.

fz::QuantizerConfig
Definition quantizer.h:25

fz::QuantizerConfig::inplace_outliers
uint8_t inplace_outliers
1 if outliers are encoded in-place in the codes array.
Definition quantizer.h:37

fz::QuantizerConfig::eb_mode
uint8_t eb_mode
ErrorBoundMode cast to uint8_t.
Definition quantizer.h:34

fz::QuantizerConfig::outlier_count
uint32_t outlier_count
Actual number of outliers.
Definition quantizer.h:31

fz::QuantizerConfig::code_type
DataType code_type
Quantization code type (1B).
Definition quantizer.h:33

fz::QuantizerConfig::zigzag_codes
uint8_t zigzag_codes
1 if ABS/NOA codes are zigzag-encoded.
Definition quantizer.h:35

fz::QuantizerConfig::num_elements
uint32_t num_elements
Total element count.
Definition quantizer.h:30

fz::QuantizerConfig::quant_radius
uint32_t quant_radius
Quantization radius.
Definition quantizer.h:29

fz::QuantizerConfig::user_error_bound
float user_error_bound
Original user-specified EB.
Definition quantizer.h:27

fz::QuantizerConfig::input_type
DataType input_type
Original input type (1B).
Definition quantizer.h:32

fz::QuantizerConfig::abs_error_bound
float abs_error_bound
Absolute EB after mode conversion (0 for REL).
Definition quantizer.h:26

fz::QuantizerConfig::_pad
uint8_t _pad[3]
Alignment padding — must be zero.
Definition quantizer.h:38

fz::QuantizerConfig::outlier_threshold
float outlier_threshold
ABS/NOA: |x| >= threshold → forced outlier (inf = disabled).
Definition quantizer.h:36

fz::QuantizerConfig::value_base
float value_base
value_range (NOA); 0 for ABS/REL.
Definition quantizer.h:28

fz::QuantizerStage::Config
Definition quantizer.h:100

fz::QuantizerStage::Config::outlier_threshold
float outlier_threshold
ABS/NOA: |x| >= threshold → lossless outlier (LC reference threshold). Default: ∞.
Definition quantizer.h:111

fz::QuantizerStage::Config::outlier_capacity
float outlier_capacity
Fraction of input size reserved for outliers.
Definition quantizer.h:103

fz::QuantizerStage::Config::zigzag_codes
bool zigzag_codes
Definition quantizer.h:109

fz::QuantizerStage::Config::precomputed_value_base
float precomputed_value_base
Pre-computed value_base > 0 to skip the NOA data scan; 0 = auto.
Definition quantizer.h:106

fz::QuantizerStage::Config::inplace_outliers
bool inplace_outliers
Definition quantizer.h:115

fz::QuantizerStage::Config::quant_radius
int quant_radius
Quantization radius.
Definition quantizer.h:102

fz::QuantizerStage::Config::error_bound
float error_bound
Error bound (interpretation set by eb_mode).
Definition quantizer.h:101