FZGPUModules/lorenzo__quant_8h_source.html

#pragma once


#include "stage/stage.h"

#include "fzm_format.h"

#include <cuda_runtime.h>

#include <array>

#include <cstdint>

#include <cmath>

#include <cstring>


namespace fz {


enum class ErrorBoundMode : uint8_t {

    ABS = 0,

    REL = 1,

    NOA = 2,

};


struct LorenzoQuantConfig {

    float    error_bound;

    uint32_t quant_radius;

    uint32_t num_elements;

    uint32_t outlier_count;

    DataType input_type;

    DataType code_type;

    uint8_t  ndim;

    uint8_t  eb_mode;

    uint32_t dim_x;

    uint32_t dim_y;

    uint32_t dim_z;

    float    user_eb;

    float    value_base;

    uint8_t  zigzag_codes;

    uint8_t  reserved[3];


    // Total: 44 bytes (fits easily in 128B stage_config)


    LorenzoQuantConfig()

        : error_bound(0.0f), quant_radius(0), num_elements(0), outlier_count(0),

          input_type(DataType::FLOAT32), code_type(DataType::UINT16),

          ndim(1), eb_mode(0), dim_x(0), dim_y(1), dim_z(1),

          user_eb(0.0f), value_base(0.0f), zigzag_codes(0), reserved{0, 0, 0} {}

};


static_assert(sizeof(LorenzoQuantConfig) <= FZM_STAGE_CONFIG_SIZE, "LorenzoQuantConfig must fit in FZM_STAGE_CONFIG_SIZE");


template<typename TInput = float, typename TCode = uint16_t>


class LorenzoQuantStage : public Stage {

public:


    struct Config {

        float  error_bound       = 1e-3;

        int    quant_radius      = 32768;

        float  outlier_capacity  = 0.2f;

        std::array<size_t, 3> dims = {0, 1, 1};

        ErrorBoundMode eb_mode = ErrorBoundMode::ABS;

        float precomputed_value_base = 0.0f;

        bool zigzag_codes = false;

        Config() = default;

        Config(TInput eb, TCode radius = 32768, float outlier_cap = 0.2f,

               std::array<size_t, 3> d = {0, 1, 1})

            : error_bound(eb), quant_radius(radius), outlier_capacity(outlier_cap),

              dims(d) {}

    };


    explicit LorenzoQuantStage(const Config& config = Config());


    void execute(

        cudaStream_t stream,

        MemoryPool* pool,

        const std::vector<void*>& inputs,

        const std::vector<void*>& outputs,

        const std::vector<size_t>& sizes

    ) override;


    void postStreamSync(cudaStream_t stream) override;


    std::string getName() const override { return "LorenzoQuant"; }

    size_t getNumInputs()  const override { return is_inverse_ ? 4 : 1; }

    size_t getNumOutputs() const override { return is_inverse_ ? 1 : 4; }


    std::vector<std::string> getOutputNames() const override {

        return {"codes", "outlier_errors", "outlier_indices", "outlier_count"};

    }


    std::vector<size_t> estimateOutputSizes(

        const std::vector<size_t>& input_sizes

    ) const override;


    std::unordered_map<std::string, size_t> getActualOutputSizesByName() const override {

        auto names = getOutputNames();

        std::unordered_map<std::string, size_t> result;

        for (size_t i = 0; i < names.size() && i < actual_output_sizes_.size(); i++) {

            result[names[i]] = actual_output_sizes_[i];

        }

        return result;

    }


    size_t getActualOutputSize(int index) const override {

        return (index >= 0 && index < static_cast<int>(actual_output_sizes_.size()))

            ? actual_output_sizes_[index] : 0;

    }


    // Preserve the forward-mode actual_output_sizes_ across decompression passes.

    // decompressMulti() calls saveState()/restoreState() around each inverse

    // execute() to prevent the inverse pass from permanently corrupting the

    // 4-element forward output-size vector (inverse sets it to a 1-element vector).

    void saveState()    override { saved_output_sizes_ = actual_output_sizes_; }

    void restoreState() override { actual_output_sizes_ = saved_output_sizes_; }


    // Configuration accessors

    void setErrorBound(TInput error_bound) { config_.error_bound = error_bound; }

    void setQuantRadius(TCode radius) { config_.quant_radius = radius; }

    void setOutlierCapacity(float capacity) { config_.outlier_capacity = capacity; }

    void setDims(const std::array<size_t, 3>& dims) override { config_.dims = dims; }

    void setErrorBoundMode(ErrorBoundMode mode) { config_.eb_mode = mode; }

    // Provide a pre-computed value_range (NOA) or max(|data|) (REL) to skip

    // the internal data scan during execute().  Pass 0 to re-enable auto-scan.

    void setValueBase(float value_base) { config_.precomputed_value_base = value_base; }

    void setZigzagCodes(bool enable) { config_.zigzag_codes = enable; }

    void setDims(size_t x, size_t y = 1, size_t z = 1) { config_.dims = {x, y, z}; }


    TInput getErrorBound() const { return config_.error_bound; }

    TCode  getQuantRadius() const { return config_.quant_radius; }

    float  getOutlierCapacity() const { return config_.outlier_capacity; }

    std::array<size_t, 3> getDims() const { return config_.dims; }

    ErrorBoundMode getErrorBoundMode() const { return config_.eb_mode; }

    float getValueBase() const { return config_.precomputed_value_base; }

    bool  getZigzagCodes() const { return config_.zigzag_codes; }


    int ndim() const {

        if (config_.dims[2] > 1) return 3;

        if (config_.dims[1] > 1) return 2;

        return 1;

    }


    void setInverse(bool inverse) { is_inverse_ = inverse; }

    bool isInverse() const { return is_inverse_; }


    // ── Serialization ─────────────────────────────────────────────────────────


    uint16_t getStageTypeId() const override {

        return static_cast<uint16_t>(StageType::LORENZO_QUANT);

    }


    uint8_t getOutputDataType(size_t output_index) const override {

        switch (output_index) {

            case 0: return static_cast<uint8_t>(getCodeDataType());      // codes

            case 1: return static_cast<uint8_t>(getInputDataType());     // outlier_errors

            case 2: return static_cast<uint8_t>(DataType::UINT32);       // outlier_indices

            case 3: return static_cast<uint8_t>(DataType::UINT32);       // outlier_count

            default: return static_cast<uint8_t>(DataType::UINT8);

        }

    }


    uint8_t getInputDataType(size_t /*input_index*/) const override {

        return static_cast<uint8_t>(getInputDataType());

    }


    size_t serializeHeader(size_t output_index, uint8_t* header_buffer, size_t max_size) const override {

        (void)output_index;  // Lorenzo uses same header for all outputs


        if (max_size < sizeof(LorenzoQuantConfig)) {

            throw std::runtime_error("Insufficient buffer for Lorenzo config");

        }


        LorenzoQuantConfig config;

        config.error_bound   = static_cast<float>(computed_abs_eb_);  // abs bound used by decompressor

        config.quant_radius  = static_cast<uint32_t>(config_.quant_radius);

        config.num_elements  = static_cast<uint32_t>(num_elements_);

        config.outlier_count = actual_outlier_count_;

        config.input_type    = getInputDataType();

        config.code_type     = getCodeDataType();

        config.ndim          = static_cast<uint8_t>(ndim());

        config.eb_mode       = static_cast<uint8_t>(config_.eb_mode);

        config.dim_x         = static_cast<uint32_t>(config_.dims[0]);

        config.dim_y         = static_cast<uint32_t>(config_.dims[1]);

        config.dim_z         = static_cast<uint32_t>(config_.dims[2]);

        config.user_eb       = static_cast<float>(config_.error_bound);  // original user-specified value

        config.value_base    = computed_value_base_;

        config.zigzag_codes  = config_.zigzag_codes ? uint8_t{1} : uint8_t{0};

        config.reserved[0]   = 0; config.reserved[1] = 0; config.reserved[2] = 0;


        std::memcpy(header_buffer, &config, sizeof(LorenzoQuantConfig));

        return sizeof(LorenzoQuantConfig);

    }


    size_t getMaxHeaderSize(size_t output_index) const override {

        (void)output_index;

        return sizeof(LorenzoQuantConfig);

    }


    void deserializeHeader(const uint8_t* header_buffer, size_t size) override {

        // Minimum size is the original 32-byte layout (before user_eb/value_base were added).

        constexpr size_t kLegacySize = 32;

        if (size < kLegacySize) {

            throw std::runtime_error("Invalid Lorenzo config size");

        }


        LorenzoQuantConfig config;

        std::memcpy(&config, header_buffer, std::min(size, sizeof(LorenzoQuantConfig)));


        // error_bound in the header is always the absolute bound used at compression.

        config_.error_bound  = config.error_bound;

        computed_abs_eb_     = static_cast<TInput>(config.error_bound);

        config_.quant_radius = static_cast<TCode>(config.quant_radius);

        num_elements_        = config.num_elements;

        actual_outlier_count_= config.outlier_count;

        // New fields: present only in headers written by v1+ (≥40B, added user_eb/value_base/eb_mode).

        constexpr size_t kV1Size = 40;

        if (size >= kV1Size) {

            config_.eb_mode                = static_cast<ErrorBoundMode>(config.eb_mode);

            config_.precomputed_value_base = config.value_base;

            computed_value_base_           = config.value_base;

        } else {

            config_.eb_mode                = ErrorBoundMode::ABS;

            config_.precomputed_value_base = 0.0f;

            computed_value_base_           = 0.0f;

        }

        // zigzag_codes field added in v2 (≥44B).

        if (size >= sizeof(LorenzoQuantConfig)) {

            config_.zigzag_codes = (config.zigzag_codes != 0);

        } else {

            config_.zigzag_codes = false;

        }


        // Restore spatial dimensions; handle old (pre-dims) files gracefully

        int eff_ndim = (config.ndim == 0) ? 1 : static_cast<int>(config.ndim);

        // dim_x: stored explicitly; fall back to derivation for old files

        if (config.dim_x > 0) {

            config_.dims[0] = config.dim_x;

        } else if (config.num_elements > 0) {

            size_t yz = std::max<size_t>(1, config.dim_y) * std::max<size_t>(1, config.dim_z);

            config_.dims[0] = config.num_elements / yz;

        } else {

            config_.dims[0] = 0;

        }

        if (eff_ndim >= 2) {

            config_.dims[1] = (config.dim_y > 0) ? config.dim_y : 1;

        } else {

            config_.dims[1] = 1;

        }

        if (eff_ndim >= 3) {

            config_.dims[2] = (config.dim_z > 0) ? config.dim_z : 1;

        } else {

            config_.dims[2] = 1;

        }

    }


private:

    Config config_;

    std::vector<size_t> actual_output_sizes_;

    std::vector<size_t> saved_output_sizes_;  // saved by saveState(), restored by restoreState()

    size_t num_elements_ = 0;              // Track for header

    uint32_t actual_outlier_count_ = 0;    // Track for header

    bool is_inverse_ = false;              // false = compress, true = decompress

    TInput computed_abs_eb_ = 0;

    float computed_value_base_ = 0.0f;

    const void* d_outlier_count_ptr_ = nullptr;


    DataType getInputDataType() const {

        if (std::is_same<TInput, float>::value) return DataType::FLOAT32;

        if (std::is_same<TInput, double>::value) return DataType::FLOAT64;

        return DataType::FLOAT32;

    }


    DataType getCodeDataType() const {

        if (std::is_same<TCode, uint8_t>::value) return DataType::UINT8;

        if (std::is_same<TCode, uint16_t>::value) return DataType::UINT16;

        if (std::is_same<TCode, uint32_t>::value) return DataType::UINT32;

        return DataType::UINT16;

    }


    size_t getMaxOutlierCount(size_t num_elements) const {

        return static_cast<size_t>(std::ceil(num_elements * config_.outlier_capacity));

    }

};


extern template class LorenzoQuantStage<float, uint16_t>;

extern template class LorenzoQuantStage<float, uint8_t>;

extern template class LorenzoQuantStage<double, uint16_t>;

extern template class LorenzoQuantStage<double, uint32_t>;


// Kernel launcher declarations — defined in lorenzo.cu.


template<typename TInput, typename TCode>

void launchLorenzoKernel(

    const TInput* d_input, size_t n,

    TInput ebx2_r, TCode quant_radius,

    TCode* d_codes, TInput* d_outlier_errors,

    uint32_t* d_outlier_indices, uint32_t* d_outlier_count,

    size_t max_outliers, int grid_size,

    bool zigzag_codes,

    cudaStream_t stream

);


template<typename TInput, typename TCode>

void launchLorenzoInverseKernel(

    const TCode* d_codes,

    const TInput* d_outlier_errors, const uint32_t* d_outlier_indices,

    const uint32_t* d_outlier_count,

    size_t n, size_t max_outliers,

    TInput ebx2, TCode quant_radius,

    TInput* d_output,

    bool zigzag_codes,

    cudaStream_t stream, MemoryPool* pool

);


template<typename TInput, typename TCode>

void launchLorenzoKernel2D(

    const TInput* d_input, size_t nx, size_t ny,

    TInput ebx2_r, TCode quant_radius,

    TCode* d_codes, TInput* d_outlier_errors,

    uint32_t* d_outlier_indices, uint32_t* d_outlier_count,

    size_t max_outliers,

    bool zigzag_codes,

    cudaStream_t stream

);


template<typename TInput, typename TCode>

void launchLorenzoInverseKernel2D(

    const TCode* d_codes,

    const TInput* d_outlier_errors, const uint32_t* d_outlier_indices,

    const uint32_t* d_outlier_count,

    size_t nx, size_t ny, size_t max_outliers,

    TInput ebx2, TCode quant_radius,

    TInput* d_output,

    bool zigzag_codes,

    cudaStream_t stream, MemoryPool* pool

);


template<typename TInput, typename TCode>

void launchLorenzoKernel3D(

    const TInput* d_input, size_t nx, size_t ny, size_t nz,

    TInput ebx2_r, TCode quant_radius,

    TCode* d_codes, TInput* d_outlier_errors,

    uint32_t* d_outlier_indices, uint32_t* d_outlier_count,

    size_t max_outliers,

    bool zigzag_codes,

    cudaStream_t stream

);


template<typename TInput, typename TCode>

void launchLorenzoInverseKernel3D(

    const TCode* d_codes,

    const TInput* d_outlier_errors, const uint32_t* d_outlier_indices,

    const uint32_t* d_outlier_count,

    size_t nx, size_t ny, size_t nz, size_t max_outliers,

    TInput ebx2, TCode quant_radius,

    TInput* d_output,

    bool zigzag_codes,

    cudaStream_t stream, MemoryPool* pool

);


} // namespace fz

fz::LorenzoQuantStage
Definition lorenzo_quant.h:90

fz::LorenzoQuantStage::getActualOutputSizesByName
std::unordered_map< std::string, size_t > getActualOutputSizesByName() const override
Definition lorenzo_quant.h:144

fz::LorenzoQuantStage::ndim
int ndim() const
Returns the effective spatial dimensionality (1, 2, or 3).
Definition lorenzo_quant.h:185

fz::LorenzoQuantStage::getOutputDataType
uint8_t getOutputDataType(size_t output_index) const override
Definition lorenzo_quant.h:200

fz::LorenzoQuantStage::getStageTypeId
uint16_t getStageTypeId() const override
Definition lorenzo_quant.h:196

fz::LorenzoQuantStage::getActualOutputSize
size_t getActualOutputSize(int index) const override
Definition lorenzo_quant.h:152

fz::LorenzoQuantStage::saveState
void saveState() override
Definition lorenzo_quant.h:161

fz::LorenzoQuantStage::serializeHeader
size_t serializeHeader(size_t output_index, uint8_t *header_buffer, size_t max_size) const override
Definition lorenzo_quant.h:214

fz::LorenzoQuantStage::getMaxHeaderSize
size_t getMaxHeaderSize(size_t output_index) const override
Definition lorenzo_quant.h:242

fz::LorenzoQuantStage::getName
std::string getName() const override
Definition lorenzo_quant.h:132

fz::LorenzoQuantStage::execute
void execute(cudaStream_t stream, MemoryPool *pool, const std::vector< void * > &inputs, const std::vector< void * > &outputs, const std::vector< size_t > &sizes) override

fz::LorenzoQuantStage::getInputDataType
uint8_t getInputDataType(size_t) const override
Definition lorenzo_quant.h:210

fz::LorenzoQuantStage::deserializeHeader
void deserializeHeader(const uint8_t *header_buffer, size_t size) override
Definition lorenzo_quant.h:247

fz::LorenzoQuantStage::getOutputNames
std::vector< std::string > getOutputNames() const override
Definition lorenzo_quant.h:136

fz::LorenzoQuantStage::postStreamSync
void postStreamSync(cudaStream_t stream) override

fz::LorenzoQuantStage::setDims
void setDims(const std::array< size_t, 3 > &dims) override
Definition lorenzo_quant.h:168

fz::LorenzoQuantStage::setInverse
void setInverse(bool inverse)
Definition lorenzo_quant.h:191

fz::LorenzoQuantStage::estimateOutputSizes
std::vector< size_t > estimateOutputSizes(const std::vector< size_t > &input_sizes) const override

fz::MemoryPool
Definition mempool.h:82

fz::Stage
Definition stage.h:30

fzm_format.h
FZM binary file format definitions — structs, enums, and helpers.

fz
Definition fzm_format.h:25

fz::launchLorenzoInverseKernel3D
void launchLorenzoInverseKernel3D(const TCode *d_codes, const TInput *d_outlier_errors, const uint32_t *d_outlier_indices, const uint32_t *d_outlier_count, size_t nx, size_t ny, size_t nz, size_t max_outliers, TInput ebx2, TCode quant_radius, TInput *d_output, bool zigzag_codes, cudaStream_t stream, MemoryPool *pool)
3-D inverse Lorenzo kernel launcher.

fz::ErrorBoundMode
ErrorBoundMode
Definition lorenzo_quant.h:30

fz::ErrorBoundMode::NOA
@ NOA
Value-range relative bound (norm-of-absolute).

fz::ErrorBoundMode::ABS
@ ABS
Absolute error bound.

fz::ErrorBoundMode::REL
@ REL
Global-approximate point-wise relative bound.

fz::launchLorenzoKernel3D
void launchLorenzoKernel3D(const TInput *d_input, size_t nx, size_t ny, size_t nz, TInput ebx2_r, TCode quant_radius, TCode *d_codes, TInput *d_outlier_errors, uint32_t *d_outlier_indices, uint32_t *d_outlier_count, size_t max_outliers, bool zigzag_codes, cudaStream_t stream)
3-D forward Lorenzo kernel launcher.

fz::launchLorenzoInverseKernel2D
void launchLorenzoInverseKernel2D(const TCode *d_codes, const TInput *d_outlier_errors, const uint32_t *d_outlier_indices, const uint32_t *d_outlier_count, size_t nx, size_t ny, size_t max_outliers, TInput ebx2, TCode quant_radius, TInput *d_output, bool zigzag_codes, cudaStream_t stream, MemoryPool *pool)
2-D inverse Lorenzo kernel launcher.

fz::FZM_STAGE_CONFIG_SIZE
constexpr size_t FZM_STAGE_CONFIG_SIZE
Per-stage serialized config slot (bytes)
Definition fzm_format.h:65

fz::launchLorenzoKernel2D
void launchLorenzoKernel2D(const TInput *d_input, size_t nx, size_t ny, TInput ebx2_r, TCode quant_radius, TCode *d_codes, TInput *d_outlier_errors, uint32_t *d_outlier_indices, uint32_t *d_outlier_count, size_t max_outliers, bool zigzag_codes, cudaStream_t stream)
2-D forward Lorenzo kernel launcher. nx is the fast (x) dimension.

fz::DataType
DataType
Element data type identifiers used in buffer and stage descriptors.
Definition fzm_format.h:104

stage.h
Base class interface for all compression stages.

fz::LorenzoQuantConfig
Definition lorenzo_quant.h:43

fz::LorenzoQuantConfig::zigzag_codes
uint8_t zigzag_codes
1 if codes are zigzag-encoded, else 0.
Definition lorenzo_quant.h:57

fz::LorenzoQuantConfig::value_base
float value_base
value_range (NOA) or max(|data|) (REL) used in conversion.
Definition lorenzo_quant.h:56

fz::LorenzoQuantConfig::input_type
DataType input_type
Original input type (1B).
Definition lorenzo_quant.h:48

fz::LorenzoQuantConfig::quant_radius
uint32_t quant_radius
Quantization radius.
Definition lorenzo_quant.h:45

fz::LorenzoQuantConfig::reserved
uint8_t reserved[3]
Must be zero.
Definition lorenzo_quant.h:58

fz::LorenzoQuantConfig::error_bound
float error_bound
Absolute bound after mode conversion (used by decompressor).
Definition lorenzo_quant.h:44

fz::LorenzoQuantConfig::eb_mode
uint8_t eb_mode
ErrorBoundMode cast to uint8_t.
Definition lorenzo_quant.h:51

fz::LorenzoQuantConfig::num_elements
uint32_t num_elements
Total element count.
Definition lorenzo_quant.h:46

fz::LorenzoQuantConfig::ndim
uint8_t ndim
Spatial dimensionality 1/2/3 (0 treated as 1).
Definition lorenzo_quant.h:50

fz::LorenzoQuantConfig::dim_z
uint32_t dim_z
Z dimension (1 for 1-D/2-D).
Definition lorenzo_quant.h:54

fz::LorenzoQuantConfig::code_type
DataType code_type
Quantization code type (1B).
Definition lorenzo_quant.h:49

fz::LorenzoQuantConfig::dim_y
uint32_t dim_y
Y dimension (1 for 1-D).
Definition lorenzo_quant.h:53

fz::LorenzoQuantConfig::outlier_count
uint32_t outlier_count
Actual number of outliers.
Definition lorenzo_quant.h:47

fz::LorenzoQuantConfig::user_eb
float user_eb
Original user-specified error bound value.
Definition lorenzo_quant.h:55

fz::LorenzoQuantConfig::dim_x
uint32_t dim_x
X (fast) dimension; 0 = infer from num_elements.
Definition lorenzo_quant.h:52

fz::LorenzoQuantStage::Config
Definition lorenzo_quant.h:93

fz::LorenzoQuantStage::Config::quant_radius
int quant_radius
Quantization radius (2^15 for uint16_t).
Definition lorenzo_quant.h:95

fz::LorenzoQuantStage::Config::error_bound
float error_bound
Error bound (interpretation depends on eb_mode).
Definition lorenzo_quant.h:94

fz::LorenzoQuantStage::Config::zigzag_codes
bool zigzag_codes
Definition lorenzo_quant.h:107

fz::LorenzoQuantStage::Config::outlier_capacity
float outlier_capacity
Definition lorenzo_quant.h:96

fz::LorenzoQuantStage::Config::precomputed_value_base
float precomputed_value_base
Definition lorenzo_quant.h:104

fz::LorenzoQuantStage::Config::dims
std::array< size_t, 3 > dims
Definition lorenzo_quant.h:100