LioEinaudi

Lio Einaudi LioEinaudi

Undergraduate CS student | CUDA & GPU Computing |C++/CUDA/Linux

Pinned Loading

CUDA-Accelerated-LiDAR-PointPillars-Preprocessing CUDA-Accelerated-LiDAR-PointPillars-Preprocessing Public

C++/CUDA PointPillars LiDAR preprocessing pipeline with KITTI loading, pillar scatter, BEV pseudo-image generation, tests, and CUDA range filtering.

Cuda 3
GEMM-optimization GEMM-optimization Public

CUDA FP32 GEMM optimization with loop unrolling, shared memory tiling, register tiling, benchmarking, and Nsight profiling.

Cuda 1
mini-vllm-cuda mini-vllm-cuda Public

CUDA kernels for LLM decode-stage inference, built as a PyTorch extension with correctness tests and latency benchmarks.

Python