qwen2-vl-2b

Here are 5 public repositories matching this topic...

PRITHIVSAKTHIUR / Multimodal-OCR

Multimodal-OCR is an experimental, high-performance visual reasoning and optical character recognition suite designed to accurately extract text, analyze visual content, and parse complex document structures. Built upon a diverse ecosystem of cutting-edge vision-language models.

python pillow torch gradio opencv-python ocr-recognition torchvision huggingface-transformers huggingface-models huggingface-spaces qwen2-vl-2b qwen2-5-vl

Updated Mar 23, 2026
Python

Yatish54321 / Flipkart_Grid_6.0_Robotics_level2_model

Star

"Smart Vision Technology for Quality Control" uses computer vision to automate product inspections, extracting details like product name, quantity, expiry date, and freshness from images. Built for Flipkart Grid 6.0, it enhances accuracy and efficiency in quality control, minimizing manual checks.

huggingface-transformers genai qwen2-vl qwen2-vl-2b