vision-language-model

Here are 485 public repositories matching this topic...

haotian-liu / LLaVA

[NeurIPS'23 Oral] Visual Instruction Tuning (LLaVA) built towards GPT-4V level capabilities and beyond.

chatbot llama multimodal multi-modality gpt-4 foundation-models visual-language-learning chatgpt instruction-tuning vision-language-model llava llama2 llama-2

Updated Aug 12, 2024
Python

OpenGVLab / InternVL

Star

[CVPR 2024 Oral] InternVL Family: A Pioneering Open-Source Alternative to GPT-4o. 接近GPT-4o表现的开源多模态对话模型

image-classification gpt multi-modal semantic-segmentation video-classification image-text-retrieval llm vision-language-model gpt-4v vit-6b vit-22b gpt-4o

Updated Jul 16, 2025
Python

QwenLM / Qwen-VL

Star

The official repo of Qwen-VL (通义千问-VL) chat & pretrained large vision language model proposed by Alibaba Cloud.

large-language-models vision-language-model

Updated Aug 7, 2024
Python

PKU-Alignment / align-anything

Star

Align Anything: Training All-modality Model with Feedback

chameleon multimodal dpo large-language-models rlhf vision-language-model

Updated May 28, 2025
Jupyter Notebook

jingyaogong / minimind-v

Star

?? 「大模型」1小时从0训练26M参数的视觉多模态VLM！?? Train a 26M-parameter VLM from scratch in just 1 hours!

artificial-intelligence chatgpt vision-language-model

Updated Apr 27, 2025
Python

deepseek-ai / DeepSeek-VL

Star

DeepSeek-VL: Towards Real-World Vision-Language Understanding

foundation-models vision-language-pretraining vision-language-model

Updated Apr 24, 2024
Python

dvlab-research / MGM

Star

Official repo for "Mini-Gemini: Mining the Potential of Multi-modality Vision Language Models"

generation large-language-models vision-language-model

Updated May 4, 2024
Python

MiniMax-AI / MiniMax-01

Star

The official repo of MiniMax-Text-01 and MiniMax-VL-01, large-language-model & vision-language-model based on Linear Attention

vlm large-language-models llm llms vision-language-model minimax-text-01 minimax-vl-01

Updated Jul 7, 2025
Python

InternLM / InternLM-XComposer

Star

InternLM-XComposer2.5-OmniLive: A Comprehensive Multimodal System for Long-term Streaming Video and Audio Interactions

foundation gpt language-model multimodal multi-modality vision-transformer gpt-4 visual-language-learning llm chatgpt instruction-tuning large-language-model supervised-finetuning mllm vision-language-model large-vision-language-model

Updated May 26, 2025
Python

jingyi0000 / VLM_survey

Star

Collection of AWESOME vision-language models for vision tasks

computer-vision deep-learning survey transfer-learning clip knowledge-distillation vision-language-model multi-modal-model

Updated May 25, 2025

The Cradle framework is a first attempt at General Computer Control (GCC). Cradle supports agents to ace any computer task by enabling strong reasoning abilities, self-improvment, and skill curation, in a standardized general environment with minimal requirements.

ai gcc multimodality vlm cradle computer-control lmm grounding ai-agent large-language-models llm generative-ai vision-language-model ai-agents-framework general-computer-control personoid foundation-agent

Updated Nov 7, 2024
Python

illuin-tech / colpali

Star

The code used to train and run inference with the ColVision models, e.g. ColPali, ColQwen2, and ColSmol.

information-retrieval vision-language-model retrieval-augmented-generation colpali colqwen2 colsmol

Updated Aug 5, 2025
Python

AlibabaResearch / AdvancedLiterateMachinery

Star

A collection of original, innovative ideas and algorithms towards Advanced Literate Machinery. This project is maintained by the OCR Team in the Language Technology Lab, Tongyi Lab, Alibaba Group.

Updated Apr 9, 2025
C++

Blaizzy / mlx-vlm

Sponsor

Star

MLX-VLM is a package for inference and fine-tuning of Vision Language Models (VLMs) on your Mac using MLX.

mlx vision-framework apple-silicon vision-transformer llm vision-language-model llava local-ai idefics florence2 paligemma pixtral molmo

Updated Jul 22, 2025
Python

showlab / ShowUI

Star

[CVPR 2025] Open-source, End-to-end, Vision-Language-Action model for GUI Agent & Computer Use.

agent vision-language-model vision-language-action computer-use gui-agent

Updated May 29, 2025
Python

ByteDance-Seed / Seed1.5-VL

Star

Seed1.5-VL, a vision-language foundation model designed to advance general-purpose multimodal understanding and reasoning, achieving state-of-the-art performance on 38 out of 60 public benchmarks.

cookbook large-language-model vision-language-model multimodal-large-language-models

Updated Jun 14, 2025
Jupyter Notebook

NVlabs / prismer

Star

The implementation of "Prismer: A Vision-Language Model with Multi-Task Experts".

vqa image-captioning language-model multi-task-learning vision-and-language multi-modal-learning vision-language-model

Updated Jan 17, 2024
Python

NVlabs / describe-anything

Star

[ICCV 2025] Implementation for Describe Anything: Detailed Localized Image and Video Captioning

vision-language-model large-multimodal-models describe-anything detailed-localized-captioning

Updated Jun 26, 2025
Python

emcf / thepipe

Star

Get clean data from tricky documents, powered by vision-language models ?

python pdf web scraping openai document scrapers structured-data unstructured-data multimodal vision-transformer large-language-models vision-language-model

Updated Jun 2, 2025
Python

llm-jp / awesome-japanese-llm

Star

日本語LLMまとめ - Overview of Japanese LLMs

japanese generative-model japanese-language language-models language-model generative-models multimodal vision-and-language vision-language foundation-models large-language-models llm llms generative-ai large-language-model vision-language-model japanese-llm japanese-language-model llm-japanese

Updated Jul 13, 2025
TypeScript

Improve this page

Add a description, image, and links to the vision-language-model topic page so that developers can more easily learn about it.

Curate this topic

Add this topic to your repo

To associate your repository with the vision-language-model topic, visit your repo's landing page and select "manage topics."

Learn more

潜水什么意思	皮肤是什么组织	122是什么号码	卵胎生是什么意思	研究员是什么级别
感叹是什么意思	猪油不凝固是什么原因	宝宝风热感冒吃什么药	sm是什么意思	月经期间吃什么食物最好
临床医学是什么意思	女生隐私长什么样	理化检验主要检验什么	缩量十字星意味着什么	铁树开花是什么生肖
甘油三酯偏高说明什么	dl是什么单位	双一流大学是什么	95是什么意思	吃维生素c片有什么好处

喝什么去火hcv9jop4ns9r.cn	什么牌子的点读机好hcv8jop1ns0r.cn	大便不规律是什么原因hcv9jop4ns2r.cn	12月15日是什么星座hcv9jop3ns6r.cn	胃疼是什么感觉hcv9jop2ns8r.cn
cd是什么元素hcv9jop3ns9r.cn	吹空调喉咙痛什么原因hcv7jop9ns1r.cn	气虚什么症状hcv8jop4ns0r.cn	什么草药可以止痒hcv7jop6ns7r.cn	兆字五行属什么hcv7jop9ns7r.cn
什么是刑事拘留hcv9jop4ns6r.cn	2012年是什么命hcv7jop7ns2r.cn	做爱时间短吃什么药好hcv8jop8ns0r.cn	手麻吃什么药hcv8jop3ns2r.cn	什么是动车hcv8jop5ns7r.cn
白癜风是什么样子的hcv8jop6ns4r.cn	血脂高吃什么油hcv9jop0ns4r.cn	诺诺是什么意思hcv7jop5ns2r.cn	吃什么东西容易消化hcv7jop9ns8r.cn	女性吃什么降低雄激素hcv8jop0ns9r.cn

拆地锁、移僵尸车、治违停部门联手整治泉州市区交通

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

vision-language-model

Here are 485 public repositories matching this topic...

haotian-liu / LLaVA

OpenGVLab / InternVL

QwenLM / Qwen-VL

PKU-Alignment / align-anything

jingyaogong / minimind-v

deepseek-ai / DeepSeek-VL

dvlab-research / MGM

MiniMax-AI / MiniMax-01

InternLM / InternLM-XComposer

jingyi0000 / VLM_survey

BAAI-Agents / Cradle

illuin-tech / colpali

AlibabaResearch / AdvancedLiterateMachinery

Blaizzy / mlx-vlm

showlab / ShowUI

ByteDance-Seed / Seed1.5-VL

NVlabs / prismer

NVlabs / describe-anything

emcf / thepipe

llm-jp / awesome-japanese-llm

Improve this page

Add this topic to your repo