huggingface · eustlb · May 26, 2026 · Apr 20, 2026 · Apr 20, 2026 · Apr 20, 2026
diff --git a/docs/source/en/model_doc/audioflamingo3.md b/docs/source/en/model_doc/audioflamingo3.md
@@ -403,6 +403,11 @@ are forwarded, so you can tweak padding or tensor formats just like when calling
 [[autodoc]] AudioFlamingo3Encoder
     - forward
 
+## AudioFlamingo3Model
+
+[[autodoc]] AudioFlamingo3Model
+    - forward
+
 ## AudioFlamingo3ForConditionalGeneration
 
 [[autodoc]] AudioFlamingo3ForConditionalGeneration

diff --git a/docs/source/en/model_doc/glmasr.md b/docs/source/en/model_doc/glmasr.md
@@ -231,6 +231,11 @@ assert decoded_outputs == EXPECTED_OUTPUT
 [[autodoc]] GlmAsrEncoder
     - forward
 
+## GlmAsrModel
+
+[[autodoc]] GlmAsrModel
+    - forward
+
 ## GlmAsrForConditionalGeneration
 
 [[autodoc]] GlmAsrForConditionalGeneration

diff --git a/docs/source/en/model_doc/granite_speech.md b/docs/source/en/model_doc/granite_speech.md
@@ -163,6 +163,11 @@ for i, transcription in enumerate(transcriptions):
 
 [[autodoc]] GraniteSpeechFeatureExtractor
 
+## GraniteSpeechModel
+
+[[autodoc]] GraniteSpeechModel
+    - forward
+
 ## GraniteSpeechForConditionalGeneration
 
 [[autodoc]] GraniteSpeechForConditionalGeneration

diff --git a/docs/source/en/model_doc/granite_speech_plus.md b/docs/source/en/model_doc/granite_speech_plus.md
@@ -143,6 +143,11 @@ for k in range(NUM_SEGMENTS):
 
 [[autodoc]] GraniteSpeechPlusEncoderConfig
 
+## GraniteSpeechPlusModel
+
+[[autodoc]] GraniteSpeechPlusModel
+    - forward
+
 ## GraniteSpeechPlusForConditionalGeneration
 
 [[autodoc]] GraniteSpeechPlusForConditionalGeneration

diff --git a/docs/source/en/model_doc/hyperclovax.md b/docs/source/en/model_doc/hyperclovax.md
@@ -13,7 +13,7 @@ specific language governing permissions and limitations under the License.
 rendered properly in your Markdown viewer.
 
 -->
-*This model was released on 2025-07-21 and added to Hugging Face Transformers on 2026-05-06.*
+*This model was released on 2025-07-21 and added to Hugging Face Transformers on 2026-05-08.*
 
 <div style="float: right;">
     <div class="flex flex-wrap space-x-1">

diff --git a/docs/source/en/model_doc/musicflamingo.md b/docs/source/en/model_doc/musicflamingo.md
@@ -287,6 +287,11 @@ loss.backward()
 
 [[autodoc]] MusicFlamingoProcessor
 
+## MusicFlamingoModel
+
+[[autodoc]] MusicFlamingoModel
+    - forward
+
 ## MusicFlamingoForConditionalGeneration
 
 [[autodoc]] MusicFlamingoForConditionalGeneration

diff --git a/docs/source/en/model_doc/pe_audio.md b/docs/source/en/model_doc/pe_audio.md
@@ -13,7 +13,7 @@ specific language governing permissions and limitations under the License.
 rendered properly in your Markdown viewer.
 
 -->
-*This model was released on {release_date} and added to Hugging Face Transformers on 2025-12-16.*
+*This model was released on 2025-04-17 and added to Hugging Face Transformers on 2025-12-16.*
 
 # PE Audio
 

diff --git a/docs/source/en/model_doc/pe_audio_video.md b/docs/source/en/model_doc/pe_audio_video.md
@@ -13,7 +13,7 @@ specific language governing permissions and limitations under the License.
 rendered properly in your Markdown viewer.
 
 -->
-*This model was released on {release_date} and added to Hugging Face Transformers on 2025-12-16.*
+*This model was released on 2025-04-17 and added to Hugging Face Transformers on 2025-12-16.*
 
 # PE Audio Video
 

diff --git a/docs/source/en/model_doc/pe_video.md b/docs/source/en/model_doc/pe_video.md
@@ -13,7 +13,7 @@ specific language governing permissions and limitations under the License.
 rendered properly in your Markdown viewer.
 
 -->
-*This model was released on {release_date} and added to Hugging Face Transformers on 2025-12-16.*
+*This model was released on 2025-04-17 and added to Hugging Face Transformers on 2025-12-16.*
 
 # PE Video
 

diff --git a/docs/source/en/model_doc/qwen2_audio.md b/docs/source/en/model_doc/qwen2_audio.md
@@ -251,6 +251,11 @@ response = processor.batch_decode(generate_ids, skip_special_tokens=True, clean_
 [[autodoc]] Qwen2AudioEncoder
     - forward
 
+## Qwen2AudioModel
+
+[[autodoc]] Qwen2AudioModel
+    - forward
+
 ## Qwen2AudioForConditionalGeneration
 
 [[autodoc]] Qwen2AudioForConditionalGeneration

diff --git a/docs/source/en/model_doc/vibevoice_asr.md b/docs/source/en/model_doc/vibevoice_asr.md
@@ -452,6 +452,11 @@ print(transcription)
     - apply_transcription_request
     - decode
 
+## VibeVoiceAsrModel
+
+[[autodoc]] VibeVoiceAsrModel
+    - forward
+
 ## VibeVoiceAsrForConditionalGeneration
 
 [[autodoc]] VibeVoiceAsrForConditionalGeneration

diff --git a/docs/source/en/model_doc/voxtral.md b/docs/source/en/model_doc/voxtral.md
@@ -352,6 +352,11 @@ This model was contributed by [Eustache Le Bihan](https://huggingface.co/eustlb)
 [[autodoc]] VoxtralEncoder
     - forward
 
+## VoxtralModel
+
+[[autodoc]] VoxtralModel
+    - forward
+
 ## VoxtralForConditionalGeneration
 
 [[autodoc]] VoxtralForConditionalGeneration

diff --git a/docs/source/en/model_doc/voxtral_realtime.md b/docs/source/en/model_doc/voxtral_realtime.md
@@ -182,6 +182,11 @@ This model was contributed by [Eustache Le Bihan](https://huggingface.co/eustlb)
 [[autodoc]] VoxtralRealtimeEncoder
     - forward
 
+## VoxtralRealtimeModel
+
+[[autodoc]] VoxtralRealtimeModel
+    - forward
+
 ## VoxtralRealtimeForConditionalGeneration
 
 [[autodoc]] VoxtralRealtimeForConditionalGeneration

diff --git a/src/transformers/conversion_mapping.py b/src/transformers/conversion_mapping.py
@@ -87,6 +87,14 @@
     "vipllava": "llava",
     "mistral3": "llava",
     "pp_chart2table": "llava",
+    "voxtral": "qwen2_audio",
+    "voxtral_realtime": "qwen2_audio",
+    "audioflamingo3": "qwen2_audio",
+    "glmasr": "qwen2_audio",
+    "musicflamingo": "qwen2_audio",
+    "granite_speech_plus": "granite_speech",
+    "gemma3n_text": "qwen3_5_text",
+    "qwen3_5_moe_text": "qwen3_5_text",
     "llava_next_video": "llava_next",
     "llava_onevision": "llava_next",
     # class-based mappings
@@ -103,6 +111,12 @@
     "LlavaOnevisionModel": "LlavaModel",
     "FuyuModel": "LlavaModel",
     "MllamaModel": "LlavaModel",
+    "VoxtralModel": "Qwen2AudioModel",
+    "VoxtralRealtimeModel": "Qwen2AudioModel",
+    "AudioFlamingo3Model": "Qwen2AudioModel",
+    "GlmAsrModel": "Qwen2AudioModel",
+    "MusicFlamingoModel": "Qwen2AudioModel",
+    "GraniteSpeechPlusModel": "GraniteSpeechModel",
     "MaskFormerDetrDecoder": "DetrModel",
     "Qwen2_5_VLForConditionalGeneration": "Qwen2VLForConditionalGeneration",
     # ViT-style vision models (old HuggingFace checkpoint format → new modular format)
@@ -420,6 +434,38 @@ def _build_checkpoint_conversion_mapping():
             WeightRenaming(source_patterns=r"^vision_tower", target_patterns="model.vision_tower"),
             WeightRenaming(source_patterns=r"^multi_modal_projector", target_patterns="model.multi_modal_projector"),
         ],
+        "qwen2_audio": [
+            WeightRenaming(source_patterns=r"^language_model.model", target_patterns="model.language_model"),
+            WeightRenaming(source_patterns=r"^language_model.lm_head", target_patterns="lm_head"),
+            WeightRenaming(source_patterns=r"^audio_tower", target_patterns="model.audio_tower"),
+            WeightRenaming(source_patterns=r"^multi_modal_projector", target_patterns="model.multi_modal_projector"),
+        ],
+        "Qwen2AudioModel": [
+            WeightRenaming(source_patterns=r"^language_model.model", target_patterns="language_model"),
+        ],
+        "granite_speech": [
+            WeightRenaming(source_patterns=r"^language_model.model", target_patterns="model.language_model"),
+            WeightRenaming(source_patterns=r"^language_model.lm_head", target_patterns="lm_head"),
+            WeightRenaming(source_patterns=r"^encoder", target_patterns="model.encoder"),
+            WeightRenaming(source_patterns=r"^projector", target_patterns="model.projector"),
+        ],
+        "GraniteSpeechModel": [
+            WeightRenaming(source_patterns=r"^language_model.model", target_patterns="language_model"),
+        ],
+        "vibevoice_asr": [
+            WeightRenaming(source_patterns=r"^language_model.model", target_patterns="model.language_model"),
+            WeightRenaming(source_patterns=r"^language_model.lm_head", target_patterns="lm_head"),
+            WeightRenaming(
+                source_patterns=r"^acoustic_tokenizer_encoder", target_patterns="model.acoustic_tokenizer_encoder"
+            ),
+            WeightRenaming(
+                source_patterns=r"^semantic_tokenizer_encoder", target_patterns="model.semantic_tokenizer_encoder"
+            ),
+            WeightRenaming(source_patterns=r"^multi_modal_projector", target_patterns="model.multi_modal_projector"),
+        ],
+        "VibeVoiceAsrModel": [
+            WeightRenaming(source_patterns=r"^language_model.model", target_patterns="language_model"),
+        ],
         "llava_next": [
             WeightRenaming(source_patterns=r"^language_model.lm_head", target_patterns="lm_head"),
             WeightRenaming(source_patterns=r"^language_model", target_patterns="model.language_model"),

diff --git a/src/transformers/models/audioflamingo3/configuration_audioflamingo3.py b/src/transformers/models/audioflamingo3/configuration_audioflamingo3.py
@@ -100,6 +100,7 @@ class AudioFlamingo3Config(PreTrainedConfig):
     audio_token_id: int = 151669
     projector_hidden_act: str = "gelu"
     projector_bias: bool = True
+    tie_word_embeddings: bool = True
 
     def __post_init__(self, **kwargs):
         if isinstance(self.audio_config, dict):