Detect model family for `max_completion_tokens` vs `max_tokens` (covers self-hosted OpenAI-compatible backends)

After #3 we always send `max_completion_tokens`. We can add model-prefix detection for OpenAI-compatible endpoints: pick `max_completion_tokens` for gpt-4o, gpt-4.1, gpt-5, o1, o3, or o4, else `max_tokens`.

References: 
https://github.com/NousResearch/hermes-agent/pull/15377