DeepSeek yeni distillə edilmiş R1 modelini təqdim edib

Nigar Sultanli

DeepSeek

30 May 2025 10:53

1172 baxış

DeepSeek yeni distillə edilmiş R1 modelini təqdim edib

DeepSeek bu həftə süni intellekt icmasının diqqətini çəkən yeni R1 modelini təqdim etməklə yanaşı, onun daha yüngülləşdirilmiş və distillə edilmiş versiyasını da istifadəyə verib: DeepSeek-R1-0528-Qwen3-8B. Bu yeni model, bəzi testlərdə eyni ölçülü modelləri geridə qoyması ilə seçilir.

Yeni distillə edilmiş model, Alibaba tərəfindən bu ilin may ayında təqdim edilən Qwen3-8B bazasında qurulub. DeepSeek-in məlumatına görə, bu model Google-un Gemini 2.5 Flash modelini AIME 2025 adlı riyaziyyat üzrə çətin testdə üstələyib. Eyni zamanda, Microsoft-un Phi-4 Reasoning Plus modeli ilə HMMT adlı digər riyaziyyat testində bərabər səviyyəyə çatıb.

Adətən distillə edilmiş modellər tam ölçülü versiyalara nisbətən daha zəif performans göstərir. Lakin onların üstünlüyü – daha az hesablama gücünə ehtiyac duymalarıdır. Bulud texnologiyası platforması NodeShift-ə görə, Qwen3-8B modeli üçün 40GB-80GB RAM-a malik bir ədəd GPU (məsələn, Nvidia H100) kifayət edir. Halbuki, yeni tam ölçülü R1 modeli üçün 80GB RAM-lı təxminən 12 GPU tələb olunur.

DeepSeek-R1-0528-Qwen3-8B modeli belə yaradılıb: əvvəlcə tam güclü R1 modelindən süni intellekt tərəfindən yaradılan cavablar toplanıb və bu cavablarla Qwen3-8B modeli üzərində əlavə öyrədilmə (fine-tuning) aparılıb.

Modelin Hugging Face adlı məşhur süni intellekt platformasında yayımlanmış rəsmi səhifəsində DeepSeek bildirir ki, bu model həm akademik tədqiqatlar, həm də kiçik ölçülü sənaye layihələri üçün nəzərdə tutulub.

Əlavə olaraq, DeepSeek-R1-0528-Qwen3-8B modeli MIT lisenziyası ilə yayımlanıb. Bu isə onu kommersiya məqsədilə sərbəst şəkildə istifadə etməyə imkan verir. Artıq LM Studio kimi bir neçə platforma bu modeli API vasitəsilə təqdim edir.

Son yükləmələr