Ce trebuie să știm despre DeepSeek, modelul de inteligență artificială care a șocat Occidentul

Odată cu lansarea celui mai recent model de inteligență artificială (IA), DeepSeek, o firmă chineză obscură, a dinamitat ani întregi de politică americană menită să frâneze inovarea chineză. Și nu doar atât, ci a făcut și-o gaură în evaluările unor companii, de la Nvidia, campioana americană a cipurilor IA, la Siemens Energy, un producător de echipamente electrice pentru centrele de date.

Demonstrându-și capacitatea de-a inova fără a aduce atingere restricțiilor americane la export, DeepSeek a doborât ceea ce pare a fi acum un mit. Până recent, se credea că accesul la semiconductorii de ultimă generație și la echipamentele conexe este vital în formarea modelelor de inteligență artificială.

Omul care se află în ochiul furtunii este Liang Wenfeng, fondatorul DeepSeek, în vârstă de 40 de ani. Nu este clar cât de mult s-a bucurat de turbulențele declanșate pe piața globală. Luat în derâdere pe rețelele de socializare chineze pentru aspectul său slab și palid, Liang rămâne un mister pentru majoritatea oamenilor.

Cei care au avut relații profesionale cu DeepSeek spun că acesta este obsedat de inteligența generală artificială (IGA) de tip uman și de impactul pe care l-ar putea avea asupra lumii. În căutările sale, fondatorul DeepSeek bulversează teoriile despre progresul tehnologic atât în Occident, cât și în China, scrie The Economist.

Informațiile publice despre Liang sunt puține. Născut în 1985 într-o familie de profesori dintr-un sătuc sărac din apropierea orașului Zhanjiang, în sudul Chinei, Liang Wenfeng a fost un elev talentat. Un fost profesor spune că stăpânea matematica de nivel universitar încă din școala generală. În 2002, a început să studieze informatica electronică la Universitatea Zhejiang, o prestigioasă școală din orașul Hangzhou din estul Chinei. O diplomă de masterat la aceeași universitate, sub îndrumarea unui renumit om de știință, i-a pavat drumul spre domeniul inteligenței artificiale.

La acea vreme, Hangzhou era un centru înfloritor pentru tehnologia internetului. Aici a ieșit la rampă compania de comerț electronic Alibaba.

Liang și câțiva colegi de clasă au rămas în oraș și-au început să experimenteze cu modele de investiții cantitative, care nu se bazează pe datele fundamentale ale companiilor, ci pe procesarea unui volum mare de date. În 2013, Liang și trei colegi de clasă au lansat un grup de investiții numit Yakebi, în încercarea de-a monetiza modelele de tranzacționare pe care le construiseră.

Doi ani mai târziu, a co-fondat High-Flyer, un fond de hedging cantitativ care a crescut rapid alături de zeci de firme similare într-o perioadă de dereglementare și volatilitate a pieței din China. În 2021, High-Flyer pretindea că gestionează până la 100 de miliarde de yuani (14 miliarde de dolari), deși se pare că și-a redus rapid dimensiunea în a doua jumătate a acelui an.

Fondurile cantitative s-au confruntat în mod regulat cu autoritățile de reglementare chineze, care consideră că acestea profită de pe urma derapajelor pieței. Cei din industrie spun că High-Flyer s-a remarcat ca unul dintre cele mai agresive fonduri cantitative, atrăgându-și în mod regulat furia autorităților de reglementare a valorilor mobiliare.

Prima lovitură

Originile DeepSeek se află în efortul de-a îmbunătăți algoritmii High-Flyer. În 2019, grupul a investit 200 de milioane de yuani pentru a-și dezvolta propria platformă de învățare profundă (deep learning), denumită „Fire-Flyer 1”. Fondul a vărsat 1 miliard de yuani în acest proiect în 2021, pentru a lansa o a doua iterație echipată cu 10 000 de unități de procesare grafică Nvidia A100. Acest lucru a făcut din High-Flyer un caz excepțional: la momentul respectiv, doar alte patru firme din China dețineau arsenale atât de mari de cipuri puternice, toate fiind giganți tehnologici precum Alibaba.

DeepSeek a devenit o companie de sine stătătoare în 2023.

Aceasta a dat prima lovitură pieței în luna mai a anului trecut, când a lansat un chatbot ultra-ieftin bazat pe modelul său V2. Acest lucru a declanșat un război al prețurilor în industria inteligenței artificiale din China, forțând cele mai mari firme de tehnologie din țară - Alibaba, Baidu, ByteDance și Tencent – să-și reducă prețurile.

După spusele lui Liang, nu a fost o manevră pentru a atrage mai mulți utilizatori. În iulie, acesta a declarat că costurile au scăzut pe măsură ce DeepSeek a explorat noi structuri de model, ceea ce l-a diferențiat de ceilalți. Deși grupurile chineze rivale de inteligență artificială au efectuat cercetări în domeniul modelelor, dezavantajul lor în ceea ce privește puterea de calcul, din cauza restricțiilor americane la export, le-a determinat să se concentreze mai mult pe crearea de aplicații inteligente care utilizează tehnologia. Multe grupuri chineze de inteligență artificială au folosit Llama, familia de modele lingvistice mari dezvoltate de Meta, titanul american al social media, ca bază pentru aplicațiile lor.

Pentru Liang Wenfeng, dezvoltarea de modele care utilizează mai puțină putere de calcul este un pas esențial în urmărirea obiectivului său pe termen lung. „Scopul nostru este IGA, ceea ce ne obligă să explorăm noi structuri de modele pentru a obține capacități superioare cu resurse limitate”, a declarat el presei locale.

Șocul

Noul model R1 al DeepSeek, care a șocat Occidentul, sugerează că se fac progrese. Compania spune că pregătirea noului model a costat mai puțin de 6 milioane de dolari, o fracțiune infimă din modelele comparabile de la OpenAI, producătorul ChatGPT. Sam Altman, șeful OpenAI, a spus că R1 este „impresionant” (și a promis, de asemenea, că va produce „modele mult mai bune”).

DeepSeek are, cu siguranță, scepticii săi. Primele teste par să confirme că R1 este la fel de puternic pe cât susține producătorul său. Dar unii s-au întrebat dacă firma a subestimat numărul de cipuri high-end pe care le-a folosit pentru a dezvolta modelul, chiar dacă alții susțin că afirmațiile companiei sunt plauzibile. Există, de asemenea, speculații conform cărora DeepSeek și-a format modelele studiind rezultatele modelelor americane, un proces cunoscut sub numele de „distilare”. OpenAI a declarat că are dovezi care indică faptul că DeepSeek își distilează modelele.

Cu toate acestea, dacă DeepSeek este cu adevărat eficient, așa cum mulți cred, atunci este un afront atât la adresa „înțelepciunii” tehnologice americane, cât și la adresa modelului de inovare condus de statul chinez. Mass-media chineză de stat a promovat rapid DeepSeek drept un avantaj național în lupta țării pentru supremația IA. Liang a fost invitat la o întâlnire cu Li Qiang, premierul Chinei, pe 20 ianuarie, alături de o mână de alți antreprenori.

Cu toate acestea, după cum subliniază Zhang Zhiwei de la Pinpoint Asset Management, o firmă de investiții, realizările DeepSeek nu provin grație institutelor de cercetare susținute de guvern sau datorită companiilor controlate de stat din China. Liang pare să controleze majoritatea acțiunilor DeepSeek și s-a ferit de industria de capital de risc dominată de statul chinez.

Liang consideră că rolul Chinei din ultimii 30 de ani a fost acela de „discipol” tehnologic, construind pe bazele dezvoltate în Occident. Diferența dintre America și China este între „originalitate și imitație”, a declarat Liang într-un interviu acordat presei locale în iulie. Succesul Nvidia, susține el, nu s-a bazat doar pe propriile performanțe, ci și pe colaborarea tehnologică dintre companiile occidentale. În opinia sa, încercările Chinei de-a imita puterea de calcul occidentală au eșuat, deoarece lipsește acest tip de colaborare.

Așadar, DeepSeek nu pare un semnal de alarmă doar pentru Occident, ci și pentru liderii chinezi de la Beijing.

Sursă foto: mundissima / Shutterstock.com

Tag-uri: chatbot, deep seek, inteligenta artificiala