Ir pieejams daudz ar AI darbinātu tērzēšanas robotu, bet kurš izmanto labāko LLM? Lūk, kā varat salīdzināt LLM, lai noteiktu, kurš ir labākais.

Tā kā tiešsaistē ir pieejami vairāki tērzēšanas roboti, var būt ļoti grūti izvēlēties to, kas atbilst jūsu vajadzībām. Lai gan jūs varat salīdzināt jebkurus divus tērzēšanas robotus manuāli, tas prasīs ievērojamu laiku un pūles.

Labāks un vienkāršāks veids ir izmantot Chatbot Arena, lai salīdzinātu dažādus LLM, kas darbojas populāros tērzēšanas robotos. Tas piedāvā dažus režīmus dažādu modeļu salīdzināšanai, ko mēs izskaidrojam tālāk.

Kas ir Chatbot Arena?

LMSYS Org izveidotā Chatbot Arena ir platforma dažādu LLM salīdzināšanai. Tas izmanto Elo Rating sistēmu, lai ranžētu dažādus modeļus.

Chatbot Arena piedāvā dažus veidus, kā lietotāji var salīdzināt un novērtēt LLM. Pamatojoties uz iesniegtajām atsauksmēm, Chatbot Arena sarindo dažādus LLM publiskajā līderu sarakstā. Projektu sponsorē HuggingFace, atvērtā koda alternatīva ChatGPT.

Kā salīdzināt anonīmos LLM ar Chatbot arēnu

instagram viewer

Chatbot Arena kaujas režīms ļauj anonīmi salīdzināt LLM. Piemēram, jūs varat salīdziniet ChatGPT (GPT 3.5) un Claude. Tas nozīmē, ka Chatbot Arena pati izvēlas jebkurus divus valodu modeļus un, neatklājot to nosaukumus, ļauj tos salīdzināt.

Ievadot pirmo uzvedni, Chatbot Arena ienes atbildes no abiem modeļiem, parādot tās blakus. Platforma ļauj atjaunot atbildes (abiem LLM) un notīrīt vēsturi, lai sāktu citu sarunu. Varat turpināt uzdot citus jautājumus, līdz esat izvēlējies skaidru uzvarētāju.

Pēc tam varat izvēlēties, vai modelis A ir labāks vai B. Izvēloties uzvarētāju, Chatbot Arena atklāj abu robotu nosaukumus. Šis režīms darbojas lieliski, jo jūsu lēmumu neietekmē jūsu iepriekšējā uztvere vai modeļu popularitāte. Chatbot Arena arī ļauj pielāgot tādus parametrus kā temperatūra, Top P un maksimālās izvades marķieri.

Kā salīdzināt atlasītos LLM ar Chatbot arēnu

Ja vēlaties salīdzināt divus konkrētus LLM, varat pārslēgties uz Chatbot Arena blakus režīmu. Izņemot to, ka varat izvēlēties LLM pats, šis režīms darbojas gandrīz tāpat kā kaujas režīms. Varat pielāgot parametrus, atjaunot atbildes, notīrīt vēsturi un beigās izvēlēties uzvarētāju.

Tomēr šajā režīmā pieejamo LLM skaits ir ierobežots. Varat atlasīt dažādas Llama 2, Vicuna un ChatGLM versijas. Lai gan populārie LLM, piemēram, GPT-4, GPT-3.5, Claude 1, Claude 2 utt., pašlaik nav pieejami šajā režīmā, Chatbot Arena plāno tos pievienot.

Salīdziniet LLM, izmantojot Chatbot Arena

Neatkarīgi no tā, vai meklējat savām vajadzībām piemērotu tērzēšanas robotu vai vienkārši vēlaties pārbaudīt dažādus LLM, Chatbot Arena ir lieliska platforma.

Tas nodrošina vienkāršotu veidu, kā līdzās salīdzināt dažādus valodu modeļus. Un tā kā tajā tiek uzturēts līderu saraksts, pamatojoties uz lietotāju atsauksmēm, varat tieši skatīt dažādu modeļu klasifikāciju, pašam neveicot testus.