fbpx

Съпоставка: ИИ срещу човешката производителност при технически задачи

Разликата между човешката и машинната способност за разсъждение се стеснява – и то бързо. През последната година системите с изкуствен интелект продължиха да се развиват бързо, надминавайки човешкото представяне в технически задачи, където преди това не успяваха, като например напреднала математика и визуално разсъждение.

Изданието Visal Capitalist обобщава производителността на системите с изкуствен интелект спрямо човешките базови нива по осем показателя за ИИ, измерващи задачи, включително:

  1. Класификация на изображения – 103.8%
  2. Визуално разсъждение – 102-4%
  3. Разбиране на четене на средно ниво – 101.15%
  4. Разбиране на английски език – 101.67%
  5. Разбиране на език за много задачи – 102.78%
  6. Математика на състезателно ниво – 108.78%
  7. Научни въпроси на докторско ниво – 108%
  8. Мултимодално разбиране и разсъждение – 94.67%

Изследването е част от Седмицата на ИИ на Visual Capitalist, спонсорирана от Terzo. Данните са от доклада за индекса на ИИ на Станфордския университет за 2025 г.

Показателите за ИИ са стандартизиран тест, използван за оценка на производителността и възможностите на системите с изкуствен интелект при специфични задачи.

Заключенията показват как моделите с изкуствен интелект са се представили спрямо човешките базови нива в различни технически задачи през последните години.

От ChatGPT до Gemini, много от водещите световни модели на изкуствен интелект надминават човешкия базов модел в редица технически задачи.

Единствената задача, в която системите с изкуствен интелект все още не са настигнали човешките, е мултимодалното разбиране и разсъждение, което включва обработка и разсъждение в множество формати и дисциплини, като изображения, диаграми и диаграми.

Разликата обаче бързо се скъсява.

През 2024 г. моделът o1 на OpenAI постигна 78,2% в MMMU, показател, който оценява модели върху мултидисциплинарни задачи, изискващи познания по предмети на колежанско ниво. Това е само с 4,4 процентни пункта под човешкия стандарт от 82,6%. Моделът o1 също така има един от най-ниските нива на халюцинации от всички модели на ИИ.

Това е голям скок спрямо края на 2023 г., когато Google Gemini постигна само 59,4%, което подчертава бързото подобрение на производителността на ИИ в тези технически задачи.




Имате възможност да подкрепите качествените анализи, коментари и новини в "Икономически живот"