메뉴 건너뛰기

XEDITION

공지사항

관절보궁 효능 AI 모델의 능력을 평가하는 벤치마크가 점점 더 전문화되면서 새로운 문제가 대두되고 있다. 웰슬리 칼리지와 텍사스 오스틴 대학 연구진들에 따르면, 현재의 벤치마크들은 대부분 PhD를 보유했거나 취득 중인 전문가들이 설계한 것으로, 일반인들은 문제 자체를 이해하기 어려울 뿐만 아니라 답이 맞는지 검증하는 것도 쉽지 않다. 이는 AI 모델이 왜 특정 문제를 어려워하는지, 답이 정확한지, 효율적으로 추론하고 있는지를 확인하기 어렵게 만든다. 연구진은 이러한 문제가 앞으로 추론 모델이 더욱 확산됨에 따라 더욱 중요해질 것이라고 지적한다. (☞ 논문 바로가기) 실제로 높은 학위 소지가 반드시 뛰어난 추론 능력을 의미하지는 않는다. 따라서 연구진은 일반적인 지식만으로도 이해할 수 있는 문제로 구성된 벤치마크가 필요하다고 주장한다. 이러한 문제는 해결하기는 어렵더라도 답을 검증하는 것은 AI와 인간 모두에게 쉬워야 한다는 것이 연구진의 설명이다. 박사급 지식은 필요 없다... NPR 퍼즐로 AI 능력 측정 연구진이 발표한 연구 논문에 따르면, 기존 AI 모델의 평가 방식을 완전히 새롭게 접근한 벤치마크가 등장했다. 지금까지의 AI 벤치마크는 대학 수준의 수학 경진대회 문제나 고난도 프로그래밍 문제, 학문적 전문 지식이 필요한 문제들로 구성되어 왔다. 그러나 NPR 선데이 퍼즐 챌린지를 기반으로 한 이 새로운 벤치마크는 전문적인 지식 대신 일반적인 상식을 활용해 AI의 성능을 측정한다. 1987년부터 방송된 이 라디오 퍼즐 프로그램은 매주 수백에서 수천 명의 청취자들이 정답을 제출할 만큼 대중적이며, 일부 퍼즐의 경우 사전이나 지도를 참고해 풀 수 있도록 명시적으로 안내하기도 한다.

번호 제목 글쓴이 날짜 조회 수
3634 이낙연 "윤석열·이재명 둘 다 청산하고 새로운 시대로 가야…李사법리스크, 국가리스크로 번질 것" new 하지현 2025.03.01 0
3633 [단독] 초등생 살해 뒤 응급실서 웃은 여교사...범행 동기 규명 실마리 될까 new 곽두원 2025.03.01 0
3632 세탁기 new 아현역 2025.03.01 0
3631 광주웨딩박람회 new 정발산 2025.03.01 0
3630 부동산전문변호사 new 최신세 2025.03.01 0
3629 호텔 강도살인 중국인 3명 구속.. "증거인멸·도주 우려" new 정혜수 2025.03.01 0
3628 울산웨딩박람회 new 정보보 2025.03.01 0
3627 비데 new 종소세 2025.03.01 0
3626 檢, '오세훈 여론조사비 대납 의혹' 사업가 김한정 압수수색…명태균 수사 신호탄 new 최성현 2025.03.01 0
3625 성범죄변호사 new 이국현 2025.03.01 0
3624 윤석열이 MBC 때리고 유튜브 보듯…트럼프 언론탄압 ‘판박이’ new 곽두원 2025.03.01 0
3623 대구웨딩박람회 new 월비릭 2025.03.01 0
3622 “월급 500만 원이 평균이라고?”.. 누구는 적자 살림, 누구는 돈 쌓는다 new 소수현 2025.03.01 0
3621 정수기 new 소소데스 2025.03.01 0
3620 부산웨딩스튜디오 new 간보기 2025.02.28 0
3619 손님이 와야 빚을 갚죠…서울에서 제주까지 소비 빙하기 new 곽두원 2025.02.28 0
3618 tv렌탈 new 중기청 2025.02.28 0
3617 형사전문변호사 new 드림원 2025.02.28 0
3616 "제2의 하늘이 없도록" 보호자 대면 인계 원칙.. 안전 관리 강화 new 이성희 2025.02.28 0
3615 "월 20만원씩, 18세까지"…육아지원금 준 '이곳' 출산율 뛰었다 new 최윤정 2025.02.28 0
위로