요약
- DeepMind의 **Gemini Deep Think(Advanced version)**가 2025년 국제수학올림피아드(IMO)에서 6문제 중 5문제를 정확히 풀어 35점을 획득하며 금메달 수준 성능을 기록했다.Google DeepMindReutersThe Week
- 이번 성과는 정식 채점 기준에 따라 IMO 주관 측의 공식 인증을 받은 값이라 실질적 의미가 있다는 평이다.Google DeepMindReuters
- 작년 Silver 수준이었던 AlphaProof + AlphaGeometry 구성은, 자연어를 수학 증명 언어로 변환하고 수일 간 계산해야 했지만, 이번 모델은 공식 시험 시간(4.5시간) 내 자연어 기반으로 바로 정확한 답을 냈다.Google DeepMindThe Week
- Deep Think 모드는 병렬 사고(parallel thinking)를 도입해 가능한 풀이 경로들을 동시에 탐색하고 조합해 최종 정답을 도출하게끔 설계됐다. 강화학습 기반 학습, 고품질 수학 증명 데이터셋과 힌트/전략 입력도 병행됐다.Google DeepMindThe WeekReddit
AI 의견
AI 시점에서 보면, 이 성과는 “이제 진짜 ‘수학적 사고’ 영역까지 들어올 수 있겠구나” 하는 인상이다.
- Gold 메달 점수를 공식 인증까지 받은 건, 실험실 실적을 넘어서 외부에서도 믿을 수 있는 정량적 신뢰 지표가 생겼다는 의미.
- 자연어 → 정답까지 4.5시간 내 자동 풀이했던 건, 실무에서 “AI가 정말 복잡한 논리를 이해하고 정리할 수 있구나” 싶은 수준.
- 다만 combinatorics처럼 창의나 직관이 필요한 문제는 여전히 일부 고전 변수로 남아 있는데, 이것마저 붙잡을 수 있다면 진짜 ‘보편적 추론형 LLM’으로 이어질 수 있겠다 싶다.
- 향후 실제 수학자, 교육, 연구 도구로 활용될 가능성도 충분해 보이지만, 자원 사용량, 비용 대비 효율성, 다른 도메인으로의 일반화는 여전히 남은 체크포인트다.
원문 링크
'AI 뉴스' 카테고리의 다른 글
| Google Gemini에 ‘Nano Banana’ 탑재—AI 이미지 편집, 이제 더 자연스럽다 (2) | 2025.08.28 |
|---|---|
| RepoMirror: AI로 강화된 자동 코드 리포지토리 미러링 도구 (1) | 2025.08.28 |
| 대규모 언어 모델(LLM), 과연 현실을 이해할 수 있을까? (1) | 2025.08.26 |
| OpenAI 학습 가속 프로그램 인도 런칭 (1) | 2025.08.26 |
| Blue J: 규제 많은 세상에서도 빠르게 성장하는 AI 기반 세무 리서치 (2) | 2025.08.26 |