테크

‘소라’와 멀티모달 인공지능(AI)

과제 하거나 일할 때 챗GPT 사용하는 뉴니커 있나요? 재작년에 생성형 AI(인공지능) 챗GPT가 공개된 후, 인공지능이 일상에 성큼 들어왔는데요. 얼마 전 챗GPT를 만든 오픈AI가 새 모델 ‘소라(Sora)’를 내놓자 사람들이 “AI 수준이 이 정도라고?” 하며 깜짝 놀라고 있다고.

소라? 그게 뭔데...?

고화질 카메라로 직접 촬영한 것 같은 영상을 만들어주는 AI 모델이에요 🤖. 예전에도 영상을 만들어주는 AI는 있었지만, 소라는 훨씬 더 복잡한 영상을 진짜처럼 만들 수 있다는 점에서 달라요. 예를 들어 “고슴이 1살 때 영상 만들어줘” 하면 그 시대의 건물과 옷차림 등까지 반영해 영상을 만들 수 있다고. 심지어 영상 퀄리티도 할리우드 영화만큼 좋고요. 전문가들은 앞으로 소라 같은 ‘멀티모달AI’ 시대가 쫙 열릴 거라고 말해요.

멀티모달 AI...? 😇 그건 또 뭐야?

‘멀티’는 여러 개, ‘모달리티(Modality)’는 양식·양상이라는 뜻인데요. 시각·청각 등 다양한 양식으로 된 정보를 받아들이고 학습하는 AI라는 거예요. 예전의 AI와는 뭐가 다르냐면:

  • 글 밖의 세상은 몰랐는데 ✍️: 기존 AI는 텍스트를 통해서만 정보를 배우고 처리했어요. 그러다 보니 단어를 아무리 많이 알아도 단어가 지칭하는 대상이 어떻게 생겼는지, 혹은 실제 세계에서 어떤 의미를 갖는지까지는 이해하지 못했어요.

  • 눈과 귀 달리며 👀: AI가 텍스트뿐 아니라 소리나 이미지도 스스로 학습할 수 있게 되면 AI가 더 똑똑해져요. 사람처럼 이미지·음성·영상 정보를 스스로 해석하고 이해할 수 있는 것.

  • 진화하는 AI ✨: 멀티모달 AI는 인간을 흉내 내는 AI(=좁은인공지능·ANI)에서 인간처럼 스스로 생각하는 AI(=인공일반지능·AGI)로 진화하는 데 핵심적인 기술로 뽑혀요.

오... 엄청나네

워낙 핫한 만큼, 내로라하는 기업들이 경쟁 중이에요:

  • 구글 ‘제미나이 1.5’: 지난주에 공개된 제미나이 1.5 프로는 많은 양의 영상과 음성, 텍스트를 이해하고 빠진 정보까지 추론해 채우는 능력을 갖췄어요. 1시간짜리 영화를 단숨에 분석할 정도라고. 

  • 메타 ‘에뮤’: 작년 11월에 나온 에뮤는 텍스트를 영상으로 바꿔주는 AI인데요. “여기는 이렇게 고쳐줘” 하고 텍스트로 입력하면 영상을 알아서 수정해줘요

  • 네이버 ‘옴니서치’: 작년에 네이버쇼핑에 적용된 멀티모달 AI예요. 스마트렌즈로 거리에서 본 신발을 사진 찍어서 올리면 똑같거나 비슷한 상품을 찾아줘요.

  • 카카오 ‘허니비’: 이미지와 글자가 섞인 콘텐츠를 이해하고 분석할 수 있어요. 예를 들어 “이 사진에 있는 사람들이 무슨 대화 할 것 같아?” 하고 물으면 추론해서 답해준다고.

앞으로 멀티모달 AI 경쟁은 점점 더 치열해질 텐데요. 딥페이크 등 AI 때문에 새로 생기는 다양한 위험을 규제할 법과 제도를 마련해야 한다는 목소리도 커질 수 있어요.

이미지 출처: ©Open Ai
#테크#인공지능

구독할 경우 개인정보 수집·이용광고성 정보 수신에 동의하게 됩니다.

더 편하게 보고싶다면? 뉴닉 앱에서 만나요!