SenseNova U1: 이미지 생성 및 이해를 재정의하는 오픈 소스 멀티모달 AI

전 세계의 인공지능 이미지 생성 전쟁이 한창입니다. 지난 주, OpenAI는 GPT 이미지 2를 공식적으로 공개하여 인터넷 전체를 놀라게 했습니다. 라이브 스트리밍 이커머스 비주얼, 향수를 불러일으키는 90년대 스타일의 사진, 복잡한 지식 다이어그램 등 놀라운 데모가 연이어 피드에 넘쳐나고 있습니다.

인공지능 이미지 생성 기능이 한 단계 더 진화한 것은 분명합니다.

불과 며칠 만에 중국의 주요 기술 업체인 센스타임은 새로운 비장의 카드로 빠르게 대응했습니다: SenseNova U1. 이 다중 모드 이해 및 생성 모델은 “이미지 이해'와 ”이미지 생성'을 같은 두뇌에 넣습니다.

핵심 혁신은 이해, 추론, 생성을 하나의 시스템으로 통합하는 자체 개발 “통합 모델 아키텍처'인 NEO-Unify에 있습니다.

더 중요한 것은 폐쇄적으로 운영하지 않았다는 점입니다. SenseNova U1 는 현재 GitHub에서 완전히 오픈소스로 공개되어 있으며, 이미 많은 사용자들이 실험을 시작하고 있습니다. 허깅 페이스와 MLS 슈퍼 인텔리전스 랩의 AI 전문가들도 이를 면밀히 관찰하며 엄지손가락을 치켜세우고 있습니다.

센스노바 U1 라이트 모델: 작은 크기, 큰 효과

이번 릴리스에는 경량 시리즈가 포함됩니다. 센스노바 U1 라이트, 두 가지 모델 변형이 있습니다:

SenseNova U1 모델 변형

SenseNova-U1-8B-MoT: 고집적 백본 네트워크 기반
SenseNova-U1-A3B-MoT: MoE 백본 네트워크 기반

매개변수는 “작아” 보이지만 성능은 기대치를 훨씬 뛰어넘습니다. 여러 벤치마크에서, SenseNova U1 는 모든 측면에서 우위를 보이며 비슷한 규모의 오픈소스 모델 중 최첨단(SOTA) 수준에 도달했습니다.

더욱 놀라운 것은 여러 지표에서 일부 대형 독점 상용 모델에 근접하거나 심지어 이를 능가한다는 점입니다.

SenseNova U1 연속 이미지-텍스트 생성

기술적인 세부 사항을 살펴보기 전에 실제 데모를 통해 다음과 같은 한계를 느껴보겠습니다. SenseNova U1 기능을 사용할 수 있습니다.

센스타임의 독창적인 이미지-텍스트 인터리브 기술을 기반으로 한 연속 이미지-텍스트 생성은 센스타임의 대표적인 강점입니다.

SenseNova U1을 사용한 건축 스케치

고딕 양식의 대성당의 단계별 스케치를 생성하는 예를 들어 보겠습니다. 추론 과정 중입니다, SenseNova U1 는 마치 깊은 공간적 사고를 가진 “건축가'처럼 복잡한 건축 미학을 매우 세밀하게 분석합니다.

과거에는 생성된 여러 이미지에서 일관성을 유지하는 것이 가장 어려운 문제 중 하나였습니다. 하지만 이 데모에서는 대략적인 윤곽선부터 화려한 최종 결과물까지 주요 구조, 비행 버트리스의 수, 심지어 장미 창 패턴까지 거의 완벽하게 일치합니다.

이러한 수준의 일관성을 통해 실제 가르칠 수 있는 디자인 워크스루처럼 느껴집니다.

SenseNova U1을 통한 멀티앵글 디자인 생성

또 다른 간단한 프롬프트는 해변 절벽에 도서관을 디자인하고 다양한 각도에서 표현하는 것입니다.

다섯 가지 관점, 다섯 가지 텍스트 세그먼트, 다섯 가지 이미지가 엄격하게 번갈아 가며 논리적으로 진행됩니다. 외부에서 내부로, 구조에서 분위기로, 낮에서 밤으로, 각각의 “생각'이 직접 시각화됩니다.

텍스트는 디자인 의도를 제공하고 이미지는 시각적 검증을 제공합니다. 이 둘은 서로를 강화합니다.

더욱 놀라운 점은 다섯 가지 이미지 모두에 걸쳐 건축, 소재, 색상 시스템이 모두 동일한 디자인 콘셉트에 따라 일관된 스타일을 유지하고 있다는 점입니다.

이것이 바로 “그림을 그리면서 생각하기'의 모습입니다.

SenseNova U1 스토리텔링 및 예술적 생성

센스노바 U1을 활용한 코믹 스토리텔링

몇 가지 간단한 프롬프트만 입력하면 됩니다, SenseNova U1 는 만화 스토리를 생성할 수 있습니다.

사이버 폐허의 외로운 불빛, 책을 읽는 노인 주위에 모인 로봇, 페이지에 떨어지는 눈물의 클로즈업, 마지막으로 긴 수평선의 와이드 샷까지 네 개의 패널로 구성된 이 영상은 정확한 페이싱을 유지합니다. 감정적 진행이 한 겹씩 쌓여갑니다.

캐릭터와 장면은 다음과 같은 덕분에 전체적으로 일관성을 유지합니다. SenseNova U1’의 이미지-텍스트 이해 및 생성 기능을 기본적으로 통합했습니다.

패널 사이사이에 “침묵의 탑'이라는 이름을 붙이고, 세월의 흔적을 따라 손가락을 묘사하고, 눈물과 노랗게 변한 페이지를 대조하는 등 자체적으로 내러티브 디테일을 추가하기도 합니다. 텍스트 자체는 미니 공상 과학 소설처럼 읽히며, 이미지는 감정의 절정을 시각화합니다.

SenseNova U1을 사용한 멀티 스타일 이미지 생성

다양한 스타일로 늑대를 그려달라고 요청하면 우키요에, 아르데코, 표현주의가 차례로 렌더링됩니다.

공유된 컨텍스트를 통해 구조적, 시각적 일관성을 유지하면서 슬라이드와 유사한 고차원적인 인포그래픽과 같은 결과물을 생성할 수도 있습니다.

인포그래픽 및 지식 시각화를 위한 SenseNova U1

SenseNova U1 는 이미지와 텍스트의 조합을 통해 일상적인 문제를 직관적이고 흥미롭게 설명할 수 있습니다.

SenseNova U1의 커피 인포그래픽

프롬프트: 푸어오버 커피 가이드를 만듭니다.

SenseNova U1 는 먼저 생각한 다음 관련 정보를 검색하고 프롬프트를 자세한 인포그래픽으로 확장합니다. 최종 결과물에는 원두 분쇄부터 추출까지의 과정을 정확하게 다루는 8가지 단계가 잘 연결되어 있습니다.

SenseNova U1을 사용한 물 순환 시각화

또 다른 예시입니다: “물 순환의 여정”

SenseNova U1 는 지식을 검색하고 수집하여 태양 복사, 증발, 응결, 수송, 강수, 유출 등 모든 주요 지리적 요소를 재구성하는 2K의 매우 선명한 다이어그램을 생성합니다.

각 단계는 이전 단계를 기반으로 정확하게 구축됩니다.

SenseNova U1로 생성된 고밀도 인포그래픽

6개의 단어만 입력하면 영양, 건강상의 이점 및 소비에 대한 조언을 담은 수박 인포그래픽이 생성되어 완전한 기사로 게시할 수 있습니다.

또한 매우 복잡한 출퇴근 가이드, 팝아트 스타일의 직업 전환 만화, 심지어 일본, 멕시코, 영국, 터키, 브라질, 인도와 같은 국가의 상징적인 음식을 재구성한 레고 스타일의 글로벌 아침 식사 인포그래픽을 만들 수도 있습니다.

센스노바 U1 아키텍처: NEO-Unify 설명

SenseNova U1’의 인상적인 성능은 상대적으로 작은 모델에서 어떻게 이런 성과를 낼 수 있을까요라는 근본적인 질문을 제기합니다.

그 해답은 아키텍처에 있습니다.

모듈형 AI에서 SenseNova U1 통합 모델까지

기존의 멀티모달 모델은 “모듈식” 접근 방식을 따릅니다:

시각을 위한 비전 인코더(VE)
드로잉용 변형 자동 인코더(VAE)
추론을 위한 대규모 언어 모델(LLM)

이러한 구성 요소는 개별적으로 훈련된 후 결합됩니다. 하지만 지각과 창조는 여전히 단절된 상태로 남아 있습니다.

NEO-Unify: 센스노바 U1의 핵심

NEO-Unify는 VE와 VAE를 모두 제거한다는 대담한 기능을 제공합니다.

언어와 시각 정보는 본질적으로 연결되어 있으며 통합된 개체로 모델링되어야 한다는 핵심 가정에서 출발합니다.

시스템 간 번역 대신, SenseNova U1 는 처음부터 시각과 언어를 함께 처리하는 이중 언어 사고자처럼 행동합니다.

센스노바 U1의 기술 경로

통합된 입력/출력 표현을 위한 거의 손실 없는 시각적 인터페이스
네이티브 MoT(혼합형 변압기) 아키텍처
이해와 생성을 위한 공유 백본
공동 학습: 자동 회귀 교차 엔트로피를 통한 텍스트, 픽셀 스트림 매칭을 통한 비전

실험 결과 이해 분기가 정지된 상태에서도 생성 분기는 여전히 세밀한 시각적 디테일을 복구할 수 있는 것으로 나타났습니다. 이는 통합 표현이 의미적 풍부함과 픽셀 충실도를 모두 유지한다는 것을 시사합니다.

SenseNova U1 vs GPT-Image-2

불과 일주일 전, GPT-Image-2(ChatGPT 이미지 2.0)는 완벽에 가까운 텍스트 렌더링과 다단계 편집으로 새로운 벤치마크를 세웠습니다.

하지만 근본적으로 “전문화된 이미지 생성 모델”로 남아 있습니다.”

SenseNova U1 는 다른 길을 택합니다. 단순히 이미지를 생성하기 위한 것이 아니라 기본적으로 통합된 모델로 처리합니다:

이미지 이해
시각적 추론
이미지-텍스트 인터리빙 사고
인포그래픽 생성

모두 동일한 아키텍처, 동일한 교육, 동일한 모델에서 제공됩니다.

그리고 중요한 것은, SenseNova U1 는 오픈소스입니다.

비공개 배포, 심층적인 사용자 지정 또는 제품에 대한 멀티모달 통합이 필요한 개발자에게 적합합니다, SenseNova U1 는 GPT-Image-2가 제공하지 않는 경로를 제공합니다.

센스노바 U1과 AGI로 가는 길

더 큰 그림을 보면, 현재의 “이미지 생성 전쟁'은 여전히 더 나은 렌더링, 더 높은 해상도, 더 많은 스타일이라는 단편적인 패러다임에 머물러 있습니다.

이는 패러다임의 전환이 아니라 점진적인 개선입니다.

True AGI 는 특수 모듈의 패치워크가 아닙니다. 인간의 뇌는 언어, 시각, 행동을 위한 개별 시스템의 기계적 조합이 아니라 통합된 인지 실체입니다.

멀티모달 AI는 결국 네이티브 통합을 향해 나아갈 것입니다.

SenseNova U1, 는 이 아이디어를 완전히 수용한 최초의 아키텍처 중 하나이며, 학문적으로나 엔지니어링 측면에서 고유한 가치를 지니고 있습니다.

센스노바 U1의 미래: 8B는 시작에 불과하다

SenseTime은 이를 명확히 했습니다: 센스노바 U1 라이트 는 경량 버전에 불과합니다. NEO-Unify를 기반으로 하는 더 큰 규모의 모델이 곧 출시될 예정입니다.

효율적인 네이티브 아키텍처를 사용하면 훨씬 낮은 컴퓨팅 비용으로 최고 수준의 성능을 달성할 수 있다는 것이 이들의 믿음입니다.

8B가 이미 오픈 소스 SOTA에 도달했다면 수백억 개의 파라미터로 확장하면 아키텍처의 이점을 더욱 증폭시킬 수 있습니다.

새로운 패러다임을 제시하는 센스노바 U1

멀티모달 AI는 모듈식 조립에서 네이티브 통합으로 전환되고 있습니다.

오픈 소스 SenseNova U1 는 첫 단계에 불과합니다. 하지만 현재까지의 결과를 보면 이미 탄탄한 성과를 거두고 있습니다.

이 경로가 궁극적으로 어디로 이어질지는 전 세계 개발자 커뮤니티에 따라 달라질 수 있습니다.

코드와 가중치는 이미 사용 가능합니다.

다음 단계는 여러분에게 달려 있습니다.