요즘은 기업 과제 제안서를 작성하느라 생성형 AI와 관련 기술에 대하여 조사하고 있다.
으레 다른 제안서와 마찬가지로, 국내외 연구 동향이나 기술 현황을 조사하고 있었는데,
한 가지 문제를 발견하였다.
바로 생성형 AI를 기반으로 이미지를 만들기 시작하면서 뉴스 자료 내 이미지가 저품질화 되고 있다는 것이다.
단순히 이미지 품질이 낮다기 보다는, 기사 내 이미지를 통해 얻을 수 있는 정보가 사실상 없어서 저품질화 되고 있었다.
특히, 테크 관련 기사에 더더욱 그러한 경향이 두드러지는 것 같다.
뉴스, 발표자료, 공식 문서 내의 이미지나 차트는 체계적인 구조를 바탕으로 글에 표현된 정보를 직관적이고 간단하게 표현하는데 의의가 있다고 생각한다.
예를 들어, 생성형 AI에서 많이 적용하는 '검색 증강 생성 (RAG)' 기술에 대해 뉴스에 검색해본다고 하자.
사용자가 뉴스를 읽을때 이해에 보조될 수 있는 이미지 자료는
- 검생 증강 생성의 입출력을 포함한 전반적인 파이프라인이나,
- 실제 LLM을 기반으로 구축한 데모 사이트에서의 사용 사례나,
- 혹은 국내외 RAG 관련 기술 동향을 정리한 표
등이 있을 것이다.
이러한 자료는 저자가 직접 다이어그램을 구성하거나 데모를 통해 얻은 실제 결과를 보여줌으로써 만들 수 있을 것이다.
그런데, 구글에 검색 증강 생성 관련 뉴스를 검색해보면 무료로 공개된 이미지를 대충 짜집기해놓거나, 생성형 AI를 통해 관련 키워드로 만들어진 이미지들이 대부분이다. 사실 그 마저도 되게 성의없게 만들었다.
'검색 증강 생성' 이 키워드 인데도 대충 로봇 그림 만들면 OK. 대충 전기 흐르는 DB서버 같은거 그려내면 OK.
RAG 관련한 그림도 아니어서 정말 일말의 영양가도 없는 경우가 대다수다. 아마 글쓴이는 검색 증강 생성이나 관련한 내용을 설명한 글을 넣지 않고 대충 'AI', '인공지능' 이런거만 넣은거겠지.
참고자료로 활용하기 위해 기사 다운 기사나 정부가 풍부한 이미지 찾기가 이미지 생성 모델이 공개된 이후로 날이 가면 갈수록 어려워지는 것 같다. 오늘도 기업 과제 제안서 쓰는데, 글 쓰는 것보다 유관한 자료 이미지 찾는 것이 훨씬 오래 걸렸다...
갑자기 문득 이런 생각이 들었다.
1. 뉴스 이미지는 하나의 단편적인 증거일뿐이고, 앞으로 인터넷에 존재하는 다양한 형식의 자료 대부분이 생성형 AI를 기반으로 만들어질 것 같다. (사실 이미 진행되고 있다)
2. 일반적으로 거대언어모델(LLM)을 학습하기 위해서는 인터넷과 같은 소스에서 대규모로 데이터를 크롤링하여 학습시킨다.
3. 초창기에서 현재까지의 LLM들은 사람이 직접 만든, 정보가 풍부하고 잘 정제된 언어나 이미지 자료를 기반으로 학습될 수 있지만, 시간이 지나면서 인터넷에는 학습된 모델이 생산한 합성 데이터들이 판을 칠 것 이다.
4. 물론, 돈이 많은 빅테크들은 전문 인력(박사급 이상)을 각 분야별로 투입해서 고품질의 데이터를 계속 생산하고 사람과 비용을 많이 투입해서 데이터 정제를 잘 해낼 것이다. 계속 더 나은 언어 모델을 개발할 수 있겠지.
5. 그럼 세계에 몇 없는 빅테크를 제외한 회사들은 자체 모델 개발은 어렵고 (이미 Meta의 LLaMa나 OpenAI의 모델들은 아무도 못 이겨서 다들 가져다 쓰는 실정), 만든다 한들 저품질 데이터로 학습한 언어 모델일 것이다.
6. 그런데 이때, 시장을 점유한 빅테크들이 LLM 서비스 가격을 일반 서민들이 부담스러워할만한 가격으로 올린다면? 혹은 지불하는 비용에 따라 모델의 성능격차가 매우매우매우 크다면?!
7. 그러면 돈이 많은 사람들은 더 좋은 정보와 높은 생산성을 보유하면서 계속해서 이를 활용할 수 있을 것이고, 그렇지 못한 사람들은 계속 저급 LLM을 쓰며 저품질의 지식과 생산성을 보유하게 될 것이다. 물론 이를 활용해서 돈을 버는 것에도 간극이 생겨나겠지.
8. 시간이 지나면서 앎 (Knowledge)의 격차도 점점 양극화되지 않을까? 이제 인터넷을 통해 지식을 공유하고 정보 간극을 해소하는 건 옛말이 되는거지... 정보의 불균형으로 계층 역시 양극화되는...정보도..돈도...
9. .. 아니면 나아가서 지배계층이 저급 LLM을 활용해 일반 사람들을 세뇌하고 통제한다면... ?... 아마 미래에는 다들 직접 검색은 안하고 계속 LLM이나 agent 들을 활용해서 살아갈텐데... 그 LLM이 계층 양극화의 도구로 쓰인다면..?!
매우 극단적인 생각이겠지만... 나중에 이를 기반으로 한 디스토피아 소설 하나 나오면 재밌을 것 같다.
업무하면서 별 생각을 다하는 하루같다.
근데 시간나면 시나리오 써보면 재밌을 것 같다.
블로그에 연재해야지 !
오블완.
'대학원생활 @ KAIST' 카테고리의 다른 글
학부생들의 축제는 대학원생의 외식날 (5) | 2024.11.20 |
---|---|
대학원생을 위한 데일리 논문 추천 메일: Scholar Inbox (2) | 2024.11.19 |
박사 과정에게 필요한 건 단 하나, ChatGPT (6) | 2024.11.17 |
박사 과정의 평판 관리와 레퍼런스 체크 (2) | 2024.11.14 |
박사과정의 기분 환기 (2) | 2024.11.13 |