본문 바로가기
Diary

'Gen AI Engineeer' 라는 단어를 보며.

by 콜라찡 2024. 5. 23.

파키스탄 동료들 중 몇몇이 슬랙에 자신들의 소개를 'Gen AI Engineer' 라고 써두었다.

생성형 인공지능 개발자? 과연 지금 내가 만드는 모델이 생성형 모델일까?

 

LLM이 나오고 나서, 더 정확히는 챗GPT가 나오고 나서부터 생성형 AI 에 대한 관심은 너무나도 뜨겁다.

나도 그랬다. 나도 주식커뮤니티 앱에서 일할 때에는 신나게 챗GPT를 가지고 열심히 컨텐츠를 생산해냈다.

면접에서 질문들이 그랬다. 주식쪽 도메인이니까 어떻지 않겠냐고.

주식이니까 금융쪽 데이터를 만졌을 것이라는 흔한 착각이다.

나는 주식 도메인에 있었지만 뉴스 기사로 컨텐츠를 만들었기 때문에 텍스트를 벡터화하는 워크플로우였고,

다른분들은 가격과 같은 숫자의 데이터로 투자 기법이나 예측 했기 때문에 머신러닝이나 시계열 라이브러리를 사용하는 업무를 했다.

프레임워크로 말하자면, pinecone, chroma, faiss 같은 벡터DB는 내가 주로 썼다는 이야기이다.

여기에 openai를 붙이면 컨텐츠가 생성된다.

그러니까 재밌고 창의적인 컨텐츠가 나오는.. but 주가와 종목이름이 정확한.. 생성형 모델을 만드는 일을 했다. 

 

그런데 지금은 생성형 개발자라고 하는 것이 맞을까 의문이다.

현재는 건설 도메인에서 RAG만 파고 있다. 

input은 계약서나 안전규정이고, output은 정확한 답변이다.

예전 주식 도메인에서도 아무래도 투자와 관련되다 보니 생성된 답변에 fact가 중요하긴 했다.

하지만 지금은 훨씬 더 정확성이 좋아야 한다. 정확히는 생성형 AI의 최대 한계인 hallucination을 최대로 최소화해야 한다.

그래서 창의성과 아이디어가 톡톡 튀어야 하는 완전 생성형 모델을 만들고 있지 않다.

그러다 보니 DB도 RDB처럼 정확하게 데이터가 검출되는 그런 벡터DB를 찾고 있다.

그리고 langchain이 너무.. 두리뭉실하다는 생각이 든다.

 

리서치하다가 llamaindex를 발견했다.

예전에 주식종목에 대한 컨텐츠를 생성한 후에 주식명에 대한 환각을 해결하려고 SQL을 연결해 검토하게 했었는데,

뭔가 텍스트 벡터를 relational하게 DB에 upsert 하면 더 정확한 검색이 되지 않을까 하는 구름같은 아이디어를 가지고

랭체인은 잠시 멈추고 라마 인덱스를 파봐야겠다. 

 

728x90

댓글