AI로 PDF 테이블 인식해서 GPTs만들기(gemini,claude,chatGPT 성능비교)
AI로 PDF 테이블 인식해서 GPTs만들기(gemini,claude,chatGPT 성능비교) 주기적으로 발표되는 자료를 누적해서 통계를 내는 작업이 필요할 때 아래와 같은 작업들이 필요합니다 1 자료를 테이블로 만들기 발표되는 자료가 pdf인 경우 pdf를 인식해서 테이블화 해야 합니다 2 자료 누적하기 엑셀이 제일 좋죠 엑셀 한 개의 시트에 차곡차곡 넣는 방법도 있을 수 있고 시트별로 넣을 수도 있을 겁니다 이번 예제는 시트별로 넣는 경우입니다 3 통계분석하기 엑셀에서도 소팅해서 최대값,최소값 등을 구할 수 있지만 엑셀의 모양이 변하면서 좀 복잡해질 가능성이 높습니다 하지만 LLM에 질문만 하면 대답을 척척해줍니다 그래프도 그려줍니다 pdf의 테이블을 인식하는 작업은 gemini, claude, chatGPT 세가지 LLM을 사용해서 성능을 비교해봤습니다 테이블화된 데이터를 엑셀어 넣고 엑셀파일을 GPTs 의 Knowledge에 올리고 적절한 instruction(지침)을 주었습니다 제가 적용한 지침은 아래와 같습니다 업로드한 pe_stat xlsx파일을 참조해 각 시트의 이름은 회차임 사용자가 원하는 질문에 답변해 테이블의 첫 행은 테이블 데이터의 합이므로 질문에 따라서 무시할 필요가 있으면 무시해 회차마다 종목이 다르므로 주의해 data frame을 만들 때 종목이름에 포함된 ( )와 그 안의 숫자는 무시해 사용자가 질문하면 해당 회차에 해당 종목이 있는지 먼저 검토한 후 진행해 사용자가 그래프를 그려달라고 요구하면 knowledge에 올린 koreanize_matplotlib-0 1 1-py3-none-any whl 를 설치한 후 그래프를 그려줘 칼럼 이름은 '순번','종목','대상','응시','합격'이야 답변은 한글로해 이렇게 만들어진 기술사2차합격자현황 GPTs의 URL은 다음과 같습니다 #gemini #claude #chatGPT #AI #기술사 #GPTs #토목구조기술사 #PDF #토목시공기술사