전체 글18 [데이터 병합] 파이썬 Pandas 실전: 폴더 내 수십 개의 엑셀(CSV) 파일 1초 만에 하나로 합치기 (Concat) 이전 포스팅에서는 파이썬(Python)의 Pandas 라이브러리를 활용하여 지저분한 엑셀 데이터의 빈칸(결측치)을 채우고 중복을 제거하는 전처리 기초를 알아보았습니다. 하지만 연구나 업무 현장에서는 데이터가 하나의 파일에 예쁘게 모여있는 경우가 거의 없습니다. 앞서 우리가 구축했던 'ArXiv 논문 자동 수집 봇'을 매일 아침 실행했다면, 일주일 뒤 우리 폴더에는 7개의 CSV 파일이, 한 달 뒤에는 30개의 CSV 파일이 흩어져 있게 됩니다. 이 30개의 파일을 열어서 복사하고 하나의 마스터(Master) 파일에 붙여넣는 작업은 생각만 해도 끔찍합니다. 마우스 스크롤을 잘못 내려 데이터가 한 칸 밀리기라도 하면 전체 통계가 망가지는 대참사가 벌어지죠. 이번 글에서는 파이썬의 'glob' 모듈과 Pand.. 2026. 4. 27. [데이터 전처리] 파이썬 Pandas 기초: 논문 및 실험 데이터의 결측치(빈칸) 처리 및 중복 제거 완벽 가이드 이전 시리즈들을 통해 우리는 파이썬(Python)을 활용하여 ArXiv 논문을 자동으로 수집하고, 수십 편의 PDF에서 핵심 문장과 수치를 엑셀(CSV) 파일로 추출하는 강력한 파이프라인을 구축했습니다. 하지만 이렇게 현실 세계(Real-world)에서 막 수집된 원시 데이터(Raw data)를 열어보면 한 가지 심각한 문제에 직면하게 됩니다. 바로 어떤 행에는 수치가 비어있고(결측치), 어떤 논문은 두 번씩 크롤링되어 똑같은 내용이 반복(중복)되어 있다는 것입니다. 컴퓨터 과학에는 "Garbage In, Garbage Out (쓰레기를 넣으면 쓰레기가 나온다)"이라는 유명한 격언이 있습니다. 아무리 뛰어난 머신러닝 모델이나 통계 기법(SciPy)을 사용하더라도 데이터가 더럽다면 그 결과는 신뢰할 수 없.. 2026. 4. 26. [연구 코딩 팁] 파이썬 에러 났을 때 당황하지 않고 해결하는 완벽한 구글링(Googling) 검색 팁 3가지 지난 시리즈들을 통해 아나콘다(Anaconda) 가상환경을 세팅하고 복잡한 시뮬레이션 데이터 자동화 스크립트들을 내 컴퓨터에 무사히 이식하셨나요? 하지만 터미널에서 스크립트를 실행(Run)하는 순간, 여러분을 반기는 것은 아마도 화면을 가득 채우는 새빨간 에러(Error) 메시지일 확률이 높습니다. 코딩에 익숙하지 않은 비전공자 연구자들은 이 거대한 영어 경고문 앞에서 크게 당황하며 "내 컴퓨터가 망가진 건 아닐까?", "코드를 처음부터 다시 짜야 하나?"라는 두려움에 빠지곤 합니다. 하지만 장담하건대, 10년 차 시니어 개발자들도 하루의 절반 이상을 에러 메시지와 싸우며 보냅니다. 초보자와 전문가의 유일한 차이는 '문제를 검색해서 해결하는 능력', 즉 구글링(Googling) 스킬에 있습니다. 이번 포.. 2026. 4. 25. [연구 필수 세팅] 비전공자를 위한 파이썬(Python) 아나콘다(Anaconda) 연구용 가상환경 완벽 구축 가이드 지난 14편의 연재를 통해 우리는 다중 물리 시뮬레이션(COMSOL, VASP 등)의 데이터 파싱부터, pdfplumber를 이용한 논문 텍스트 추출, 그리고 OpenAI API를 활용한 인공지능 논문 요약 봇까지 연구실의 생산성을 극대화하는 다양한 파이썬(Python) 스크립트들을 구축해 보았습니다. 하지만 코딩에 익숙하지 않은 화학공학, 신소재공학 등 비전공 연구자들이 이 훌륭한 코드들을 자신의 랩탑에 복사하여 실행하려 할 때 가장 먼저 마주하는 것은 새빨간 에러(Error) 메시지들입니다. "ModuleNotFoundError", "버전이 호환되지 않습니다"와 같은 경고문구들은 연구자의 의욕을 꺾어버립니다. 이러한 에러의 99%는 파이썬의 '가상환경(Virtual Environment)' 개념을 이.. 2026. 4. 24. [연구 AI 도입] 파이썬(Python)과 OpenAI API(ChatGPT)를 활용한 논문 자동 번역 및 핵심 3줄 요약 봇 구축 지난 포스팅에서는 pdfplumber 라이브러리를 활용하여 수십 편의 논문 PDF 파일에서 내가 원하는 '밴드갭'이나 '합성 온도' 등의 핵심 키워드가 포함된 영어 문장들을 단숨에 엑셀로 추출하는 워크플로우를 완성했습니다. 하지만 엑셀에 수백 개의 길고 복잡한 영어 문장이 쌓여 있다면, 결국 이를 읽고 해석하는 것은 연구자의 몫으로 남게 됩니다. 만약 누군가가 이 어려운 전공 영어 문장들을 완벽한 한국어로 번역해 주고, 그중에서도 가장 중요한 핵심 의미만 '3줄'로 깔끔하게 요약해서 엑셀 옆 칸에 적어준다면 어떨까요? 이번 포스팅에서는 최신 인공지능 기술인 OpenAI의 ChatGPT API를 파이썬(Python) 스크립트에 연동하여, 언어의 장벽을 허물고 문헌 조사(Literature Review)의 .. 2026. 4. 23. [문헌 분석 자동화] 파이썬(Python)과 pdfplumber를 활용한 수십 편의 논문 PDF에서 핵심 수치 및 표(Table) 데이터 자동 추출 지난 포스팅에서는 ArXiv API를 활용하여 전 세계의 최신 논문 리스트를 매일 아침 내 컴퓨터로 자동 배달하는 스크립트를 구축했습니다. 하지만 진정한 문헌 조사(Literature Review)의 고통은 논문을 다운로드한 직후부터 시작됩니다. 수십 편의 논문 PDF를 일일이 열어 스크롤을 내리며, 내가 연구 중인 신소재의 '합성 온도(Synthesis temperature)'나 '최고 수율(Maximum yield)'과 같은 특정 단어가 언급된 부분을 형광펜으로 칠하고 엑셀에 옮겨 적는 과정은 인간의 눈을 극도로 피로하게 만듭니다. 이번 글에서는 파이썬(Python)의 강력한 PDF 파싱 라이브러리인 'pdfplumber'를 활용하여, 폴더 안에 쌓인 수백 편의 논문 PDF에서 내가 지정한 키워드가 .. 2026. 4. 23. 이전 1 2 3 다음