본문 바로가기

전체 글22

[연구 트렌드] 구글 스칼라의 한계를 넘다: 대학원생을 위한 최강의 AI 논문 검색 엔진 Best 3 (Elicit, Consensus, Perplexity) [연구 트렌드] 구글 스칼라의 한계를 넘다: 대학원생을 위한 최강의 AI 논문 검색 엔진 Best 3 (Elicit, Consensus, Perplexity)지난 20편의 시리즈를 통해 우리는 파이썬(Python)과 코딩을 활용하여 연구실 내부의 데이터 분석과 문서 작업을 자동화하는 완벽한 파이프라인을 구축했습니다. 하지만 연구의 시작점인 '문헌 조사(Literature Review)' 단계에서 여전히 구글 스칼라(Google Scholar)의 검색창에 키워드 몇 개를 던져놓고 수백 장의 PDF를 일일이 열어보고 계시지는 않나요? 전통적인 키워드 매칭 방식의 검색 엔진은 내가 원하는 정확한 실험 조건이나 방법론을 찾아내는 데 너무 많은 물리적 시간을 요구합니다. 최근 챗GPT(ChatGPT)의 등장 이후.. 2026. 5. 3.
[업무 자동화 끝판왕] 파이썬(python-pptx)으로 수십 장의 랩미팅(Lab Meeting) PPT 슬라이드 1초 만에 자동 생성하기 [업무 자동화 끝판왕] 파이썬(python-pptx)으로 수십 장의 랩미팅(Lab Meeting) PPT 슬라이드 1초 만에 자동 생성하기우리는 지난 시리즈들을 통해 파이썬(Python)으로 데이터를 파싱하고, Pandas로 피벗테이블을 만들며, Matplotlib으로 수십 개의 고해상도 그래프를 그리는 완벽한 데이터 분석 파이프라인을 구축했습니다. 하지만 금요일 오후, 랩미팅(Lab Meeting)이나 부서 주간 회의를 앞두고 있다면 어떨까요? 파이썬이 바탕화면 폴더에 예쁘게 그려놓은 50개의 그래프 이미지(.png)들을 하나하나 마우스로 끌어다가 파워포인트(PPT) 슬라이드에 얹고, 크기를 줄이고, 가운데 정렬을 맞추고, 파일명을 제목으로 타이핑하는 끔찍한 수작업이 여러분을 기다리고 있습니다. 그래프.. 2026. 4. 30.
[연구 꿀팁] 대학원생과 연구자의 퇴근 시간을 앞당겨주는 무료 크롬(Chrome) 확장 프로그램 Best 3 [연구 꿀팁] 대학원생과 연구자의 퇴근 시간을 앞당겨주는 무료 크롬(Chrome) 확장 프로그램 Best 3지난 18편의 연재를 통해 우리는 파이썬(Python)을 이용한 논문 수집부터 데이터 분석, 엑셀 병합 및 피벗테이블 요약까지 연구실의 굵직한 업무들을 자동화하는 파이프라인을 완성했습니다. 파이썬이 연구의 '엔진'을 업그레이드해 주었다면, 이번 포스팅에서는 여러분이 매일 사용하는 웹 브라우저(Web Browser) 환경을 최적화하여 삶의 질을 수직 상승시켜 줄 가벼운 도구들을 소개하려고 합니다. 전 세계 수많은 연구자와 대학원생들이 이 순간에도 '논문 검색, 번역, 영작'이라는 세 가지 굴레 속에서 고통받고 있습니다. 오늘 소개할 구글 크롬(Chrome) 확장 프로그램 3가지는 단 한 번의 클릭만으.. 2026. 4. 29.
[데이터 요약] 파이썬 Pandas 실전: 합쳐진 엑셀 마스터 데이터를 한눈에 요약하는 Groupby 및 피벗테이블(Pivot Table) 완벽 가이드 지난 포스팅에서는 흩어져 있던 수십 개의 CSV(엑셀) 파일들을 파이썬의 glob과 concat을 이용하여 단 1초 만에 'Master_Dataset.csv'라는 거대한 하나의 파일로 병합하는 자동화 스크립트를 구축했습니다. 하지만 수천, 수만 줄에 달하는 로우 데이터(Raw data) 자체는 우리에게 어떤 정보도 주지 못합니다. 이 방대한 숫자의 바다에서 "어떤 합성 조건이 가장 밴드갭이 좁은가?", "어떤 소재가 가장 높은 수율을 보이는가?"와 같은 핵심 인사이트를 도출하려면 데이터를 의미 있는 기준에 따라 묶고 요약해야 합니다. 엑셀(Excel)에서 마우스를 드래그하여 피벗테이블을 만드는 대신, 파이썬의 강력한 Pandas 라이브러리를 사용하면 이 모든 요약 과정을 단 몇 줄의 코드로 영구적인 자동.. 2026. 4. 28.
[데이터 병합] 파이썬 Pandas 실전: 폴더 내 수십 개의 엑셀(CSV) 파일 1초 만에 하나로 합치기 (Concat) 이전 포스팅에서는 파이썬(Python)의 Pandas 라이브러리를 활용하여 지저분한 엑셀 데이터의 빈칸(결측치)을 채우고 중복을 제거하는 전처리 기초를 알아보았습니다. 하지만 연구나 업무 현장에서는 데이터가 하나의 파일에 예쁘게 모여있는 경우가 거의 없습니다. 앞서 우리가 구축했던 'ArXiv 논문 자동 수집 봇'을 매일 아침 실행했다면, 일주일 뒤 우리 폴더에는 7개의 CSV 파일이, 한 달 뒤에는 30개의 CSV 파일이 흩어져 있게 됩니다. 이 30개의 파일을 열어서 복사하고 하나의 마스터(Master) 파일에 붙여넣는 작업은 생각만 해도 끔찍합니다. 마우스 스크롤을 잘못 내려 데이터가 한 칸 밀리기라도 하면 전체 통계가 망가지는 대참사가 벌어지죠. 이번 글에서는 파이썬의 'glob' 모듈과 Pand.. 2026. 4. 27.
[데이터 전처리] 파이썬 Pandas 기초: 논문 및 실험 데이터의 결측치(빈칸) 처리 및 중복 제거 완벽 가이드 이전 시리즈들을 통해 우리는 파이썬(Python)을 활용하여 ArXiv 논문을 자동으로 수집하고, 수십 편의 PDF에서 핵심 문장과 수치를 엑셀(CSV) 파일로 추출하는 강력한 파이프라인을 구축했습니다. 하지만 이렇게 현실 세계(Real-world)에서 막 수집된 원시 데이터(Raw data)를 열어보면 한 가지 심각한 문제에 직면하게 됩니다. 바로 어떤 행에는 수치가 비어있고(결측치), 어떤 논문은 두 번씩 크롤링되어 똑같은 내용이 반복(중복)되어 있다는 것입니다. 컴퓨터 과학에는 "Garbage In, Garbage Out (쓰레기를 넣으면 쓰레기가 나온다)"이라는 유명한 격언이 있습니다. 아무리 뛰어난 머신러닝 모델이나 통계 기법(SciPy)을 사용하더라도 데이터가 더럽다면 그 결과는 신뢰할 수 없.. 2026. 4. 26.