일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 | 31 |
- 아티클스터디
- 이중for문
- Til
- 선형회귀
- Max
- Leetcode
- Set
- 한줄for문
- 통계학
- 내일배움일지
- 리스트
- 내일배움캠프
- SQLD
- 내배캠_학습기록
- DATE_SUB
- AB테스트
- 가설검정
- python
- map
- f-string
- 태블로
- SQL
- ★
- Join
- 반복문
- 시각화
- 프로그래머스
- 데이터시각화
- 데이터전처리
- 다중공선성
- Today
- Total
목록분류 전체보기 (227)
노력에는 지름길이 없으니까요
머신러닝의 정의☑️ 머신러닝 관련 용어 정리 AI: 인간의 지능을 요구하는 업무를 수행하기 위한 시스템 -> 휴먼 에러를 줄일 수 있음Machine Learning: 관측된 패턴을 기반으로 의사 결정을 하기 위한 알고리즘Deep Learning: 인공신경망을 이용한 머신러닝 (머신러닝의 하위집합)Data science: AI를 포괄하여 통계학과 컴퓨터공학을 바탕으로 발전한 융합학문 / 과학의 일부 (근거와 데이터를 가지고 의사결정을 한다.)Data Analysis: 데이터 집계, 통계 분석, 머신러닝을 포함한 행위 머신러닝(Machine Learning, ML)은 기술 통계 등을 통하여 집계된 정보로 의사결정을 했던 과거와 달리 데이터 수집과 처리 기술의 발전으로 대용량 데이터의 패턴을 인식하고 이를 바..
앞으로 내가 쓸 시각화 템플릿 정리해두기. # 연속형 변수들의 히스토그램df[continuous_vars].hist(bins=30, figsize=(20, 15))plt.tight_layout()plt.show()# 연속형 변수들 간의 상관행렬corr_matrix = df[continuous_vars].corr()# 상관행렬 히트맵 시각화# 대각선을 기준으로 대칭인 행렬이므로, 대각선을 기준으로 한 쪽만 표시plt.figure(figsize=(15, 10))sns.heatmap(corr_matrix, annot=True, cmap='crest', fmt='.2f', linewidth=.5, square..
오늘 목표코드카타 2개 이상 (SQL) -> LeetCode 업로드 확인, 블로그 정리까지 마치기아티클 스터디아티클 스터디 준비통계학 정리글 한번 훑으면서 복습SQLD 문제풀이 (PDF 확인) -> 어려운 개념은 따로 정리해두기 캐글 AB 테스트? 팀원분이 살펴보신다고 해서 궁금해서 나도 찾아보고 싶다...https://www.kaggle.com/code/ekrembayar/a-b-testing-step-by-step-hypothesis-testing A/B Testing: Step by Step & Hypothesis TestingExplore and run machine learning code with Kaggle Notebooks | Using data from Mobile Games: A/B T..
SQLD 공부 중 COALESCE 라는 다소 낯선 함수를 발견해서, 사용법을 정리해둔다.COALESCE는 인수를 순서대로 평가하고 처음으로 NULL이 아닌 첫 번째 식의 현재 값을 반환한다. 아래가 문제에 나온 예시다. [데이터]COL1 COL2--------------100 100NULL 60NULL NULL [SQL] SELECTCOALESCE(COL1, COL2 *50 , 50)FROM TAB1; 첫번째 행 > 첫번째 값인 col1이 null이 아니므로 그대로, 100첫번째 행 > 첫번째 값은 null이니 스킵, 두번째 값인 60에 50을 곱하여, 3000세번째 행 > col1, col2 둘다 null이기 때문에 스킵, 마지막의 값 50 (100, 3000, 50) 참고링크https://lear..
https://towardsdatascience.com/dont-start-your-sql-queries-with-select-clause-d30fa1b701f6 Don’t Start Your SQL Queries with the ‘Select’ StatementFollow this right approach to write your SQL queriestowardsdatascience.com 팀원분이 추천해주신 아티클로 스터디 진행하기로 했다. 생각해보면 SQL 문제풀이를 할 때 항상 요구되는 컬럼명을 SELECT에 기재하고 시작하는 버릇이 있는데,아티클을 읽으며 깨닫는 점이 있기를 바란다. '이상적인' 쿼리 작성 순서는 SQL이 쿼리를 실행하는 방법과 일치해야 한다. 1. 항상 FROM/JOIN으로..
해결일언어레벨 테스트명 20240807SQLeasy 586. Customer Placing the Largest Number of Orders 링크 : https://leetcode.com/problems/customer-placing-the-largest-number-of-orders/submissions/1347212760/ 돌릴 때마다 순쉬는 다르게 나와서 큰 의미는 없다고 하니...Accepted에 의의를 두는 걸로 내 코드SELECT customer_number FROM Orders GROUP BY customer_number order by count(customer_number) desclimit 1 새삼스럽게 느끼지만... 원하는대로 쓸 수 있는 능력이 있다면 SQL은 원하는 결과를 도..
검증하기 위한 데이터는 반드시 따로 분리 해놓아야 함! (처음부터)학습용 데이터 / 평가용 데이터 -> 과적합 방! ☑️ 데이터 탐색과 검증 분리데이터 탐색을 통해 가설을 설정하고, 이를 검증하기 위해 별도의 독립된 데이터셋을 사용하는 것이는 데이터 과적합을 방지하고 결과의 신뢰성을 높임탐색 데이터와 검증 데이터를 히스토그램으로 나타냄데이터 탐색과 검증을 분리하면 탐색 과정에서 발견된 패턴이 검증 데이터에서도 유효한지 확인 가능검증 데이터는 철저하게 탐색 데이터와 구분되어져야 함 검증하기 위한 데이터가 따로 필요할 때데이터셋을 탐색용(training)과 검증용(test)으로 분리하여 사용from sklearn.model_selection import train_test_split# 데이터 생성np.ran..
원하는 결과가 나올 때 까지 자료를 수집하는 것을 조심! 자료수집 중단 시점 결정데이터 수집을 시작하기 전에 언제 수집을 중단할지 명확하게 결정하지 않으면, 원하는 결과가 나올 때까지 데이터를 계속 수집할 수 있음. 이는 결과의 신뢰성을 떨어뜨림.샘플 크기에 따른 평균값과 95% 신뢰구간을 나타낸 그래프데이터 수집을 언제 멈출지 결정하는 것은 결과에 영향을 미칠 수 있음이상적으로는 사전에 정해진 계획에 따라야 함 결과를 이미 정해놓고 그에 맞추기 위해 자료수집을 하고자 할 때50명의 데이터를 수집하기로 했으나, 원하는 결과가 나오지 않자 100명까지 추가로 수집-> 어떤 이유로 데이터 수집을 하고자 하는지 확실하게 하고 다음 단계로 넘어가기!
☑️ 선택적 보고유의미한 결과만을 보고하고, 유의미하지 않은 결과는 보고하지 않는 행위이는 데이터 분석의 결과를 왜곡하고, 신뢰성을 저하시킴☑️ 그림으로 확인하기!모든 결과와 선택적으로 보고된 결과를 히스토그램으로 나타냄 (일부만 채택해서 보고하는 것)전체 결과와 보고된 결과의 분포가 다르면 선택적 보고의 가능성을 시사2) 선택적 보고는 언제 조심해야하는가?☑️ 유의미한 결과만 공개 할 때다수의 데이터 분석 중 유의미한 결과가 나온 실험만을 보고서에 작성하여 발표☑️ 결과를 보면서 가설을 다시 새로 설정했는데 마치 처음부터 설정한 가설이라고 얘기할 때미리 가설과 실험 방법등에 대해서 설정을 한다음 연구를 수행하거나 연구하는 동안 얻어진 모든 변수와 결과에 대해서 공개하지 못할 때
인위적으로 p-값을 낮추지 않을 수 있도록 조심해야 한다.의도적으로... 수단과 방법을 가리지 않고 p값을 낮추기 위해 실험을 하는 것... ☑️ p-해킹데이터 분석을 반복하여 p-값을 인위적으로 낮추는 행위유의미한 결과를 얻기 위해 다양한 변수를 시도하거나, 데이터를 계속해서 분석하는 등의 방법을 포함☑️ 문제점p-해킹은 데이터 분석 결과의 신뢰성을 저하시킴 ☑️ 여러 가설 검정을 시도 할 때여러 가설 검정을 시도하여 유의미한 p-값을 얻을 때까지 반복 분석하는 것을 조심p-해킹은 유의미한 결과를 얻기 위해 p-값이 0.05 이하인 결과만 선택적으로 보고하는 행위를 조심데이터의 수를 늘리다보니 특정 데이터 수를 기록할때 잠깐 p값이 0.05 이하를 기록함으로 이를 바탕으로 대립가설 채택하는 것을 조심즉..