일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 | 31 |
- Leetcode
- map
- f-string
- Join
- ★
- SQL
- AB테스트
- 시각화
- 내배캠_학습기록
- 리스트
- 태블로
- 다중공선성
- python
- 데이터시각화
- 반복문
- 아티클스터디
- 가설검정
- Max
- 통계학
- SQLD
- 내일배움일지
- 선형회귀
- 이중for문
- 데이터전처리
- 한줄for문
- Set
- DATE_SUB
- 내일배움캠프
- Til
- 프로그래머스
- Today
- Total
목록분류 전체보기 (227)
노력에는 지름길이 없으니까요
오늘 목표머신러닝 개인과제 완료-> 5번 수치형 하나만 남았다...강의 내용 내일은 과제 제출하고 총복습 반드시 해야겠다... 이제 바로 단체 프로젝트인데 힘내야지 LabelEncoder, OneHotEncoder의 차이https://young-1-2.tistory.com/203
인코딩범주형 데이터를 숫자형으로 변환하는 과정에서 필요한 과정 1. 레이블 인코딩문자열(범주형) 값을 내림차순 정렬 후 0부터 1씩 증가하는 값으로 변환함.- 숫자의 차이가 모델에 영향을 주지 않는 트리 계열 모델에 적용함. (의사결정나무, 랜덤포레스트)- 숫자의 차이가 모델에 영향을 미치는 선형 계열 모델에는 적용하지 않는 것이 좋음. (로지스틱 회귀, SVM, 신경망 → 원핫인코딩 적용) sklearn.preprocessing.LabelEncoder 활용 방법> fit() : 어떻게 변환할 것인지에 대해 학습> transform() : 문자열을 숫자로 변환> fit_transform() : 학습과 변환을 한 번에 처리> inverse_transform() : 숫자를 다시 문자열로 변환> c..
해결일언어레벨테스트명20240816SQLmedium 626. Exchange Seats 링크 : https://leetcode.com/problems/exchange-seats/description/ 내 코드-- 1) 전체 레코드 수가 홀수일 때 마지막 데이터는 바꾸지 않아도 됨-- -> id가 레코드 개수와 같을 때 -- 2) id가 홀수일 때 +1, id가 짝수일 때 -1 에 있는 데이터 출력-- SELECT-- CASE-- WHEN MOD(id,2)=0 THEN id-1-- WHEN ((MOD(id,2)=1) AND (id+1 != MAX(id))) THEN id+1-- ELSE id END id-- ,student-- FROM Seat-- ORDER ..
4) AB 테스트 표본 크기와 유의미한 결과의 관계유의미하지 않은 결과가 표본 사이즈와 관련이 있는가? 표본이 많으면 많을수록 그룹 A와 B의 결과 차이가 적더라도 유의미하다고 인정한다.이는 신뢰도의 문제 (이왕이면 최대한 더 많은 사람에게 물었을 때 오는 신뢰) 표본 크기와 AB 테스트 결과의 차이에서 우리가 착각하는 것우리의 직관 : 100000명끼리 비교해서 차이가 고작 0.2%p 수준이다.통계 : 0.2%p 차이밖에 없더라도 표본이 100000명이나 되니 이 정도면 충분하다 + 우연이라고 볼 수 없다. 우리는 단순히 비율을 비교하는 게 아니다.비율의 차이가 믿을 수 있는 결과인지, 우연이 아니란 걸 증명할 수 있는지 알고 싶은 것.표본이 커서 모집단의 크기에 가까워질수록 추축은 더욱 정확해지고, ..
오늘 목표복습 및 글 정리 (제발 끝내기)SQL, Python 코드카타 1개씩오늘은 외출이 있어서 많이 할 수는 없을 것 같지만... 오늘부터 개인 프로젝트였던 것 같은데...생각보다 양이 많아서 전부 다 할 수 있을지 모르겠다해내야겠지!!! 화이팅! 강의 내용코드카타EASY, SQL https://young-1-2.tistory.com/199 SQL 시간관련 함수https://young-1-2.tistory.com/198
해결일언어레벨테스트명20240814SQLeasy1141. User Activity for the Past 30 Days I 링크 : https://leetcode.com/problems/user-activity-for-the-past-30-days-i/ 내 코드# Write your MySQL query statement belowSELECT activity_date day ,COUNT(DISTINCT user_id) active_users FROM Activity WHERE activity_date BETWEEN DATE_SUB('2019-07-27', INTERVAL 30 DAY)+1 AND '2019-07-27'GROUP BY activity_date DATE_SUB..
DATE_ADD() : 날짜 더하기DATE_ADD(기준날짜, INTERVAL)DATE_SUB() : 날짜 빼기DATE_SUB(기준날짜, INTERVAL)DATEDIFF() : 두 기간 사이의 일수 계산DATEDIFF(expr1, expr2)expr1 - expr2 ( expr1 : 종료일, expr2 : 시작일 ) 날짜 포맷에 시간이 포함되어 있는 경우, 시간은 계산에 포함하지 않는다. 날짜 범위에서 벗어나는 값을 입력하는 경우 NULL을 반환한다.TIMEDIFF() : 두 기간 사이의 시간 계산TIMEDIFF(expr1,expr2)expr1 - expr2 ( expr1 : 종료 시간, expr2 : 시작 시간 ) 시간 또는 날짜 범위에서 벗어난 값을 입력하는 경우 NULL을 반환한다.PERIOD_DIF..
오늘 목표- [ ] 머신러닝의 이해와 라이브러리 활용 심화 1주차 완강 - [ ] 총복습 (무조건 끝내기) - [ ] 아티클 스터디 준비 - [ ] 아티클 스터디 - [ ] 코드카타 1개 이상 화이팅 집중하자아티클스터디https://young-1-2.tistory.com/196 til 정리를 많이 못 했다...우선 게시하고 천천히 수정해야겠다. 머신러닝 심화 부분에서 코드를 직접 치면서 진행을 하니 시간이 많이 걸리는데, 그만큼 재밌고 기억에 남는 게 있는 것 같아서 이 방법이 더 나한테 맞구나 싶었다.
2. AB테스트를 위한 기초 통계 이해하기기초통계 개념- 결과를 해석하는 데에 필요하다.1. 모집단과 표본우리는 결코 '전체'를 알 순 없다. 이번 실험의 대상은 어디까지나 '일부'다. 2. 일부를 통해서 전체에 대해 추론할 수 있다.아무리 일부일지라도 이 숫자가 충분하면, 일부를 통해 전체에 대해서 추측, 추론, 추정 가능하다. 3. 귀무가설과 대립 가설, 양측 검정과 단측 검정단측 검정 (one-sided) - A가 B보다 무조건 높거나 낮을 것이다.양측 검정 (two-sided) - 뭐가 더 높을지 낮을지는 모르나 차이는 있을 것이다. 4. 실험 결과도 결국 '추측'이다.점 추정 : 정확히 한 점을 콕 짚어 추측하는 것구간 추정 : 특정 범위/구간을 기준으로 추측하는 것 5. 그래서 정말 우연이 ..
오늘 목표코드카타 2개 이상기초 완강기초 복습심화 1-3까지 쿼리 실행 순서를 알고 난 다음에 코드카타를 하니까물론 커다란 변화가 없더라도 생각하는 방식이 조금 변한 것 같다.역시 뭐든 배우는 게 좋다는 생각을 하는 중... 강의 내용코드카타Medium, SQL https://young-1-2.tistory.com/192Easy, SQL https://young-1-2.tistory.com/193 머신러닝로지스틱 회귀 https://young-1-2.tistory.com/194