Hồi Quy Logistic Là Gì

     

Trong Blog trước của tôi, tôi đã cố gắng giải mê thích về Hồi quy con đường tính và cách nó hoạt động. Hãy xem vì sao Hồi quy logistic là trong những chủ đề đặc biệt cần hiểu. Đây là liên kết đến bài viết trước của tôi về Hồi quy đường tính vào trường vừa lòng bạn bỏ qua nó.

Bạn đang xem: Hồi quy logistic là gì

Bạn đang xem: Hồi quy logistic là gì

nội dung Hồi quy logistic là gì? các loại hồi quy logistic. Các giả định của hồi quy logistic. Lý do không hồi quy đường tính đến phân loại? mô hình Logistic. Lý giải về thông số hiệu quả. Tỷ lệ cược cùng đăng nhập oắt con giới quyết định. Hàm ngân sách chi tiêu của hồi quy logistic. Gradient Descent trong Logistic Regression. Đánh giá mô hình hồi quy logistic.
*

Ảnh của Dose media trên Unsplash Hồi quy logistic là gì? Hồi quy logistic là một trong những kỹ thuật thống kê lại được đo lường để tìm tỷ lệ của biến nhờ vào (Các lớp tất cả trong biến). Hồi quy logistic sử dụng những hàm được điện thoại tư vấn là hàm logit , góp suy ra mối quan hệ giữa biến nhờ vào và các biến độc lập bằng cách dự đoán tỷ lệ hoặc cơ hội xảy ra. Những hàm logistic (còn được hotline là hàm sigmoid ) biến hóa xác suất thành những giá trị nhị phân rất có thể được sử dụng thêm cho các dự đoán. Hồi quy logistic nhị phân: Biến phụ thuộc vào chỉ tất cả hai 2 công dụng / lớp rất có thể có. Ví dụ-Nam hoặc Nữ. Hồi quy Logistic nhiều thức: Biến nhờ vào chỉ bao gồm hai hoặc 3 hiệu quả / lớp có thể có trở lên mà lại không cần thu xếp thứ tự. Ví dụ: Dự đoán quality thực phẩm. (Tốt, tuyệt đối và Xấu). Hồi quy logistic thông thường: Biến phụ thuộc chỉ gồm hai hoặc nhiều hơn 3 hiệu quả / lớp rất có thể có với trang bị tự. Ví dụ: xếp hạng sao từ là 1 đến 5 những giả định của hồi quy logistic:

Ngay cả khi Hồi quy logistic nằm trong về mô hình tuyến tính, nó không chuyển ra ngẫu nhiên giả định nào của quy mô hồi quy tuyến tính, như: → Nó không yêu cầu mối quan hệ tuyến tính giữa những biến phụ thuộc vào và độc lập. → Các pháp luật lỗi không cần thiết phải được cung cấp bình thường. → Không cần phải có độ co giãn đồng nhất.

Tuy nhiên, nó có một số giả định của riêng rẽ nó:

Nó mang định rằng tất cả tối thiểu hoặc không có đa cộng đường giữa các biến độc lập. Cách rất tốt để đánh giá tính đúng theo lệ của đa cộng tuyến đường là triển khai VIF (Hệ số lạm phát phương sai). Nó trả định rằng các biến tự do liên quan tuyến đường tính mang lại nhật ký tỷ lệ cược. Nó có thể được kiểm tra bằng phép demo Box-Tidwell. Nó giả định một mẫu lớn để dự đoán tốt. Nó trả định rằng các quan gần kề là hòa bình với nhau. Không có giá trị ảnh hưởng (ngoại lệ) trong số yếu tố dự báo tiếp tục (biến độc lập). Điều này rất có thể được kiểm tra với sự trợ giúp của IQR, z-score hoặc có thể được trực quan tiền hóa bằng phương pháp sử dụng các ô trống hoặc vĩ cầm. Logistic Regression cùng với 2 lớp nhưng biến nhờ vào là nhị phân và Logistic Regression có thứ từ bỏ yêu cầu biến phụ thuộc có vật dụng tự.
*

Ảnh của Emily Morter trên Unsplash nguyên nhân không hồi quy tuyến đường tính mang đến phân loại?

Như chúng tôi đã trình làng Logistic Regression để giải quyết và xử lý các sự việc phân loại, rất có thể là phân các loại nhị phân hoặc vấn đề phân các loại nhiều lớp, nhưng trên sao bọn họ không thể thực hiện Linear Regression?

Hồi quy đường tính dự đoán những biến liên tục như giá nhà đất và đầu ra output của Hồi quy tuyến đường tính hoàn toàn có thể nằm trong vòng từ âm vô cùng mang lại dương vô cùng. Vì, cực hiếm dự đoán không hẳn là giá bán trị xác suất mà là giá chỉ trị thường xuyên cho các lớp, nên sẽ rất khó nhằm tìm ra ngưỡng phù hợp có thể giúp biệt lập giữa những lớp. Mang sử bạn gặp mặt may với ngưỡng và tìm ra ngưỡng phù hợp cho việc lớp nhị phân, tuy nhiên, nếu việc là các lớp thì nó sẽ không còn đưa ra dự đoán mong muốn. Vào một câu hỏi đa lớp rất có thể có n số lớp, bây giờ mỗi lớp sẽ được gắn nhãn trường đoản cú 0-n. Trả sử, chúng ta có 5 bài toán lớp 0,1,2,3 với 4 lớp này sẽ không mang hoặc ko có bất kỳ thứ trường đoản cú có ý nghĩa sâu sắc nào. Tuy nhiên, bọn chúng sẽ buộc phải thiết lập một số một số loại quan hệ giữa phần dựa vào và phần hòa bình đặc trưng. Rộng nữa, các biến nhờ vào sẽ được xem như là số thường xuyên và đường cân xứng nhất sẽ trải qua giá trị trung bình của những điểm, tạo ra giá trị liên tục rất có thể dưới 0 và rất có thể vượt vượt 4.

Tất cả các vấn đề được kể ở trên được xử lý bằng Logistic Regression. Cố vào đó, hồi quy Logistic để kiểm soát và điều chỉnh dòng cân xứng nhất, cô đọng cổng đầu ra của hàm tuyến tính thân 0 với 1.


*

Trong cách làm của quy mô logistic, lúc b0 + b1X == 0 , thì p. Sẽ là 0,5, tương tự, b0 + b1X> 0 , thì p sẽ nhắm đến 1 cùng b0 + b1X lý giải hệ số Việc giải thích các trọng số khác với Hồi quy con đường tính vì cổng output của Hồi quy logistic có phần trăm từ ​​0 đến 1. Cố gắng vì hệ số góc đồng hiệu quả (b) là tốc độ thay đổi của phường khi x vắt đổi, giờ đây hệ số đồng công dụng độ dốc được hiểu là tốc độ biến đổi của “tỷ lệ cược log” khi X nạm đổi.

*

Bây giờ, họ hãy hiểu phần trăm cược singin là gì.

xác suất cược và đăng nhập

Tỷ lệ cược được khái niệm là tỷ số của phần trăm cược khi tất cả B và phần trăm cược của A khi không tồn tại B với ngược lại. Nói biện pháp khác, Tỷ lệ cược là phần trăm giữa tỷ lệ thành công và phần trăm thất bại cùng Logit chỉ là Log of the Odds Ratio. Hãy hiểu vấn đề này với ví dụ:

Giả sử xác suất thành công là 0,6. Do vậy, xác suất thất bại vẫn là (1–0,6) = 0,4 tỷ lệ cược được khẳng định từ xác suất và nằm trong tầm từ 0 mang đến . Vì vậy, phần trăm cược bây giờ (Thành công) = p / (1-p) hoặc phường / q = 0,6 / 0,4 = 1,5 ngoại trừ ra, phần trăm cược (Thất bại) = 0,4 / 0,6 = 0,66667

Bây giờ các bạn đã hiểu cơ phiên bản về tỷ lệ chênh lệch, tôi khuyên bạn nên truy vấn liên kết này để hiểu bí quyết nó được thực hiện trong Hồi quy logistic và các phép toán đằng sau nó .

Công thức của xác suất cược là:


*

Nếu bọn họ muốn xác suất chênh lệch giữa các lớp nhị phân thì:

Hàm Logit chỉ là nhật ký kết của tỷ lệ cược và cách làm là:

Trong hồi quy Logistic, chúng ta cũng có thể tính toán phần trăm chênh lệch giữa những lớp:

Bây giờ, các bạn đã hiểu tỷ lệ chênh lệch là gì, hãy coi ranh giới quyết định là gì:

ranh ma giới ra quyết định Ranh giới quyết định là một đường hoặc lề phân tách các lớp. Thuật toán phân nhiều loại là toàn bộ về việc tìm và đào bới ra tinh quái giới quyết định giúp phân biệt giữa các lớp tuyệt đối hoặc ngay gần hoàn hảo. Hồi quy logistic đưa ra quyết định sự cân xứng thích phù hợp với ranh giới ra quyết định để chúng ta cũng có thể dự đoán lớp tài liệu mới sẽ tương ứng với.

Bây giờ bạn đã hiểu ranh giới ra quyết định là gì với nó được kiếm tìm thấy như vậy nào. Hãy cùng khám phá về hàm giá thành của Hồi quy logistic.

Hàm giá thành của hồi quy logistic

Hàm Cost là 1 trong những hàm đo lường năng suất của mô hình Học máy so với dữ liệu nhất định. Hàm Cost về cơ bạn dạng là phép tính không nên số giữa giá chỉ trị dự đoán và cực hiếm kỳ vọng cùng trình bày nó dưới dạng một số trong những thực duy nhất . Nhiều người bị nhầm lẫn giữa Hàm CostHàm Loss , Nói một cách dễ dàng và đơn giản Hàm Cost là giá trị trung bình của không đúng số của n mẫu mã trong tài liệu và Hàm Loss là lỗi so với từng điểm dữ liệu. Nói giải pháp khác, Hàm Loss là so với một lấy ví dụ như đào tạo, Hàm đưa ra phí là cho cục bộ tập hòa hợp đào tạo.

Vì vậy, khi ví dụ hàm ngân sách là gì, Hãy tiếp tục.

Chúng tôi biết rằng tác dụng Logistic là:

Nhiệm vụ bao gồm của chúng ta là search tham số (x) tốt nhất có thể trong phương trình trên gồm trong ảnh để bớt thiểu không đúng số. Bây giờ, nếu như bạn đã xem các phép toán ẩn dưới ranh giới quyết định, các bạn sẽ biết rằng thông số (x) không bị giới hạn vào hàm logistic, nó cũng góp phần vào phương trình của nhóc giới quyết định.

Nó khôn xiết giống cùng với Hồi quy đường tính, xác minh một hàm chi phí để tìm lỗi và kế tiếp thực hiện bớt độ dốc để cập nhật tham số và bớt thiểu hàm chi phí.

Tuy nhiên, họ không thể thực hiện Hàm chi tiêu của quy mô hồi quy đường tính.

Tại sao họ không thể thực hiện hàm chi phí của hồi quy đường tính?

Cố gắng thực hiện một hàm chi phí của mô hình Hồi quy con đường tính bằng cách sử dụng Lỗi bình phương vừa phải sẽ cho một hàm ko lồi, hàm này sẽ cho một đồ thị có làm ra kỳ lạ trông như thế này.

Biểu đồ dùng này có tương đối nhiều điểm tối thiểu toàn cục khiến hàm giá thành rất khó có được mức buổi tối thiểu trái đất và giảm thiểu không nên số.

Điều này xảy ra bởi vì trong Hồi quy logistic họ có hàm sigmoid là phi đường tính.

Đây là nguyên nhân tại sao hàm Cost mang đến Logistic Regression là:

Nếu bạn phối kết hợp hai phương trình trên thành một, các bạn sẽ nhận được một hàm lồi cùng hàm giá cả này sẽ giúp mô hình Hồi quy Logistic hội tụ về buổi tối thiểu thế giới nhanh hơn.

Xem thêm: "Có Một Vấn Đề Tiếng Anh Là Gì ? Vấn Đề Thường Gặp Tiếng Anh Là Gì

Bây giờ chúng ta đã biết hàm chi phí của Hồi quy logistic, hãy đọc cách bọn họ giảm thiểu lỗi để sở hữu được tế bào hình vận động cao

Gradient Descent vào Logistic Regression

Gradient descent là một trong thuật toán về tối ưu hóa được sử dụng để tìm các giá trị của những tham số (hệ số) của một hàm làm về tối thiểu hóa một hàm giá cả (cost).

Để bài viết liên quan về nó và làm rõ hơn về Gradient Descent, tôi khuyên bạn nên đọc Blog của Jason Brownlee .

Bây giờ, bạn đã có trực giác về gradient Descent, chúng ta cũng có thể hiểu trên sao chúng ta cần cập nhật trọng số để đạt tới tối thiểu toàn cầu.

Các bước tiếp sau bởi Gradient Descent để sở hữu được hàm giá thành thấp hơn:

Chúng ta hãy lưu ý hàm logistic (sigmoid).

Ở đây, x = mx + b hoặc x = b0 + b1x

→ Ban đầu, quý giá của m cùng b sẽ bởi 0 và vận tốc học (α) sẽ tiến hành đưa vào hàm. Quý giá của tỷ lệ học tập (α) được lấy rất nhỏ, nằm trong khoảng 0,01 hoặc 0,0001.

Tốc độ học tập tập là 1 trong tham số điều chỉnh trong thuật toán về tối ưu hóa xác minh kích thước cách ở mỗi lần lặp trong những khi tiến tới mức tối thiểu của hàm đưa ra phí.

→ Sau đó, đạo hàm riêng được xem cho hàm giá cả được lấy. Sau khoản thời gian tính toán, phương trình dành được sẽ là.

Những ai quen thuộc với Giải tích sẽ hiểu được cách tính đạo hàm để có được phương trình này.

Nếu bạn lần chần giải tích, chớ lo lắng, chỉ việc hiểu phương pháp thức buổi giao lưu của nó với sẽ là quá đầy đủ để suy nghĩ trực quan liêu về mọi gì đang xẩy ra đằng sau hậu ngôi trường và đầy đủ ai mong mỏi biết vượt trình đo lường và thống kê thì hãy coi blog này hiển thị phép đo lường và thống kê của hàm đưa ra phí .

→ sau khoản thời gian các đạo hàm được tính toán, trọng số được cập nhật với sự trợ giúp của phương trình sau.

Nếu bạn đã liếc qua Blog của Jason Brownlee, chúng ta có thể đã hiểu trực giác sau sự giảm dần dần độ dốc và bí quyết nó nỗ lực đạt đến cả tối thiểu trái đất (Giá trị hàm túi tiền thấp nhất).

Tại sao bọn họ phải trừ trọng số (m cùng b) với đạo hàm? Gradient cung ứng cho bọn họ hướng tăng trưởng dốc độc nhất của hàm mất mát cùng hướng trở xuống dốc nhất trái lại với gradient cùng đó là nguyên nhân tại sao họ trừ gradient trường đoản cú trọng số (m với b)

→ thừa trình cập nhật các trọng số sẽ tiếp tục cho tới khi hàm chi tiêu đạt mang đến giá trị lý tưởng bởi 0 hoặc gần bằng 0.

Bây giờ, sau khi bạn đã dành được mô hình hoạt động tốt nhất. Hãy xem cách kiểm tra quality của mô hình.

Đánh giá mô hình hồi quy logistic

Sau khi sản xuất mô hình, shop chúng tôi hiển nhiên yêu cầu kiểm tra xem quy mô của cửa hàng chúng tôi hoạt động giỏi như vậy nào, nó tương xứng với tài liệu của công ty chúng tôi như nạm nào.

Một trong số những cách tiếp cận để triển khai điều này là Đo lường nấc độ chúng ta có thể dự đoán biến phụ thuộc dựa bên trên tập hợp những biến độc lập mới.

AIC (Akaike Information Criteria): * AIC là chế độ ước tính nấc độ tương xứng của tế bào hình. * Bất cứ lúc nào chúng tôi tạo ra một mô hình, shop chúng tôi mất một số trong những thông tin, không ai rất có thể tạo ra mô hình hoàn hảo. AIC mong tính lượng tin tức bị mất. * giá trị của AIC càng tốt nghĩa là thông tin bị mất càng ít tức là mô hình giỏi hơn. * việc thêm những biến vào mô hình sẽ không làm đội giá trị của AIC. * một trong những những tính năng của AIC là nó giúp chắt lọc mô hình, chúng tôi có thể phù hợp với tổng thể dữ liệu nhằm đào tạo quy mô và so sánh những giá trị AIC của các mô hình khác biệt và chọn quy mô có giá trị AIC tốt nhất. AIC = -2 / N * LL + 2 * K / N Trong đó, N là số lượng mẫu trong dữ liệu huấn luyện, LL là khả năng ghi nhật cam kết của mô hình trên dữ liệu huấn luyện. Và K là số thông số trong dữ liệu.

Xem thêm: Official Mv Là Gì ? Mv Là Viết Tắt Của Từ Gì

HỌC VUI VẺ !!!!!

Ngoài ra, hãy liên kết với tôi trên LinkedIn .

Japanese Spanish German French thai Portuguese Russian Vietnamese Italian Korean Turkish Indonesian Polish Hindi

Tôi tin tưởng rằng tất cả shop chúng tôi đã làm việc đó. Mong muốn xem sản phẩm công nghệ gì đó, tuy nhiên không biết đúng đắn nội dung đã xem… hóng đã, tôi nghĩ bạn có một sàng lọc ở đây! Chà, gồm loạt phim này trên Netflix mà bằng hữu của các bạn đã buôn dưa lê trong một thời gian.

Quy trình công việc học máy bao hàm tất cả các bước cần thiết nhằm xây dựng mô hình học trang bị từ dữ liệu thô. Các quá trình này hoàn toàn có thể được phân thành các giai đoạn biến hóa và đào tạo.

trong hành trình liên tiếp tìm tìm tài liệu nhằm thu hút người hâm mộ mới, tôi đã tìm đến nguồn. Sáu đơn vị văn bậc nhất của Medium.

nếu bạn nghĩ rằng việc mạnh khỏe là điều khó khăn - hãy suy nghĩ lại. Khi khỏe mạnh, chúng ta thường suy nghĩ về rất nhiều thói quen cực nhọc khăn, nhức đớn.

Cây đa

Một bài xích thơ

Ngọc lục bảo thường xuyên xanh của lợi ích. * vật mẫu sinh trưởng mãi mãi.

CSS: Đơn vị thống kê giám sát (px, em, rem, vw,%, v.v.)

reviews Tôi đưa ra quyết định viết blog này với ước ao muốn mày mò thêm về tất cả các cách bạn cũng có thể định form size mọi thứ bằng CSS. Với không hề ít khả năng, bạn rất đơn giản cảm thấy choáng ngợp cùng bối rối.

"Dancing With the Stars": Cheryl Burke "Lucky" với "Thankful" vì chưng đã hỗ trợ Cody Rigsby trong Sobriety Journey

chuyên viên Cheryl Burke của "Dancing With the Stars" bảo rằng cô ấy "may mắn" với "biết ơn" vị tình chúng ta và sự cung cấp của người một nửa bạn đời nổi giờ Cody Rigsby.

"Dưới boong Địa Trung Hải": Lexi Wilson đã được cho thấy cô ấy là "người tồi tàn nhất" đầu bếp Mathew đang gặp: Anh ấy có ăn năn hận lúc nói điều ấy không?

Đầu bếp Mathew nói với Lexi Wilson rằng cô ấy là "người tồi tàn nhất" nhưng mà anh ấy từng chạm chán trong tập cuối cùng của "Below Deck Địa Trung Hải." bất cứ hối tiếc?

"Dancing With the Stars": Brian Austin Green nói đùa, "Nếu tôi lộn xộn, tôi đang không không thể tinh được nếu Sharna vứt rơi tôi"

sỹ tử Brian Austin Green của nhảy With the Stars nói nghịch rằng anh vẫn không không thể tinh được nếu bạn nữ Sharna Burgess "bỏ rơi anh" nếu như anh gây rối.

"Luận tội: câu chuyện tội phạm Mỹ": Monica Lewinsky nói 1 giây phút nói với cô ấy rằng cô ấy đang thao tác làm việc "với đúng người"

Monica Lewinsky ban sơ không chắc chắn là về "Impeachment: American Crime Story". Tuy thế cô ấy sẽ lên tàu sau khi một bình luận trấn an cô ấy.

văn phòng công sở của nghị sĩ Thượng viện hỗ trợ quyền truy cập vào trình độ chuyên môn lập pháp không đảng phái và kín để giúp cải tiến và phát triển luật mới và phát âm biết về những quy tắc đưa ra phối Thượng viện.