Showing posts with label Gia Đình Chồng Tôi. Show all posts
Showing posts with label Gia Đình Chồng Tôi. Show all posts
Friday, February 7, 2014
Gia Đình Chồng Tôi
Gia Đình Chồng Tôi - My Husband Got A Family
Status: Trailer
Đạo diễn:Kim Hyung-Suk,
Diễn viên:Kim Nam-Joo, Yu Jun-Sang, Kim Sang-Ho, Lee Hee-Joon, Kang Min-Hyuk
Thể loại:Phim Tình Cảm, Phim Hài Hước,
Quốc gia:Phim Hàn Quốc,
Thời lượng:25 Tập
Năm phát hành: 2014
Gia Đình Chồng Tôi trong những từ đầu tiên là một động từ. Vì vậy, động từ có mũ ban đầu có xác suất cao hơn so với thư rác họ sẽ ở tất cả các chữ thường. Trong bộ lọc của tôi, xác suất thư rác của `` luật'' là 98% và cho `` hành động'' chỉ có 62%. Nếu bạn tăng vốn từ vựng bộ lọc của bạn, bạn có thể kết thúc kể từ cùng nhiều lần, theo định nghĩa cũ của bạn của `` cùng''. Một cách hợp lý, họ không phải là Tương tự như vậy nữa. Nhưng nếu điều này vẫn làm phiền bạn, cho tôi thêm kinh nghiệm rằng những lời bạn dường như đếm nhiều lần có xu hướng được chính xác những người bạn muốn. Một tác dụng của một từ vựng lớn hơn là khi bạn phim than thoai hi lap nhìn vào một thư đến bạn tìm thẻ thú vị hơn, có nghĩa là những người có xác suất xa 0,5. Tôi sử dụng 15 thú vị nhất để quyết định xem email là thư rác. Nhưng bạn có thể chạy vào một vấn đề khi bạn sử dụng một số cố định như thế này. Nếu bạn tìm thấy rất nhiều thẻ tối đa thú vị, kết quả có thể kết thúc được quyết định bởi bất cứ điều gì ngẫu nhiên yếu tố quyết định thứ tự của thẻ kém phần thú vị. Một cách để đối phó với điều này là để điều trị một số như thú vị hơn những người khác. Ví dụ, thẻ `` dalco'' xảy ra 3 lần trong corpus thư rác của tôi và không bao giờ trong corpus hợp pháp của tôi. Token `` Url * optmails'' (có nghĩa là `` optmails'' trong url) xảy ra 1223 lần. Tuy nhiên, như tôi đã sử dụng để tính toán xác suất cho thẻ, cả hai sẽ có xác suất thư rác cùng, ngưỡng 0,99. Điều đó không cảm thấy đúng. Có lập luận lý thuyết đã cho hai thẻ các xác suất khác nhau đáng kể (Pantel và Lin làm), nhưng tôi đã không cố gắng mà được nêu ra. Nó không có vẻ ít nhất là nếu chúng ta tìm thấy nhiều hơn 15 thẻ chỉ xảy ra ở một corpus này hay cách khác, chúng ta phải ưu tiên cho những người mà xảy ra rất nhiều. Vì vậy, hiện nay có hai giá trị ngưỡng. Cho thẻ mà chỉ xảy ra trong corpus thư rác, xác suất là 0,9999 nếu chúng xảy ra hơn 10 lần và 0,9998 khác. Nt ở đầu kia của quy mô cho thẻ chỉ được tìm thấy trong tập văn bản hợp pháp. tôi sau đó có thể mở rộng xác suất thẻ đáng kể, nhưng số tiền nhỏ bé này mở rộng quy mô ít nhất là đảm bảo rằng thẻ được sắp xếp đúng cách. Một khả năng khác sẽ được xem xét không chỉ 15 thẻ, nhưng tất cả các thẻ trên một ngưỡng nhất định của lý thú. Steven Hauser thực hiện điều này trong bộ lọc thư rác thống kê phim trung quoc hay nhat của mình [8]. Nếu bạn sử dụng một ngưỡng, làm cho nó rất cao, hoặc gửi thư rác có thể giả mạo bạn bằng cách đóng gói tin nhắn với lời lẽ ngây thơ hơn. Cuối cùng, những gì người ta nên làm gì về html? Tôi đã thử toàn bộ các tùy chọn, từ bỏ qua nó để phân tích tất cả. Bỏ qua html là một ý tưởng tồi, bởi vì nó đầy đủ các dấu hiệu thư rác hữu ích. Nhưng nếu bạn phân tích nó tất cả, bộ lọc của bạn có thể biến thành một nhận dạng html đơn thuần. Cách tiếp cận hiệu quả nhất có vẻ là quá trình trung, nhận thấy một số thẻ nhưng không phải người khác. Tôi nhìn vào một, img, và các thẻ chữ, và bỏ qua phần còn lại. Liên kết và hình ảnh bạn chắc chắn nên xem xét, bởi vì chúng chứa các url. tôi có thể có thể được thông minh hơn về đối phó
Subscribe to:
Posts (Atom)