PHƯƠNG PHÁP NGHIÊN CỨU KHOA HỌC BIG DATA
Abstract
Dựa trên những cách thức lập luận và minh định theo phương pháp quy nạp (phần lớn dựa vào các nghiên cứu của Brian D. Haig), bài viết này cố trình bày những nét tổng quan về cách thế để nghiên cứu về phương pháp khoa học về Big Data (BD), và qua đó cho thấy những lợi ích của triết học hiện sinh trong khoa học BD với những lợi ích và cả những rủi ro tiềm tàng trong việc khai thác và sử dụng nó.
Từ khóa: Khoa học. Dữ liệu lớn (BD), nghiên cứu khoa học, phương pháp quy nạp.
Mở đầu
Sống trong thế giới hiện đại ngày nay, con người đang phải đối diện với sự bùng nổ của khoa học công nghệ thông tin và sinh học. Xét về mặt thông tin, trước đây vào thế kỷ thứ III, người ta xem tri thức nhân loại được chứa đựng trong thư viện Alexandria. Thế nhưng, 18 thế kỷ sau đó, tổng lượng thông tin của nhân loại nếu chia đều cho gần 9 tỷ người trên khắp thế giới thì sẽ nhiều khủng khiếp đến mức người ta so sánh nếu sao chép chúng với khoảng 120 exabytes vào đĩa CD và chồng lại với nhau, sẽ có khoảng 5 chồng đĩa mà mỗi chồng có chiều dài từ mặt đất đến mặt trăng. Những dữ liệu khủng đó người ta thường gọi là “Big Data”.
Triết học (philosophy) là yêu mến sự khôn ngoan và triết gia là người đi tìm sự thật, sự minh tri trong thế giới bằng những cách thức khảo nghiệm khác nhau để minh xác thực tại, thực tại đó bao gồm những vấn đề nhiêu khê trong cuộc sống phức tạp của con người. BD là một vấn nạn lớn của thời đại công nghệ hiện nay, vì không có ngành nghề nào mà không có dữ liệu thông tin… Và việc thu thập những dữ liệu thông tin, truy cập, phân tích, xử lý chúng là công việc mà các nhà nghiên cứu dùng để khai thác và rút ra ích lợi từ chúng để phục vụ cho nhiều mục đích của con người.
Bài viết này cố gắng trình bày về phương pháp nghiên cứu khoa học BD trong cái nhìn đa diện của triết học mang tính khoa học, nhằm định hướng cho ngành công nghệ thông tin qua những phân tích, đánh giá về những thực tại hữu ích cũng như những hiện thể mang tính rủi ro cao từ việc sử dụng BD. Bài viết này sẽ triển khai sơ bộ về bối cảnh chung của BD và phương pháp nghiên cứu khoa học về BD.
Bối cảnh của Big Data
Thuật ngữ “Big Data” (BD) lần đầu được sử dụng là khoảng đầu năm 1990, khi John Graphics dùng BD để chỉ về việc xử lý và phân tích các tập dữ liệu khổng lồ. Mãi tới năm 2001, thuật ngữ này mới được phổ biết cách rộng rãi và mang tính toàn cầu nhờ Doug Laney trình bày những đặc nét của BD. Thật vậy, “tính ở thời điểm vào năm 2000 chỉ có một phần tư lượng thông tin được lưu trữ trên toàn thế giới ở dạng kỹ thuật số. Ba phần tư còn lại được người ta lưu trên giấy tờ, phim, và các phương tiện analog khác. Nhưng do lượng dữ liệu kỹ thuật số bùng nổ quá nhanh – cứ 3 năm lại tăng gấp đôi – cục diện trên nhanh chóng đảo ngược. Ngày nay, chỉ dưới 2% tổng lượng thông tin chưa được chuyển sang lưu trữ ở dạng kỹ thuật số.”
BD được tạo ra từ rất nhiều nguồn dữ liệu, chẳng hạn như từ các trang mạng xã hội, truyền thông, phương tiện giao thông, giao dịch chứng khoán, hộp đen máy bay, và từ rất nhiều ngành nghề khác nhau…Ví dụ, về thiên văn học “khi Sloan Digital Sky Survey (SDSS - Trạm quan sát bầu trời bằng kỹ thuật số Sloan) bắt đầu hoạt động vào năm 2000, kính thiên văn của nó tại New Mexico trong mấy tuần đầu tiên đã thu thập nhiều dữ liệu hơn những gì được thu thập trong toàn bộ lịch sử của ngành thiên văn. Đến năm 2010, lưu trữ của trạm đã bạt ngàn với con số khổng lồ 140 tera (10 mũ 12) byte thông tin. Nhưng kẻ kế nhiệm kính thiên văn của Large Synoptic Survey (LSST) ở Chile, đã vận hành vào năm 2016 cứ mỗi năm ngày sẽ thu thập được lượng dữ liệu tương đương như thế.”
“Xét về ngành công nghệ thông tin, các công ty Internet ngập tràn dữ liệu khủng. Google xử lý hơn 24 peta (10 mũ 15) byte dữ liệu mỗi ngày, một khối lượng gấp hàng ngàn lần tất cả các ấn phẩm trong Thư viện Quốc hội Mỹ. Facebook, một công ty không hề tồn tại một thập kỷ trước, nhận hơn 10 triệu ảnh mới được tải lên mỗi giờ. Các thành viên Facebook nhấp nút “like” hoặc gửi lời bình luận gần ba tỷ lần mỗi ngày, tạo một dấu vết số để công ty có thể “đào xới” nhằm biết được các sở thích của người sử dụng. Trong khi đó, 800 triệu người sử dụng dịch vụ Youtube của Google tải lên hơn một giờ video mỗi giây. Thành viên của mạng Twitter tăng khoảng 200 phần trăm mỗi năm và đến năm 2012 đã có hơn 400 triệu tweet mỗi ngày.”
Mặc dù, BD chứa đựng nhiều thông tin quý giá nhằm khi trích xuất chúng, người dùng có thể gặt hái được nhiều thành công trong việc kinh doanh, nghiên cứu khoa học, dự đoán tương lai… thế nhưng, việc xử lý lượng dữ liệu thông tin khủng này cũng không phải là chuyện đơn giản, vì chúng rất phức tạp.
Tuy nhiên, ngày nay với sự phát triển vượt bậc của khoa học kỹ thuật, công nghệ thông tin thì dù với quy mô khổng lồ của “dữ liệu hóa” chúng đều được mã hóa và lưu trữ trong máy tính, mà các máy tính này có bộ xử lý cực mạnh với những phép tính thông minh, những phần mềm nhanh gọn và những ứng dụng khôn ngoan đã đưa ra các kết quả trích xuất với độ chính xác rất cao. Máy móc sẽ là những công cụ chính yếu để gặt hái những hoa trái tiện ích vô cùng lớn từ BD. Thế nhưng bằng cách nào và làm như thế nào để ngang qua máy móc, con người sẽ gặt hái tiện ích đó? điều đó phải cần đến khoa học. Nghiên cứu khoa học về BD sẽ là một quy trình liên hợp những công việc hấp dẫn nhưng cũng không phải là hoàn toàn đơn giản, bởi vì chúng cần được nghiên cứu kỹ lưỡng, có khoa học, có tổ chức, khúc triết và đem lại hiệu quả cao. Chúng ta sẽ tìm hiểu phương pháp khoa học về BD trong các phần mục dưới đây.
Phương Pháp Khoa học về Big Data
Khoa học hiện đại quy tụ nhiều lĩnh vực khác nhau để theo đuổi lý tưởng khai sáng một cách có phương pháp và tổ chức nhằm thủ đắc những thành tựu tri thức vượt bậc từ khoa học công nghệ. Trọng tâm của phương pháp khoa học luôn bắt nguồn từ thực tế ngõ hầu lần đường tìm kiếm tri thức từ thế giới hiện đại. BD cũng không nằm ngoài quy luật này.
Bản chất của phương pháp khoa học hệ tại dưới dạng lý thuyết về phương pháp khoa học, mà cụ thể có hai cách thức cơ bản thường được thực hiện đó là phương pháp diễn dịch và quy nạp (deductive and inductive method). Bên cạnh đó, có một cách thức tiếp cận khá quan trọng với phương pháp khoa học nhưng ít được quan tâm đó là phương pháp loại trừ (abductive method). Phương pháp thứ ba thường dùng cho việc lý luận theo chủ nghĩa hiện sinh về các thực thể tàng ẩn (hidden entities), để tìm ra và loại trừ những khả thể không đúng đồng thời đưa ra kết luận khả dĩ. Dĩ nhiên, cả ba phương pháp khoa học trên đều có thể sử dụng cho việc phân tích khoa học cách hiệu quả.
Nhưng bài viết này sẽ tập trung chính yếu vào phương pháp quy nạp cùng những biện chứng của nó. Vì phương pháp quy nạp sẽ kết hợp các hình thức tư duy mang tính kinh nghiệm và bám sát vào các dữ liệu, sự kiện về BD để phân tích. Thật vậy vào năm 2008, Chris Anderson đã mạnh mẽ tuyên bố về khoa học BD như sau: “Phương pháp khoa học dựa trên các giả thuyết có thể kiểm tra được… Nhưng đối mặt với BD, cách tiếp cận khoa học này - giả thuyết, mô hình, thử nghiệm - đang trở nên lỗi thời”. Phát biểu này khá đúng trên thực tế và nó gợi ý cho chúng ta nên từ bỏ phương pháp diễn dịch như chúng ta đã biết và nên dùng phương phương pháp khoa học quy nạp để nghiên cứu về BD.
Theo Kitchin, vào năm 2004 ông đã cho rằng phương pháp quy nạp trong khoa học BD sẽ mở ra một kỷ nguyên mới cho chủ nghĩa kinh nghiệm, trong đó các kỹ thuật phân tích BD cho phép dữ liệu tự nói theo cách không có lý thuyết. Có lẽ đó là điều mà các nhà khoa học BD theo trường phái hiện sinh ưa thích, vì nó nghiên cứu dữ liệu và khái quát dữ liệu thực nghiệm thành các giả thuyết để giải thích cho các vấn đề có liên quan đến việc trích xuất, phân tích và xử lý dữ liệu. Phương pháp khoa học BD này nếu nghiên cứu kỹ lưỡng sẽ đem lại nhiều hiệu quả lớn, phục vụ cho quá trình phát triển con người, kiến tạo tri thức khoa học.
Đặc tính của phương pháp quy nạp cho ngành khoa học BD
Theo Anderson khẳng định khoa học BD chỉ đơn giản là quy nạp. Xét về triết học vào năm 2013, Chalmers đưa ra cách tiếp cận và cung cấp thông tin về phương pháp quy nạp, trong đó nhà khoa học sẽ lý luận kiểu quy nạp bằng cách liệt kê những quan điểm mà họ đã quan sát kỹ lưỡng về các sự kiện từ đơn giản đến phức tạp theo một quy luật nào đó, mà quy luật đó có sức thuyết phục với một số lý luận của quy nạp. Lý luận quy nạp ‘logic’ khi được tổ chức cách khoa học và biện minh cho các lý thuyết đồng thời, dĩ nhiên là không cần thử nghiệm các thực nghiệm sau đó.
Đã có nhiều người phê bình cách tiêu cực về phương pháp này, vì họ cho rằng quá liều lĩnh đặt trọn niềm tin tưởng vào sức mạnh của quan sát và khái quát quy nạp để rồi đưa ra suy luận khoa học. Mặc dù, phương pháp quy nạp đã nhận được nhiều chỉ trích từ những người ưa thích phương pháp diễn dịch khoa học cũng như nhiều cách thức khác, nhưng một cách rộng rãi, phương pháp quy nạp luôn chú tâm đến khoa học về việc thành hình các khái quát mang tính thực nghiệm. Điều mà nhiều nhà khoa học hiện đại sử dụng như: “B. F. Skinner trong khoa học hành vi hiện đại nghiên cứu đã sử dụng quan niệm quy nạp về phương pháp khoa học (Skinner, 1984); Các nhà tâm lý học McAbee, Landis và Burke (2017) đưa ra đánh giá về giá trị của khoa học dữ liệu lớn đối với tâm lý học tổ chức và đề xuất quan điểm quy nạp được đo lường cho nghiên cứu để chống lại sự bá đạo của lý thuyết suy luận giả thuyết.”
Theo Brian D. Haig quá trình tìm hiểu và nghiên cứu khoa học BD được thực hiện theo phương pháp quy nạp với các bước như sau: “trước hết cần phải phát triển các nghiên cứu về các thực nghiệm bắt buộc với BD, sau đó dùng những phương pháp luận và viết lên những khái niệm cho nó với những tập hợp dữ liệu được phân tích từ quá trình quan sát các hiện tượng. Việc quan sát tận tường các hiện tượng sẽ giúp cho tiến hành giải thích chúng bằng cách suy luận tổng quát về sự tồn tại của các nguyên nhân cơ bản tạo nên quá trình thành hình nên chúng.”
Điều quan trọng trong phương pháp quy nạp để nghiên cứu khoa học BD là tập trung quan sát hiện tượng và giải thích chúng. Việc quan sát hiện tượng để thiết lập dữ liệu là cơ sở thuyết phục, là bằng chứng đáng tin cậy cho sự tồn tại của các hiện tượng, và ở bước này các nhà khoa học sử dụng nhiều cách thức chiến lược khác nhau. Có nhà khoa học dùng mô hình phân tích dữ liệu theo hướng thống kê nhằm cung cấp những đặc điểm hữu ích từ hiện tượng đó. Cũng có những nhà khoa học khác dùng mô hình gồm bốn giai đoạn: phân tích dữ liệu ban đầu, phân tích dữ liệu khám phá, sao chép gần và sao chép mang tính xây dựng, dĩ nhiên, cả bốn giai đoạn này đều liên quan và tương ứng với chất lượng dữ liệu, gợi ý mẫu, xác nhận mẫu và tổng quát hóa chúng từ những kinh nghiệm quan sát được. Đó chính là phương pháp quy nạp liệt kê mà người ta thu được theo kinh nghiệm trên cơ sở của nhiều trường hợp.
Sau khi quan sát hiện tượng, bước quan trọng kế tiếp là giải thích chúng. Cần giải thích chúng sao cho phù hợp với quan điểm khoa học hiện sinh. Quan điểm này chứng minh các hiện tượng là những bản thể tồn hữu thuộc nhiều chủng loại khác nhau, gồm cả những khái quát thực nghiệm, sao cho chúng luôn mang tính khách quan khoa học. Ví dụ, sau khi quan sát các hiện tường từ các giai đoạn phân tích BD của quá trình sao chép chặt chẽ và mang tính xây dựng trên cơ sở thực tế, và kiểm tra tính nhất quán của quy trình nhằm chứng thực cơ sở dữ liệu đó tồn tại, từ đó các nhà khoa học có thể thu nhận được các thông tin quý giá từ BD và nếu dùng chúng theo hướng nào thì có nhiều lợi ích vượt bậc và nếu đi theo hướng nào sẽ mang lại nhiều tiềm ẩn rủi ro cho con người.
Mặc dù phần đa những người phò khoa học BD đều ủng hộ nghiên cứu quy nạp, nhưng cũng có những người, đôi khi họ cho rằng khoa học sử dụng nhiều dữ liệu nên được coi là vô dụng về bản chất (ví dụ như Fox và Hendler, 2014) nhưng họ không giải thích chi tiết về tuyên bố này, chẳng hạn như: Johns, Jamieson và Jones, (2018) là một ngoại lệ. Khá hơn một chút đó là Rob Kitchen, vào năm 2014 ông đã gợi ý rằng “khoa học định hướng BD sẽ mở rộng hơn trong việc sử dụng kết hợp các phương pháp tiếp cận tổng hợp vừa quy nạp và vừa diễn dịch để nâng cao hiểu biết về một hiện tượng.” Nghĩa là ông muốn kết hợp cả hai phương pháp khoa học quy nạp và diễn dịch cho nghiên cứu khoa học về BD, thế nhưng, trình tự của quy trình ông đưa ra thì không rõ ràng. Một cách chung chung trình tự đó là: quy nạp liệt kê (phát hiện hiện tượng), tóm tắt tồn tại (tạo lý thuyết), quy nạp loại suy (phát triển lý thuyết), suy luận để giải thích tốt nhất (thẩm định lý thuyết so sánh).
Thế nhưng, có những người không dùng hai phương pháp nghiên cứu trên, họ dùng phương pháp thứ ba (như đã đề cập ở trên), phương pháp nghiên cứu khoa học Abduction (loại trừ những khả thể sai để đưa ra kết luận đúng). Phương pháp này phân biệt rõ ràng giữa quy nạp và diễn dịch và nó ấn định mục tiêu nghiên cứu khác nhau cho mỗi lý thuyết, nó đi từ cụ thể đến khái quát, bởi vì sự đặc biệt của nó hệ tại ở tính chất ưu tiên giải pháp của kết luận. Một số người theo thương pháp thứ ba này, chẳng hạn như Edwin Locke. Vào năm 2015, dựa trên phương pháp lý thuyết hiệu quả, ông đã mô tả “cảm ứng là chuyển từ cái riêng sang cái chung… đồng thời, dường như hiểu về cảm ứng nó như đưa chúng ta đến trung gian của các cơ chế nhân quả.” Tuy nhiên, phương pháp Abduction này không phải dễ dàng thực hiện khi chỉ dựa trên tính ưu tiên giải pháp của kết luận, không phải lúc nào cũng có thể loại trừ hết được mọi khả thể sai. Vì thế, có lẽ chúng ta phải thừa nhận một điều là phương pháp quy nạp là suy luận mô tả, chống lại nhiều thực thể cùng loại hơn, trong khi đó là phương pháp diễn dịch cho phép chúng ta suy luận về các thực thể khác loại với những thực thể được tìm thấy trong cơ sở hiển nhiên của chúng.
Lời kết
Mỗi phương pháp nghiên cứu khoa học quy nạp, diễn dịch hay Abduction… một cách nào đó, đều có thể áp dụng cho nghiên cứu BD. Nhưng để tiến trình nghiên cứu khoa học được hiệu quả hơn, thiết nghĩ phương pháp quy nạp sẽ trổi vượt hơn các phương pháp khác, vì nó tập trung quát sát các hiện tượng cách kỹ lưỡng từ cụ thể, chi tiết đến tổng quát từ quá trình thành hình và phát triến của BD, để đưa ra những nhận định khái quát về toàn bộ quá trình thu thập, mã hóa, lưu trữ cơ sở dữ liệu. Đồng thời đưa ra những phát hiện mới, giải thích chúng cách khoa học, kết luận và đề ra những hướng đi mới mang tính chiến lược hơn cho ngành khoa học BD. Cuối cùng, chúng ta phải thừa nhận rằng những nghiên cứu khoa học cùng những cách thức đi kèm với nó là những nỗ lực của con người trên hành trình khám phá tri thức. Nhưng trong kỷ nguyên BD này, giả như có những phương pháp nghiên cứu khoa học trổi trang và đem lại nhiều hiệu quả cho con người đi chằng nữa, thì vấn nạn hiện sinh ngày nay khiến con người phải suy xét là liệu rằng sự xuất hiện của BD với sự hỗ trợ đắc lực là những công cụ máy tính, công nghệ hiện đại dưới sự soi sáng của nghiên cứu khoa học có làm giảm đi hoạt động của con người hay không? Có phải máy móc sẽ hoàn toàn thay thế con người? Thật vậy, điều đáng lo ngại là “các thuật toán BD có thể tạo ra những “nền độc tài số”, trong đó mọi quyền lực tập trung trong tay một nhóm tinh hoa cực nhỏ trong khi hầu hết những người khác phải gánh chịu, không phải sự bóc lột mà là một thứ tồi tệ hơn nhiều: sự vô dụng. Nếu chủ nghĩa tự do, chủ nghĩa dân tộc, Hồi giáo hay bất cứ tín điều mới mẻ nào đó muốn định hình thế giới của năm 2050, nó sẽ không chỉ cần hiển được trí tuệ nhân tạo, các thuật toán BD và công nghệ sinh học mà còn phải đưa chúng vào một câu chuyện mới mẻ và ý nghĩa.”
Minh Đức S.J.
Danh mục tài liệu tham khảo:
https://daynhauhoc.com/.../big-data-la-gi-va-loi.../27350, truy cập ngày 25/10/2021
Viktor Mayer-Schonberger và Kenneth Cukier. Dữ liệu lớn. Dịch bởi Vũ Duy Mẫn. Trẻ. 2017.
Brian D. Haig. Big data science: A philosophy of science perspective. In S. E. Woo, L. Tay, & R. W. Proctor (Eds.), University of Canterbury. 2020.
Harari Yuval Noah. 21 bài học cho thế kỷ 21. Dịch bởi Dương Ngọc Trà. Thế Giới. 2019.
_Quang Hồng Minh._ (một bài nghiên cứu nhỏ, với nhiều giới hạn...)
0 Comments:
Không cho phép có nhận xét mới.