- vừa được xem lúc

Ngôn ngữ lập trình sử dụng trong Data Science - [Data Science Series]

0 0 28

Người đăng: Hoàng Đinh

Theo Viblo Asia

Có một số lượng lớn các lựa chọn khi nói đến ngôn ngữ lập trình nói riêng và ngôn ngữ lập trình trong Data Science . Mỗi người đều có điểm mạnh và điểm yếu của riêng và sẽ không có ai trả lời đúng cho câu hỏi bạn nên học cái nào trước. Câu trả lời cho câu hỏi đó phụ thuộc phần lớn vào nhu cầu của bạn, các vấn đề bạn đang cố gắng giải quyết và bạn đang giải quyết chúng cho ai.

Python, R và SQL là những ngôn ngữ mà mình khuyên bạn nên xem xét đầu tiên bên cạnh những ngôn ngữ có điểm mạnh và tính năng riêng như Scala, Java, C ++ và Julia, JavaScript, PHP, GO, Ruby và Visual Basic. Ngôn ngữ bạn chọn để học sẽ phụ thuộc vào những điều bạn cần phải thực hiện và các vấn đề bạn cần giải quyết. Nó cũng sẽ phụ thuộc vào công ty bạn làm việc cho, vai trò của bạn và tuổi của ứng dụng hiện tại của bạn. Chúng ta sẽ khám phá câu trả lời cho câu hỏi này khi chúng ta đi sâu vào các ngôn ngữ phổ biến trong ngành Data Science.

Mình sẽ tập trung giới thiệu phần lớn vào ba ngôn ngữ Data Science hàng đầu: Python, R và SQL.

1. Python

Python là một ngôn ngữ vô cùng quyền lực 😄. Nó là ngôn ngữ lập trình phổ biến nhất cho Data Science. Theo Khảo sát Kaggle Data Science and Machine Learning 2019 , 75% trong số hơn 10.000 người được hỏi từ khắp nơi trên thế giới đã báo cáo rằng họ sử dụng Python một cách thường xuyên. Glassdoor đã báo cáo rằng năm 2019, hơn 75% vị trí khoa học dữ liệu được liệt kê bao gồm Python trong công việc của họ. Khi được hỏi ngôn ngữ nào một nhà khoa học dữ liệu đầy tham vọng nên học trước, hầu hết các nhà khoa học dữ liệu đều nói Python. Bạn có thể đang nghĩ, tại sao trên trái đất là Python rất phổ biến? Chà, hãy bắt đầu với những người sử dụng Python. Nếu bạn đã biết cách lập trình, thì Python là tuyệt vời cho bạn vì nó sử dụng cú pháp rõ ràng, có thể đọc được. Bạn có thể làm nhiều điều bạn đã quen làm trong các ngôn ngữ lập trình khác nhưng với Python, bạn có thể làm điều đó với ít mã hơn. Nếu bạn muốn học lập trình, đó cũng là một ngôn ngữ bắt đầu tuyệt vời vì Python có một cộng đồng khổng lồ và nguồn tài liệu phong phú. Trên thực tế, một số cuộc khảo sát khác nhau trong năm 2019 cho thấy hơn 80% các chuyên gia dữ liệu trên toàn thế giới sử dụng Python. Python rất hữu ích cho nhiều lĩnh vực, bao gồm khoa học dữ liệu, AI và học máy, phát triển web và các thiết bị IoT như Raspberry Pi. Các tổ chức lớn sử dụng Python nhiều bao gồm IBM, Wikipedia, Google, Yahoo !, Cern, NASA, Facebook, Amazon, Instagram, Spotify và Reddit.

  • Python là một ngôn ngữ lập trình đa năng mạnh mẽ có thể làm nhiều việc.
  • Nó được hỗ trợ rộng rãi bởi một cộng đồng toàn cầu và được tổ chức bởi Quỹ phần mềm Python
  • Python là ngôn ngữ lập trình đa năng cấp cao có thể được áp dụng cho nhiều loại vấn đề khác nhau.
  • Nó có một thư viện tiêu chuẩn lớn, cung cấp các công cụ phù hợp với nhiều tác vụ khác nhau, bao gồm nhưng không giới hạn ở cơ sở dữ liệu, tự động hóa, quét web, xử lý văn bản, xử lý hình ảnh, học máy và phân tích dữ liệu.
  • Đối với khoa học dữ liệu, bạn có thể sử dụng các thư viện điện toán khoa học của Python như Pandas, numpy, scipy và matplotlib.
  • Đối với trí tuệ nhân tạo, Python có Tensorflow, Pytorch, Keras và Scikit-Learn.
  • Python cũng có thể được sử dụng để xử lý ngôn ngữ tự nhiên (NLP) bằng bộ công cụ ngôn ngữ tự nhiên (NLTK)

2. R

Giống như Python, R có thể sử dụng miễn phí, nhưng đó là một dự án GNU - thay vì là nguồn mở, nó là phần mềm miễn phí. R là một ngôn ngữ khác được hỗ trợ bởi một cộng đồng toàn cầu của mọi người đam mê về việc giúp sử dụng ngôn ngữ để giải quyết các vấn đề lớn. R tường được sử dụng bởi các nhà thống kê, nhà toán học và công cụ khai thác dữ liệu để phát triển phần mềm thống kê, biểu đồ và phân tích dữ liệu. Cú pháp định hướng mảng của ngôn ngữ R giúp dễ dàng dịch từ toán sang code, đặc biệt là đối với người không có nền tảng lập trình tối thiểu. Một số tập đoàn lớn sử dụng R: IBM, Google, Facebook, Microsoft, Bank of America, Ford, TechCrunch, Uber và Trulia. R đã trở thành kho kiến thức thống kê lớn nhất thế giới. Tính đến năm 2018, R có hơn 15.000 package được phát hành công khai, cho phép tiến hành phân tích dữ liệu khám phá phức tạp. R tích hợp tốt với các ngôn ngữ máy tính khác, chẳng hạn như C ++, Java, C, .Net và Python. R có các cơ sở lập trình hướng đối tượng mạnh mẽ hơn so với hầu hết các ngôn ngữ điện toán thống kê. Có nhiều cách để kết nối với người dùng R khác trên toàn cầu như Whyr?, Satrday và R-Ladies

3. SQL

SQL khác một chút so với các ngôn ngữ khác. Mặc dù chúng viết tắt cho "Structure Query Language" - "Ngôn ngữ truy vấn có cấu trúc", nhiều người không coi SQL giống như các ngôn ngữ phát triển phần mềm khác vì đây là ngôn ngữ phi thủ thuật và phạm vi của nó bị giới hạn trong việc truy vấn và quản lý dữ liệu. Mặc dù nó không phải là ngôn ngữ "khoa học dữ liệu", các nhà khoa học dữ liệu thường xuyên sử dụng nó vì nó đơn giản và mạnh mẽ! Một vài sự thật về SQL: nó già hơn nhiều so với Python và R, khoảng 20 năm, lần đầu tiên xuất hiện vào năm 1974. Ngôn ngữ này rất hữu ích trong việc xử lý dữ liệu có cấu trúc, là dữ liệu kết hợp các mối quan hệ giữa các thực thể và biến. SQL được thiết kế để quản lý dữ liệu trong cơ sở dữ liệu quan hệ. Một cơ sở dữ liệu quan hệ được hình thành bởi các bộ sưu tập các bảng hai chiều; Ví dụ, bộ dữ liệu và bảng tính Microsoft Excel. Mỗi bảng này sau đó được hình thành bởi một số cột cố định và bất kỳ số lượng hàng nào. Mặc dù SQL ban đầu được phát triển để sử dụng với các cơ sở dữ liệu quan hệ, bởi vì nó rất phổ biến và dễ sử dụng, giao diện SQL cho nhiều kho lưu trữ dữ liệu lớn và dữ liệu lớn cũng đã được phát triển. Ngôn ngữ SQL được chia thành một số yếu tố ngôn ngữ, bao gồm các điều khoản, biểu thức, vị ngữ, truy vấn và câu lệnh. Biết SQL sẽ giúp bạn thực hiện nhiều công việc khác nhau trong khoa học dữ liệu, bao gồm cả nhà phân tích kinh doanh và dữ liệu, và đó là điều bắt buộc trong kỹ thuật dữ liệu. Khi thực hiện các hoạt động với SQL, bạn truy cập trực tiếp vào dữ liệu mà không cần phải sao chép. Điều này có thể tăng tốc độ thực hiện quy trình làm việc đáng kể. SQL là trình thông dịch giữa bạn và cơ sở dữ liệu. Nếu bạn học SQL và sử dụng nó với một cơ sở dữ liệu, bạn sẽ có thể dễ dàng áp dụng kiến thức SQL đó cho nhiều cơ sở dữ liệu khác. Có nhiều cơ sở dữ liệu SQL khác nhau có sẵn, bao gồm MySQL, IBM DB2, PostgreSQL, Apache OpenOffice Base, SQLite, Oracle, Mariadb, Microsoft SQL Server, v.v. Cú pháp của SQL bạn viết có thể thay đổi một chút dựa trên hệ thống quản lý cơ sở dữ liệu quan hệ mà bạn đang sử dụng.

Tham khảo từ quyển Getting Started with Data Science của IBM

Bình luận

Bài viết tương tự

- vừa được xem lúc

Hành trình AI của một sinh viên tồi

Mình ngồi gõ những dòng này vào lúc 2h sáng (chính xác là 2h 2 phút), quả là một đêm khó ngủ. Có lẽ vì lúc chiều đã uống cốc nâu đá mà giờ mắt mình tỉnh như sáo, cũng có thể là vì những trăn trở về lý thuyết chồng chất ánh xạ mình đọc ban sáng khiến không tài nào chợp mắt được hoặc cũng có thể do mì

0 0 146

- vừa được xem lúc

[Deep Learning] Key Information Extraction from document using Graph Convolution Network - Bài toán trích rút thông tin từ hóa đơn với Graph Convolution Network

Các nội dung sẽ được đề cập trong bài blog lần này. . Tổng quan về GNN, GCN. Bài toán Key Information Extraction, trích rút thông tin trong văn bản từ ảnh.

0 0 219

- vừa được xem lúc

Tìm hiểu về YOLO trong bài toán real-time object detection

1.Yolo là gì. . Họ các mô hình RCNN ( Region-Based Convolutional Neural Networks) để giải quyết các bài toán về định vị và nhận diện vật thể.

0 0 284

- vừa được xem lúc

Encoding categorical features in Machine learning

Khi tiếp cận với một bài toán machine learning, khả năng cao là chúng ta sẽ phải đối mặt với dữ liệu dạng phân loại (categorical data). Khác với các dữ liệu dạng số, máy tính sẽ không thể hiểu và làm việc trực tiếp với categorical variable.

0 0 259

- vừa được xem lúc

TF Lite with Android Mobile

Như các bạn đã biết việc đưa ứng dụng đến với người sử dụng thực tế là một thành công lớn trong Machine Learning.Việc làm AI nó không chỉ dừng lại ở mức nghiên cứu, tìm ra giải pháp, chứng minh một giải pháp mới,... mà quan trọng là đưa được những nghiên cứu đó vào ứng dụng thực tế, được sử dụng để

0 0 72

- vừa được xem lúc

Xây dựng hệ thống Real-time Multi-person Tracking với YOLOv3 và DeepSORT

Trong bài này chúng ta sẽ xây dựng một hệ thống sử dụng YOLOv3 kết hợp với DeepSORT để tracking được các đối tượng trên camera, YOLO là một thuật toán deep learning ra đời vào tháng 5 năm 2016 và nó nhanh chóng trở nên phổ biến vì nó quá nhanh so với thuật toán deep learning trước đó, sử dụng YOLO t

0 0 316