วิธีสร้าง Azure Data Factory (พื้นฐาน) บน Microsoft Azure

Azure-Data-Factory-Create-cover

เมื่อพูดถึงการจัดการข้อมูลในองค์กรขนาดใหญ่หรือธุรกิจที่มีการเก็บรวบรวมข้อมูลจำนวนมากจากแหล่งต่างๆ ได้โดยง่ายและยืดหยุ่น สิ่งสำคัญที่ต้องคำนึงถึงคือการนำข้อมูลเหล่านั้นมาใช้ประโยชน์อย่างมีประสิทธิภาพ ซึ่ง Azure Data Factory เป็นหนึ่งในเครื่องมือสำคัญที่ช่วยให้เราสามารถทำได้ง่ายๆ โดยเฉพาะในกระบวนการ ETL (Extract, Transform, Load)

Azure Data Factory (ADF) คือ

Azure Data Factory (ADF) คือหนึ่งในบริการของ Microsoft Azure ที่ให้คุณสร้าง, วางแผน, และดำเนินการในการประมวลผลข้อมูล ซึ่งช่วยให้คุณสามารถจัดการข้อมูลจากแหล่งต่างๆ (Source) ที่ต่างกัน เช่น ฐานข้อมูล, บริการเว็บ, ไฟล์, และการแลกเปลี่ยนข้อมูลในคลาวด์ โดยเชื่อมต่อและรวบรวมข้อมูลเหล่านี้เข้าด้วยกันเพื่อให้มีข้อมูลที่สมบูรณ์และเป็นระบบ ช่วยให้ผู้ใช้สร้าง “data pipelines” ซึ่งประกอบไปด้วยกิจกรรมการดำเนินการต่างๆ เช่น นำเข้าข้อมูล (Extract), การแปลงข้อมูล (Transform), และการโหลดข้อมูล (Load) หรือที่เราเรียกกันว่า ETL นั้นเอง

นอกจากนี้ ADF ยังสามารถเชื่อมต่อและประมวลผลข้อมูลจากแหล่งที่ต่างกันได้โดยง่ายและยืดหยุ่น ซึ่งช่วยให้เราใช้ประโยชน์จากข้อมูลในรูปแบบที่รวดเร็วและมีประสิทธิภาพมากขึ้น

ETL คือ

ETL ย่อมาจาก Extract, Transform, Load เป็นกระบวนการที่ใช้ในการจัดการและประมวลผลข้อมูลที่มีการเก็บรวบรวมจากแหล่งต่าง ๆ เพื่อให้ข้อมูลเหล่านั้นเป็นประโยชน์แก่ธุรกิจหรือสิ่งที่เรากำลังต้องการหาคำตอบ โดยกระบวนการ ETL มักถูกใช้ในระบบฐานข้อมูลและระบบโครงข่ายข้อมูลเพื่อการวิเคราะห์, รายงาน, และการตัดสินใจ มันประกอบด้วยขั้นตอนหลัก 3 ขั้นตอน (ตามชื่อเลย) ดังนี้

  • Extract (ดึงข้อมูล): กระบวนการดึงข้อมูลจากแหล่งที่เก็บข้อมูล ซึ่งอาจเป็น Database, CSV Files, API Service หรือแหล่งอื่น ๆ ที่เก็บข้อมูลที่ต้องการ โดยข้อมูลที่ถูกดึงมานั้นสามารถเป็นข้อมูลที่ไม่มีการประมวลผล (raw data) หรือเป็นข้อมูลที่มีการประมวลผลบางอย่างแล้วก็ได้
  • Transform (แปลงข้อมูล): กระบวนการที่ข้อมูลที่ถูกดึงมาจากขั้นตอน Extract ถูกปรับเปลี่ยน, ทำความสะอาด, รวมข้อมูล, หรือแม้กระทั้งประมวลผลข้อมูลในรูปแบบที่เหมาะสมก่อนที่จะนำข้อมูลเหล่านั้นไปเก็บในระบบปลายทาง โดยขั้นตอนนี้มักเป็นขั้นตอนที่สำคัญ เนื่องจากมันช่วยให้ข้อมูลกลายเป็นข้อมูลที่เข้าใจง่ายและเหมาะสมกับวัตถุประสงค์
  • Load (โหลดข้อมูล): กระบวนการที่ข้อมูลที่ผ่านการดึง (Extract) และการแปลง (Transform) ถูกนำเข้าไปยังระบบปลายทาง เช่น Database, Data Warehouse หรือ Data Lake เพื่อให้ข้อมูลเหล่านั้นสามารถใช้งานในการวิเคราะห์, รายงาน, หรือการตัดสินใจต่างๆ ต่อไป

กระบวนการ ETL เป็นส่วนสำคัญของการจัดการข้อมูล ยิ่งในองค์กรด้วยแล้ว ถือว่าเป็นสิ่งสำคัญ เนื่องจากมันช่วยให้ข้อมูลที่ถูกเก็บรวบรวมมาได้รับการปรับปรุงและมีคุณภาพที่ดีก่อนที่จะนำไปใช้งาน

วิธีสร้าง Azure Data Factory (ADF)

ก่อนอื่นต้องออกตัวก่อนเลยว่า ในบทความนี้ ผู้เขียน เขียนขึ้นในปี 2024 ในอนาคตบางเมนูอาจจะมีการเปลี่ยนแปลง และผู้เขียนจะขออนุญาตสร้าง service นี้ ในรูปแบบพื้นฐาน ถ้าพร้อมแล้วก็เข้า Azure portal แล้วเลือก service Azure Data Factory คลิ๊ก Create Data Factory

Basics

ในส่วนแรกแทบจะทุก service เราต้องมา setting ในส่วนนี้

  • เลือก Resource group ที่ต้องการให้ Service นี้เข้าไปอยู่
  • ตั้งชื่อ (Name) และเลือก Region โดย ณ ที่นี้ ขอเลือก Southeast Asia
  • ต่อไปเลือก Version ซึ่ง ณ ตอนที่ผู้เขียน เขียนบทความนี้ เป็น V2

Git configuration

สำหรับแท็ปนี้ จะกล่าวถึงการเชื่อมต่อกับ Git repository ซึ่งเราไม่มีการเชื่อมต่อใดๆ เพราะฉะนั้นให้ติ๊กถูกที่ “Configure Git later”

Networking

ใน่ส่วนของ Networking ให้เราตั้งค่า Default ไว้ได้เลย (ตามภาพ) และส่วนของ endpoint ให้เลือก “Public endpoint” ซึ่งถ้าใครตั้งการเชื่อมต่อกับ Azure Service ที่ต้องการความปลอดภัยสูง ให้เลือกเป็น “Private endpoint” ซึ่งจะต้องไปตั้งแค่พวก VNet, Subnet เพิ่มเติม ซึ่งบทความนี้ขอผ่านก่อน

Advanced

การเข้ารหัสข้อมูล ตามค่าเริ่มต้น ข้อมูลจะถูกเข้ารหัสด้วยคีย์ของทาง Microsoft แต่ถ้าเราต้องการควบคุมคีย์การเข้ารหัส เราสามารถจัดการคีย์เพื่อใช้ในการเข้ารหัสข้อมูล Blob และไฟล์ได้ คีย์ที่จัดการจะถูกจัดเก็บไว้ใน Azure Key Vault คุณสามารถสร้างคีย์ของคุณเองและเก็บไว้ใน Key Vault หรือคุณสามารถใช้ Azure Key Vault API เพื่อสร้างคีย์ได้ บัญชีที่เก็บข้อมูลและ Key Vault ต้องอยู่ในภูมิภาคเดียวกัน ซึ่งในบทความนี้เรายังไม่ต้องการความผลอดภัยหรือการจัดการในระดับนั้น จึงไม่ต้องติ๊ก “Enable encryption using a Customer Managed Key”

Tags

ในส่วนแท็ปนี้ไม่มีอะไรมาก เป็นแท็ปที่เอาไว้สร้าง Tags เพื่อเอาไว้ใช้ในการจดจำ และช่วยให้เราจัดหมวดหมู่ทรัพยากรและดูการเรียกเก็บเงินรวมโดยการใช้ Tags เดียวกันกับ Resource group หลายรายการได้ ซึ่งในส่วนนี้ เราจะขอตั้ง Tags “project: data warehouse” เอาไว้ ณ ที่นี่ผู้เขียนตั้งใจทำไว้เพื่อแยกดูการเรียกเก็บเงิน

ถ้าทุกอย่างพร้อมแล้วก็ Create ได้เลย


เป็นอย่างไรบ้าง ไม่ยากเลยใช่ไหม สำหรับการสร้าง Azure Data Factory (Basic) บน Microsoft Azure ซึ่งในบทความต่อๆ ไป ผู้เขียนจะเริ่มนำเอาเจ้า ADF มาทำ ETL ตั้งแต่ Basic จนถึงขั้น Advance เลย

0