Data Lake คืออะไร

Data Lake คือที่เก็บส่วนกลางซึ่งช่วยให้คุณจัดเก็บข้อมูลที่มีและไม่มีโครงสร้างในทุกขนาดได้ คุณสามารถจัดเก็บข้อมูลตามที่เป็นโดยไม่ต้องวางโครงสร้าง และยังสามารถใช้การวิเคราะห์ประเภทต่างๆ ได้ ตั้งแต่แดชบอร์ดและการแสดงภาพไปจนถึงการประมวลผล Big Data การวิเคราะห์แบบเรียลไทม์ และ Machine Learning เพื่อสร้างแนวทางการตัดสินใจที่ดีขึ้น

เหตุใจจึงจำเป็นต้องใช้ Data Lake

องค์กรที่สร้างคุณค่าทางธุรกิจจากข้อมูลของตนได้สำเร็จ จะส่งผลให้มีประสิทธิภาพการทำงานล้ำหน้าบริษัทคู่แข่งอื่นๆ จากการสำรวจ Aberdeen พบว่าองค์กรที่นำ Data Lake ไปใช้มีประสิทธิภาพดีกว่าบริษัทที่คล้ายคลึงกันในแง่การเติบโตของรายได้จากภายในถึง 9% องค์กรชั้นนำเหล่านี้สามารถใช้การวิเคราะห์ประเภทใหม่ เช่น Machine Learning กับแหล่งข้อมูลใหม่ๆ เช่น ไฟล์บันทึก ข้อมูลจากคลิกสตรีม โซเชียลมีเดีย และอุปกรณ์ที่เชื่อมต่ออินเทอร์เน็ตซึ่งจัดเก็บไว้ใน Data Lake การทำเช่นนี้ช่วยให้องค์กรเหล่านี้สามารถระบุและใช้โอกาสต่างๆ เพื่อทำให้ธุรกิจเติบโตได้รวดเร็วขึ้น โดยการดึงดูดและรักษาลูกค้า เพิ่มประสิทธิภาพการทำงาน การรักษาอุปกรณ์ในเชิงรุก และทำการตัดสินใจอย่างชาญฉลาด

องค์ประกอบสำคัญของ Data Lake และโซลูชันการวิเคราะห์มีอะไรบ้าง

เมื่อองค์กรต่างๆ สร้าง Data Lake และแพลตฟอร์มการวิเคราะห์ องค์กรเหล่านั้นจะต้องพิจารณาความสามารถหลักต่างๆ ซึ่งประกอบด้วย:

การย้ายข้อมูล

Data Lake ช่วยให้คุณนำเข้าข้อมูลจำนวนที่ต้องการได้แบบเรียลไทม์ ข้อมูลจะได้รับการรวบรวมจากแหล่งข้อมูลหลายแห่ง และย้ายไปที่ Data Lake ในรูปแบบต้นฉบับ กระบวนการนี้ช่วยให้คุณปรับขนาดข้อมูลเป็นขนาดที่ต้องการ ในขณะเดียวกันก็สามารถประหยัดเวลาในการกำหนดโครงสร้างของข้อมูล สคีมา และการแปลงข้อมูล

จัดเก็บและจัดทำแคตตาล็อกข้อมูลอย่างปลอดภัย

Data Lake ช่วยให้คุณจัดเก็บข้อมูลเชิงสัมพันธ์ได้ ไม่ว่าจะเป็นฐานข้อมูลการปฏิบัติงาน และข้อมูลจากแอปพลิเคชันหน่วยธุรกิจ รวมทั้งข้อมูลที่ไม่ใช่เชิงสัมพันธ์ เช่น ข้อมูลจากแอปมือถือ อุปกรณ์ IoT และโซเชียลมีเดีย นอกจากนี้ยังช่วยให้คุณเข้าใจว่ามีข้อมูลใดบ้างใน Data Lake ผ่านการรวบรวม การจัดทำแคตตาล็อก และการจัดทำดัชนีข้อมูล ท้ายสุด ข้อมูลจะต้องปลอดภัยเพื่อให้แน่ใจว่าข้อมูลของคุณจะได้รับการปกป้อง

การวิเคราะห์

Data Lake ช่วยให้ผู้คนในบทบาทต่างๆ ในองค์กรของคุณ เช่น นักวิทยาศาสตร์ข้อมูล, นักพัฒนาข้อมูล และนักวิเคราะห์ทางธุรกิจ สามารถเข้าถึงข้อมูลด้วยเครื่องมือและเฟรมเวิร์กที่ต้องการได้ โดยจะประกอบด้วยเฟรมเวิร์กแบบโอเพนซอร์ส เช่น Apache Hadoop, Presto และ Apache Spark รวมทั้งข้อเสนอเชิงพาณิชย์จากผู้ให้บริการคลังข้อมูลและธุรกิจอัจฉริยะ Data Lake ช่วยให้คุณเรียกใช้การวิเคราะห์ได้โดยไม่ต้องย้ายข้อมูลไปยังระบบวิเคราะห์อื่น

อ่านเกี่ยวกับการวิเคราะห์ข้อมูล »

แมชชีนเลิร์นนิง

Data Lake จะช่วยให้องค์กรสามารถสร้างข้อมูลเชิงลึกประเภทต่างๆ ได้ ซึ่งรวมถึงการรายงานข้อมูลเชิงประวัติศาสตร์ และการจัดทำแมชชีนเลิร์นนิงซึ่งมีการสร้างโมเดลเพื่อคาดการณ์ผลลัพธ์ที่น่าจะเกิดขึ้น และเสนอแนะการดำเนินการตามที่กำหนดเพื่อบรรลุผลลัพธ์ที่น่าพึงพอใจ

อ่านเกี่ยวกับแมชชีนเลิร์นนิง »

คลังข้อมูลและ Data Lake แตกต่างกันอย่างไร

องค์กรทั่วไปจะต้องใช้ทั้งคลังเก็บข้อมูลและ Data Lake เนื่องจากทั้งสองอย่างตอบโจทย์ความต้องการและใช้งานในกรณีที่แตกต่างกัน โดยจะขึ้นอยู่กับข้อกำหนดต่างๆ

คลังเก็บข้อมูลคือฐานข้อมูลที่ได้รับการปรับให้เหมาะสมเพื่อวิเคราะห์ข้อมูลเชิงสัมพันธ์ที่ได้มาจากระบบธุรกรรมและแอปพลิเคชันหน่วยธุรกิจ โครงสร้างของข้อมูลและสคีมาจะได้รับการกำหนดล่วงหน้าเพื่อปรับให้เหมาะสมสำหรับการสืบค้นด้วย SQL ที่รวดเร็ว ซึ่งมักจะใช้ผลลัพธ์ในการรายงานและวิเคราะห์การปฏิบัติงาน ข้อมูลจะได้รับการตัดทอน เสริมแต่ง และปรับเปลี่ยนเพื่อให้สามารถใช้เป็น “แหล่งที่มาของความจริงเพียงหนึ่งเดียว” ที่ผู้ใช้จะเชื่อถือได้

อ่านเกี่ยวกับคลังข้อมูล »

Data Lake กลับแตกต่างออกไป เนื่องจากจะจัดเก็บข้อมูลเชิงสัมพันธ์จากแอปพลิเคชันหน่วยธุรกิจ และข้อมูลที่ไม่ใช่เชิงสัมพันธ์จากแอปมือถือ อุปกรณ์ IoT และโซเชียลมีเดีย โครงสร้างของข้อมูลหรือสคีมาจะไม่ได้รับการกำหนดเมื่อมีการบันทึกข้อมูล ซึ่งหมายความว่าคุณสามารถจัดเก็บข้อมูลทั้งหมดได้โดยไม่ต้องออกแบบอย่างระมัดระวัง หรือต้องทราบคำถามที่ต้องหาคำตอบในอนาคต คุณสามารถใช้การวิเคราะห์ข้อมูลประเภทต่างๆ เช่น การสืบค้นด้วย SQL, การวิเคราะห์ด้วย Big Data, การค้นหาข้อความเต็ม, การวิเคราะห์แบบเรียลไทม์ และ Machine Learning เพื่อค้นพบข้อมูลเชิงลึกได้

เมื่อองค์กรที่ใช้คลังเก็บข้อมูลมองเห็นประโยชน์ของ Data Lake องค์กรเหล่านี้จึงพัฒนาคลังเก็บข้อมูลของตนให้รวม Data Lake เอาไว้ ทำให้สามารถใช้การสืบค้นได้หลากหลาย รวมถึงใข้กรณีใช้งานวิทยาศาสตร์ข้อมูล และความสามารถขั้นสูงในการค้นพบข้อมูลรูปแบบใหม่ๆ Gartner เรียกวิวัฒนาการนี้ว่า “โซลูชันการจัดการข้อมูลสำหรับการวิเคราะห์” หรือ “DMSA

สำหรับการเปรียบเทียบข้อมูลเชิงลึกระหว่าง Data Lake และคลังข้อมูล โปรดดูที่หน้าเปรียบเทียบ Data Lake และคลังข้อมูลโดยเฉพาะของเรา

ค่าของ Data Lake คืออะไร

ความสามารถในการใช้ประโยชน์จากข้อมูลที่มากขึ้น จากแหล่งข้อมูลที่มากขึ้น ในระยะเวลาที่น้อยลง และเพิ่มขีดความสามารถให้กับผู้ใช้ในการทำงานร่วมกันและวิเคราะห์ข้อมูลด้วยวิธีการต่างๆ ซึ่งจะนำไปสู่การตัดสินใจที่ดีขึ้น และเร็วขึ้น ตัวอย่างที่ที่ Data Lake เพิ่มค่ามีดังนี้:

การโต้ตอบกับลูกค้าที่ได้รับการปรับปรุง

Data Lake สามารถรวมข้อมูลของลูกค้าจากแพลตฟอร์ม CRM เข้ากับการวิเคราะห์โซเชียลมีเดีย และแพลตฟอร์มการตลาดซึ่งประกอบด้วยประวัติการซื้อ และตั๋วเหตุการณ์เพื่อเพิ่มขีดจำกัดให้กับธุรกิจในการทำความเข้าใจกลุ่มลูกค้าที่สร้างผลกำไรให้มากที่สุด สาเหตุในการเปลี่ยนแปลงของลูกค้า และโปรโมชันหรือรางวัลที่จะเพิ่มความภักดี

ปรับปรุงทางเลือกนวัตกรรมด้านการวิจัยและพัฒนา

Data Lake สามารถช่วยทีมวิจัยและพัฒนาในการทดสอบสมมติฐาน ปรับแก้ข้อสมมติฐาน และประเมินผลลัพธ์ เช่น การเลือกวัสดุที่ใช้สำหรับการออกแบบผลิตภัณฑ์จะช่วยให้มีประสิทธิภาพที่รวดเร็วขึ้น การวิจัยทางพันธุกรรมจะนำไปสู่การรักษาด้วยยาที่มีประสิทธิภาพยิ่งขึ้น หรือการทำความเข้าใจความสมัครใจของลูกค้าที่จะยอมจ่ายเพื่อให้ได้คุณลักษณะต่างๆ

เพิ่มประสิทธิภาพด้านการปฏิบัติงาน

Internet of Things (IoT) เพิ่มวิธีการในการรวบรวมข้อมูลในกระบวนการต่างๆ เช่น การผลิต โดยใช้ข้อมูลเรียลไทม์ที่ได้รับจากอุปกรณ์ที่เชื่อมต่ออินเทอร์เน็ต Data Lake ช่วยให้สามารถจัดเก็บและเรียกใช้การวิเคราะห์ข้อมูล IoT ที่สร้างโดยเครื่องจักรเพื่อค้นหาวิธีการลดต้นทุนการปฏิบัติงานและเพิ่มคุณภาพ

อ่านเกี่ยวกับ Internet of Things (IoT) »

อะไรคือความท้าทายของ Data Lake

ความท้าทายหลักของสถาปัตยกรรม Data Lake คือการที่ข้อมูลดิบจะได้รับการจัดเก็บโดยไม่มีการควบคุมเนื้อหา ในการที่ข้อมูลใน Data Lake จะใช้งานได้ จะต้องมีการกำหนดกลไกเพื่อจัดหมวดหมู่และรักษาความปลอดภัยข้อมูล หากไม่มีองค์ประกอบเหล่านี้ ข้อมูลจะไม่ได้รับการค้นพบหรือน่าเชื่อถือ ซึ่งจะนำไปสู่ “Data Swamp” เพื่อตอบโจทย์ความต้องการของลูกค้าในวงกว้างขึ้น Data Lake จะต้องมีการบริหารจัดการ มีความสอดคล้องเชิงความหมาย และมีการควบคุมการเข้าถึง

คุณนำ Data Lake ในระบบคลาวด์ไปใช้จริงได้อย่างไร

Data Lake คือเวิร์กโหลดที่เหมาะสมที่สุดสำหรับการปรับใช้ในระบบคลาวด์ เนื่องจากระบบคลาวด์จะมอบประสิทธิภาพ ความสามารถในการปรับขนาด ความเสถียร ความพร้อมให้บริการ ชุดเครื่องมือการวิเคราะห์ต่างๆ และการประหยัดต่อขนาดในปริมาณมากได้ การวิจัย ESG พบว่าผู้ตอบแบบสอบถาม 39% พิจารณาว่าระบบคลาวด์เป็นระบบหลักที่นำไปใช้จริงสำหรับการวิเคราะห์ของพวกเขา 41% สำหรับคลังข้อมูล และอีก 43% สำหรับ Spark เหตุผลหลักที่ลูกค้ารู้สึกว่าระบบคลาวด์เป็นจุดเด่นของ Data Lake คือความปลอดภัยที่ดีกว่า ใช้เวลาน้อยกว่าในการนำไปใช้จริง ความพร้อมให้บริการที่ดีกว่า การอัปเดตคุณสมบัติ/ฟังก์ชันที่บ่อยกว่า ความยืนหยุดที่มากขึ้น ความครอบคลุมทางภูมิศาสตร์ที่มากกว่า และต้นทุนที่เชื่อมโยงกับการใช้งานจริง

AWS จะสนับสนุนข้อกำหนดของ Data Lake ของคุณได้อย่างไร

AWS มอบบริการที่ปลอดภัยสูงสุด ปรับขนาดได้ ครอบคลุม และประหยัดค่าใช้จ่ายซึ่งช่วยให้ลูกค้าสามารถสร้าง Data Lake ในระบบคลาวด์ และวิเคราะห์ข้อมูลทั้งหมด อันประกอบด้วยข้อมูลจากอุปกรณ์ IoT ด้วยแนวทางเชิงเคราะห์ที่หลากหลายซึ่งรวมถึง Machine Learning ผลที่ตามมาคือการมีองค์กรจำนวนมากขึ้นที่ใช้ Data Lake และการวิเคราะห์บน AWS มากกว่าในแพลต์ฟอร์มอื่นๆ โดยมีตัวอย่างลูกค้าเช่น NETFLIX, Zillow, NASDAQ, Yelp, iRobot และ FINRA ที่ไว้วางใจ AWS ในการดำเนินงานวิเคราะห์ที่สำคัญทางธุรกิจ

เริ่มต้นใช้งาน Data Lake บน AWS โดยสร้างบัญชีได้แล้ววันนี้

ขั้นตอนต่อไปบน AWS

ดูแหล่งข้อมูลเกี่ยวกับผลิตภัณฑ์เพิ่มเติม
ดูข้อเสนอฟรีสำหรับบริการวิเคราะห์ในระบบคลาวด์ 
ลงชื่อสมัครใช้บัญชีฟรี

รับสิทธิ์การเข้าถึง AWS Free Tier ได้ทันที

ลงชื่อสมัครใช้งาน 
เริ่มต้นการสร้างในคอนโซล

เริ่มต้นสร้างในคอนโซลการจัดการของ AWS

ลงชื่อเข้าใช้