Digitization ಅಥವಾ computerisationನ ಬೆಳವಣಿಗೆಯಿಂದ ಜಗತ್ತಿನಲ್ಲಿ ಪ್ರತಿ ಕ್ಷಣಕ್ಕೆ ಎಷ್ಟು data ಉತ್ಪತ್ತಿ ಆಗುತ್ತದೇನುದನ್ನು ಊಹಿಸಲೂ ಅಸಾಧ್ಯ.
ಈ ಡೇಟಾವನ್ನು ಅರ್ಥೈಸಲು, ಅಂದರೆ analyse ಮಾಡುವ ಮೊದಲು ಈ ಉತ್ಪತ್ತಿ ಆಗುತ್ತಿರುವ ಡೇಟಾ ದ ಸೈಜ್ ಹಾಗೂ ಅದನ್ನು handle ಮಾಡಲು ಬೇಕಾಗುವ ಇನ್ಫ್ರಾಸ್ಟ್ರಕ್ಚರ್ ಅನ್ನು ತಿಳಿದುಕೊಳ್ಳುವುದು ಮುಖ್ಯ. ಅದರ ಒಂದು ಉದಾಹರಣೆ ಇದು:
ಇಲ್ಲಿ ಕಾಣುವಂತೆ, ಪ್ರತಿ ಕ್ಷಣ ಡೇಟಾ generate ಆಗುವ ಮೊತ್ತ ಅಗಾಧಕರ. ಇದನ್ನು ಮಾಮೂಲಿ traditional data ಸ್ಟೋರೇಜ್ ಹಾಗೂ ಡೇಟಾ ಪ್ರೊಸೆಸಿಂಗ್ ಇನ್ಫ್ರಾಸ್ಟ್ರಕ್ಚರ್ ಮೂಲಕ manage ಮಾಡುವುದು ಅತೀ ಕಠಿಣ.
ನಿಮಗೆ ಅನಿಸುತ್ತಿದೆಯೇ, Quora Kannada ದಲ್ಲಿ ಪೋಸ್ಟ್ ಆಗುವ ಪ್ರಶ್ನೋತ್ತರಗಳನ್ನು ಕೇವಲ conventional ಡೇಟಾಬೇಸ್ಗಳಾದ Oracle, SQL ಗಳಲ್ಲಿ ಸ್ಟೋರ್ ಮಾಡಬಹುದೆಂದು? ಖಂಡಿತ ಆಗುವುದಿಲ್ಲ.
ಈ ರೀತಿಯ ಬೃಹತ್ ಗಾತ್ರದ ಡೇಟಾವನ್ನು ಬಿಗ್ ಡೇಟಾ ಎಂದು ಕರೆಯುತ್ತಾರೆ.
ಬಿಗ್ ಡೇಟಾದ ವಿಶಿಷ್ಟಗಳು ಹೀಗಿವೆ ಹಾಗೂ ಅವುಗಳನ್ನು Four V ಎಂದು ಕರೆಯುತ್ತಾರೆ:
- Volume
ಇದು Obvious
2. Velocity
Healthcare ಹಾಗೂ ವಾಹನಗಳ rfid tags ಇಂದ ಕ್ಷಣ ಕ್ಷಣಕ್ಕೂ ಉತ್ಪತ್ತಿಯಾಗುವ ಡೇಟಾ
3. Veracity
ಆ ಡೇಟಾ ದ ಸತ್ಯಾಸತ್ಯತೆ.
4. Variety
ಯಾವ ಥರದ ಡೇಟಾ ಜನರೇಟ್ ಆಗ್ತಿದೆ?
ಸಧ್ಯಕ್ಕೆ ಹಲವಾರು ಫ್ರೇಂವರ್ಕ್ಸ್ ಬಳಕೆಯಲ್ಲಿದೆ ಬಿಗ್ ಡೇಟಾವನ್ನು analyse ಮಾಡಲು. ಅವೆಲ್ಲದರಳಲಿ ಅತಿ ಖ್ಯಾತಿ ಹೊಂದಿರುವುದು Hadoop.