Benchmark: apa itu? Untuk apa ini? sejarah, jenis dan tip

Daftar Isi:

Sejarah
Jenis tolok ukur
Pertimbangan saat melakukan benchmarking
Kesimpulan

Benchmark adalah bagian penting dari analisis perangkat keras harian kami, mereka memungkinkan kami untuk menawarkan kepada Anda pengukuran yang sebanding secara ilmiah antara berbagai komponen seperti CPU, kartu grafis, unit penyimpanan, dll. Hari ini kita akan mendedikasikan beberapa baris untuk sejarahnya, untuk tipenya, bagaimana mereka bekerja, apa yang mereka ukur, apa ukuran yang paling umum dan kami juga akan memberikan Anda beberapa tips tentang bagaimana melaksanakannya dan mana yang harus kita percayai.

Apa yang kita ketahui hari ini di PC atau dunia mobile sebagai tolok ukur adalah teknik yang diwarisi dari lingkungan industri yang telah memungkinkan, sejak awal revolusi ini, pengambilan keputusan berdasarkan data yang sebanding dalam lingkungan yang terkontrol.

Dunia komputasi modern menerapkan teknik-teknik ini pada hampir semua domainnya yang berbeda, dan pengguna rumahan juga telah mengadopsinya sebagai cara yang dapat diandalkan untuk mempelajari kinerja dan kemampuan sistem kami serta titik informasi penting saat untuk membuat keputusan penting, seperti pembelian komputer baru , ponsel, kartu grafis, dll.

Hari ini kita akan berbicara tentang sejarah tolok ukur PC, jenis tolok ukur yang ada dan komponen apa dari sistem kami yang lebih cocok untuk jenis tes yang tidak hanya kinerja.

Indeks isi

Sejarah

Benchmark atau sistem pengukuran menerapkan lingkungan yang terkendali dan langkah-langkah yang dapat dikenali yang secara ilmiah dapat diperbandingkan dan dapat diverifikasi serta telah hidup berdampingan dengan dunia komputer sejak ada. Benchmark, dengan demikian, telah didemokratisasikan ke titik di mana sebagian esensi fundamentalnya telah hilang, yaitu bahwa ia dapat diaudit dan diverifikasi oleh pihak ketiga. Sekarang kami menggunakannya lebih sebagai perbandingan kinerja yang cepat, tetapi ketertelusuran kejujurannya oleh pihak ketiga sudah pasti hilang.

Metode benchmark paling klasik selalu mengacu pada kapasitas komputasi CPU sistem, meskipun dalam beberapa kali ini telah bervariasi antara komponen yang berbeda, karena ini telah mendapatkan keunggulan dan pentingnya dalam komputer.

Dua unit pengukuran paling klasik yang masih diterapkan adalah Dhrystones dan Whetstones. Keduanya, dalam beberapa hal, menjadi dasar dari semua tolok ukur sintetis yang kita kenal sekarang.

Yang tertua adalah Whetstones (lokalitas di Inggris di mana divisi energi atom dari perusahaan listrik negara Inggris Raya berada) dan Dhrystone kemudian datang bermain dengan nama yang pertama (basah dan kering).

Yang pertama dirancang pada tahun 70-an dan yang kedua dari tahun 80-an dan keduanya merupakan dasar kinerja komparatif yang kami miliki di tahun-tahun berikutnya. Whetstones, menyederhanakan, menawarkan wawasan tentang kekuatan komputasi prosesor dalam operasi floating point, operasi dengan sejumlah besar desimal.

Dhrystone adalah pasangannya karena didedikasikan untuk instruksi dasar tanpa desimal, keduanya memberikan gambaran yang jelas tentang kinerja prosesor dari dua pendekatan yang sama sekali berbeda, tetapi saling melengkapi. Whetstones dan Dhrystone diturunkan menjadi dua konsep yang kami gunakan jauh lebih umum saat ini, MIPS dan FLOP.

Setelah pengukuran ini datang yang lain seperti FLOP (Floating-point Arithmetic - floating point arithmetic) yang, sebagian besar, sekarang lebih penting di komputer daripada sebelumnya karena merupakan dasar perhitungan lanjutan dalam banyak teknik modern. seperti algoritma kecerdasan buatan, algoritma medis, prakiraan cuaca, logika fuzzy, enkripsi, dll.

LINPACK dikembangkan oleh insinyur Jack Dongarra pada 1980-an dan terus digunakan sampai sekarang untuk mengukur kapasitas komputasi floating point dari semua jenis sistem. Saat ini ada versi yang dioptimalkan oleh arsitektur, produsen CPU, dll.

FLOPS mengisi artikel kami pada kartu grafis (tentu saja suara presisi tunggal atau ganda yang dikenal), prosesor dan merupakan dasar untuk menghitung kebutuhan daya dan pengembangan perangkat keras untuk setiap superkomputer yang sedang beroperasi atau dikembangkan.

FLOP saat ini merupakan unit pengukuran kinerja yang paling dibutuhkan di industri, tetapi selalu dikombinasikan dengan MIPS (Jutaan instruksi per detik) yang merupakan ukuran pengukuran yang menarik, karena memberikan kita sejumlah instruksi Aritmatika dasar yang dapat dijalankan prosesor per detik, tetapi itu lebih tergantung pada arsitektur prosesor (ARM, RISC, x86, dll.) Dan bahasa pemrograman daripada unit pengukuran lainnya.

Ketika kinerjanya telah maju, pengganda telah terjadi. Kami sekarang mengukur kinerja CPU rumahan di GIPS dan GFLOPS. Basis tetap sama, operasi aritmatika klasik. Sisoft Sandra terus menawarkan kepada kami jenis pengukuran ini di beberapa tolok ukur sintetisnya.

MIPS juga telah lebih terdegradasi ke CPU sebagai elemen klasik dan FLOP telah meluas ke area berkembang lainnya seperti kapasitas pemrosesan atau perhitungan umum dari mantan prosesor yang sangat berorientasi pada tugas-tugas spesifik seperti GPU yang kita semua pasang pada prosesor kami atau di kartu ekspansi kami yang berdedikasi.

Untuk konsep dasar ini, waktu telah menambahkan unit pengukuran baru sebanyak atau lebih penting daripada ini dalam komputer atau superkomputer modern. Transit data adalah salah satu dari langkah-langkah ini yang menjadi sangat penting dan saat ini diukur dalam IOP (operasi input dan output per detik) dan juga dalam bentuk lain seperti ukuran penyimpanan MB / GB / TB dibandingkan dengan waktu yang diperlukan untuk transit dari satu titik ke titik lainnya (MBps - Megabita per detik).

AS-SSD dapat mengukur kinerja hard disk dalam MBps atau IOP.

Saat ini kami juga menggunakan ukuran transfer, dalam pengganda yang berbeda, sebagai cara untuk menginterpretasikan kecepatan transit informasi antara dua titik ketika untuk memancarkan informasi tertentu kami sebenarnya harus telah menghasilkan sedikit lebih banyak informasi. Ini tergantung pada protokol yang digunakan untuk transfer informasi.

Contoh yang jelas, dan yang sering kami gunakan, ada di antarmuka PCI Express. Di bawah protokol ini, untuk setiap 8 bit informasi yang ingin kami pindahkan (0 atau 1) kami harus menghasilkan 10 bit informasi karena informasi tambahan itu untuk mengendalikan komunikasi yang dikirim untuk koreksi kesalahan, integritas data, dll.

Protokol terkenal lainnya yang juga memperkenalkan "kehilangan" informasi nyata ini adalah IP, yang Anda gunakan untuk membaca artikel ini dan yang membuat koneksi 300MT / s Anda sebenarnya menawarkan kecepatan kurang dari 300mbps.

Oleh karena itu, kami menggunakan Gigatransfer atau transfer ketika kami merujuk pada informasi mentah yang dikirim oleh antarmuka, dan bukan ke informasi yang sebenarnya diproses di penerima. Bus data 8GT / s PCI Express 3.0 sebenarnya mengirimkan 6, 4GBps informasi untuk setiap jalur yang terhubung di antara titik-titik tersebut. Transfer menjadi sangat penting dengan integrasi protokol PCI Express di semua bus utama di rumah dan komputer profesional.

Dalam beberapa waktu terakhir kami juga mulai menggabungkan langkah-langkah sebagai cara menghubungkan kekuatan pemrosesan dengan faktor-faktor lain yang sangat penting dalam komputasi modern, dengan konsumsi menjadi salah satu dari langkah-langkah ini yang diperkenalkan sebagai skala komparatif antara kinerja dua sistem. Efisiensi energi sama pentingnya atau lebih penting saat ini daripada daya proses dan oleh karena itu mudah untuk melihat tolok ukur yang membandingkan daya proses sesuai dengan watt konsumsi elemen dalam pengukuran.

Faktanya, salah satu daftar superkomputer yang hebat tidak merujuk begitu banyak pada daya kotor komputer di antara semua node komputasi tetapi pada pengembangan daya yang didasarkan pada watt atau energi yang dikonsumsi oleh seluruh sistem. Daftar Green500 (FLOPS per watt - FLOPS per watt) adalah contoh yang jelas tentang bagaimana konsumsi sekarang menjadi dasar untuk tolok ukur harga diri apa pun, meskipun tanpa ragu kita semua terus melihat dengan cermat pada daftar TOP500 yang tidak memiliki faktor ini sebagai faktor pengkondisian.

Jenis tolok ukur

Meskipun kita dapat berbicara tentang lebih banyak keluarga atau jenis tolok ukur, saya akan menyederhanakan daftar di dua kelas paling umum dari mereka yang paling dekat dengan kita semua sebagai pengguna yang kurang lebih maju.

Di satu sisi, kami memiliki tolok ukur sintetis yang sebagian besar adalah yang menawarkan kepada kami ukuran yang telah kami bicarakan sebelumnya. Benchmark sintetis adalah program yang melakukan pengujian terkontrol dengan kode program yang kurang lebih stabil yang berorientasi untuk platform dan arsitektur tertentu. Mereka adalah program yang melakukan pengujian sangat spesifik yang dapat mengintegrasikan satu atau lebih komponen kami, tetapi di mana pengujian atau pengujian yang sama selalu dilakukan, tanpa perubahan.

Rendering gambar selalu menjadi metode yang baik untuk mengetahui kinerja CPU dalam sistem modern karena itu adalah tugas yang menuntut. Cinebench R15 juga memiliki beberapa tes, satu untuk GPU dan dua untuk CPU, di mana kita dapat mengetahui kinerja sistem dengan banyak core dan proses thread.

Mereka menawarkan lingkungan pengujian terkontrol, di mana tidak ada perubahan kecuali untuk versi dan di mana perubahan ini didokumentasikan dengan baik sehingga pengguna tahu versi mana yang dapat dibandingkan satu sama lain. Jenis-jenis program ini dapat menguji berbagai subsistem komputer kita secara terpisah, dengan potongan kode lain atau tolok ukur khusus untuk melakukan jenis pengujian tertentu, atau gabungan yang dapat dipengaruhi oleh kinerja satu, dua atau lebih komponen sistem. Benchmark terintegrasi dalam permainan, atau program seperti Cinebench, Sisoft Sandra, SuperPI, 3DMark,… adalah contoh jelas dari tolok ukur sintetis.

Tolok ukur sintetis lain yang tidak boleh kita bingungkan dengan tolok ukur nyata adalah mereka yang mensimulasikan pelaksanaan program nyata, atau yang menjalankan skrip tindakan dalam program nyata, mereka juga sintetis karena tidak ada keacakan dalam pengujian, PC Mark adalah contoh yang jelas dari Program benchmark sintetis yang bisa kita bingungkan dengan benchmark nyata.

Benchmark aktual adalah metode pengujian yang sangat berbeda karena ia menerima keacakan menggunakan program untuk mengukur kinerjanya. Pemain terbiasa melakukan tolok ukur atau tes kinerja jenis ini ketika kami menyesuaikan parameter kualitas permainan dengan kemungkinan perangkat keras kami.

Mengukur kinerja permainan saat Anda bermain adalah tolok ukur yang nyata.

Ketika Anda membuka FPS yang diberikan game dan mencoba mencapai 60FPS yang diinginkan secara terus-menerus, maka mereka melakukan tolok ukur nyata. Hal yang sama dapat diekstrapolasi ke semua jenis program lain dan jika Anda seorang pengembang, ketika Anda mengoptimalkan kode program Anda, maka Anda juga melakukan tes benchmark nyata di mana perubahan adalah kode Anda, atau cara menjalankannya, pada platform perangkat keras yang stabil atau variabel.

Kedua jenis tolok ukur itu penting, yang pertama memungkinkan kami untuk membandingkan sistem kami dengan orang lain dalam lingkungan yang terkendali dan yang kedua adalah cara untuk mengoptimalkan operasi kami di mana dua faktor penting juga ditambahkan, keacakan dalam pelaksanaan dan faktor manusia. Kedua faktor menawarkan sudut pandang tambahan pada kinerja komponen atau komponen yang ingin kami uji.

Pertimbangan saat melakukan benchmarking

Agar tolok ukur menjadi berguna dan efektif, kita harus memperhitungkan faktor-faktor tertentu yang sangat penting. Membandingkan antara platform dan arsitektur yang berbeda memperkenalkan faktor ketidakpastian penting, itulah mengapa jenis tolok ukur yang memberi Anda kemampuan untuk membandingkan ponsel iOS dengan komputer Windows x86, untuk memberikan contoh, Anda harus membawanya dengan pinset karena tidak hanya perubahan. kernel sistem operasi, tetapi arsitektur prosesor sangat berbeda. Pengembang jenis benchmark ini (misalnya, Geekbench) memperkenalkan faktor koreksi antara versi mereka yang berbeda yang hampir tidak dapat dikontrol.

Oleh karena itu, kunci pertama untuk suatu tolok ukur yang dapat diperbandingkan antara perangkat keras yang berbeda adalah bahwa ekosistem pengujian sama mungkin dengan platform benchmark, sistem operasi, driver dan versi perangkat lunak. Pasti akan ada elemen di sini yang tidak dapat kita kontrol untuk dihomogenisasi, seperti pengontrol grafis jika kita menguji grafis AMD terhadap grafik Nvidia, tetapi sisanya harus kita coba untuk membuatnya se-stabil mungkin. Dalam hal ini, kami juga akan menyertakan perangkat keras, karena untuk membandingkan kartu grafis, Anda harus menggunakan sistem operasi yang sama, prosesor yang sama, memori yang sama dan semua parameter operasi, menjaganya tetap sama, termasuk parameter kualitas, resolusi, dan pengujian dalam benchmark. Semakin stabil ekosistem pengujian kami, semakin dapat diandalkan dan sebanding hasil kami.

Kami merekomendasikan membaca Bagaimana mengetahui apakah prosesor saya mengalami hambatan?

Hal lain yang harus kita perhitungkan adalah bahwa tes benchmark biasanya memiliki faktor stres pada perangkat keras yang akan kita uji dan biasanya membuat perangkat keras ini menghadapi situasi yang biasanya tidak akan terjadi dalam penggunaan normal sistem. Setiap tolok ukur yang kami lepaskan dari hard drive, kartu grafis, atau prosesor kami, mengirimkannya ke situasi yang dapat berbahaya bagi perangkat keras, jadi kami harus menetapkan langkah-langkah yang tepat sehingga titik stres tidak menjadi titik patah atau juga di elemen pengurangan kinerja karena banyak komponen memiliki sistem perlindungan yang dengannya mereka mengurangi kinerjanya seandainya, misalnya, suhu di luar kisaran penggunaannya. Pendinginan yang memadai, periode istirahat di antara pengujian, pengumpanan yang benar dari komponen yang diuji… semuanya harus berada dalam situasi yang ideal agar pengujian dapat berjalan dengan lancar.

Di sisi lain, kami juga menggunakan tolok ukur jenis ini untuk menekan sistem agar dapat melihat kestabilannya dalam situasi seperti ini, ini adalah cara yang berbeda untuk menerapkan tolok ukur karena tidak hanya mencari tahu kinerja tetapi juga jika sistem stabil dan bahkan lebih, jika sistem melakukan sebagaimana mestinya dalam situasi yang penuh tekanan ini.

Kesimpulan

Bagi kita yang berdedikasi untuk menguji perangkat keras komputer secara profesional, benchmark adalah alat yang berfungsi dan berkat itu, pengguna memiliki cara ilmiah dan dapat diverifikasi untuk membandingkan atau mengetahui kinerja komputer berikutnya di setiap subsistemnya dengan presisi. sebanding dengan alat yang digunakan di tingkat industri.

Tabel pengujian, seperti yang Anda lihat dalam gambar, berupaya untuk membakukan metode pengujian dengan tepat, sehingga tolok ukur komparatif dapat diandalkan dan mungkin dapat diuji saat memperkenalkan variasi yang mengubah hasil.

Tetapi seperti halnya tes "laboratorium", agar dapat diandalkan, kondisi yang tepat harus ada untuk dilaksanakan, dan bahkan lebih sehingga dapat dibandingkan antara sistem yang berbeda.

Hari ini kami telah memberi tahu Anda sedikit tentang sejarah jenis program ini, berbagai jenisnya, cara kerjanya, dan cara mendapatkan informasi yang dapat diandalkan dari mereka. Mereka berguna, tetapi bagi saya mereka hanya satu informasi lagi yang perlu diingat dan saya akan selalu menempatkannya di belakang pengalaman pribadi dan pengujian aktif dengan program nyata yang akan kita gunakan setiap hari.

Suatu tolok ukur baik-baik saja untuk menempatkan data kinerja minimum dalam proses pengambilan keputusan kami, tetapi mereka tidak boleh mendefinisikan keputusan itu dan, sebagai tip terakhir, hindari tolok ukur sintetis yang mengklaim dapat membandingkan kinerja antara arsitektur, sistem operasi, dll.

Daftar Isi:

Sejarah

Jenis tolok ukur

Pertimbangan saat melakukan benchmarking

Kesimpulan

Pilihan Editor